1 adnb34g

尚未进行身份认证

暂无相关描述

等级
博文 177
排名 3w+

python使用jieba实现中文文档分词和去停用词

分词工具的选择:  现在对于中文分词,分词工具有很多种,比如说:jieba分词、thulac、SnowNLP等。在这篇文档中,笔者使用的jieba分词,并且基于python3环境,选择jieba分词的理由是其比较简单易学,容易上手,并且分词效果还很不错。分词前的准备:待分词的中文文档存放分词之后的结果文档中文停用词文档(用于去停用词,在网上可以找到很多)分词之后...

2019-06-19 09:53:52

Hanlp配置自定义词典遇到的问题与解决方法

本文是整理了部分网友在配置hanlp自定义词典时遇到的一小部分问题,同时针对这些问题,也提供另一些解决的方案以及思路。这里分享给大家学习参考。要使用hanlp加载自定义词典可以通过修改配置文件hanlp.properties来实现。要注意的点是:1.root根路径的配置:hanlp.properties中配置如下:#本配置文件中的路径的根目录,根目录+其他路径=完整路径(支持相...

2019-06-17 09:40:50

HanLP-分类模块的分词器介绍

最近发现一个很勤快的大神在分享他的一些实操经验,看了一些他自己关于hanlp方面的文章,写的挺好的!转载过来分享给大家!以下为分享原文(无意义的内容已经做了删除)如下图所示,HanLP的分类模块中单独封装了适用分类的分词器,当然这些分词器都是对HanLP提供的分词器的封装。分类模块中提供的分词器都在tokenizer包中。包括:BigramTokenizer这是一个2gram分词器,也就是...

2019-06-14 09:54:19

elasticsearch教程--中文分词器作用和使用

概述本文都是基于elasticsearch安装教程中的elasticsearch安装目录(/opt/environment/elasticsearch-6.4.0)为范例环境准备·全新最小化安装的centos7.5·elasticsearch6.4.0认识中文分词器在博文elasticsearch分词器中提到elasticsearch能够快速的通过搜索词检索出...

2019-06-12 09:00:17

HanLP-最短路径分词

今天介绍的内容是最短路径分词。最近换回了thinkpadx1,原因是mac的13.3寸的屏幕看代码实在是不方便,也可能是人老了吧,^_^。等把HanLP词法分析介绍结束后,还是会换回macbookpro的。个人有强迫症,只要看或写Java或C/C++代码或者用开发机的化,还是喜欢在windows下工作。看论文特别是理论的研究还是习惯用mac了。感觉开发还是windows比较顺手,理论研究...

2019-06-05 10:27:10

史上最全中文分词工具整理

一.中文分词二.准确率评测:THULAC:与代表性分词软件的性能对比我们选择LTP-3.2.0、ICTCLAS(2015版)、jieba(C++版)等国内具代表性的分词软件与THULAC做性能比较。我们选择Windows作为测试环境,根据第二届国际汉语分词测评(TheSecondInternationalChineseWordSegmentationBakeof...

2019-06-03 10:15:00

NLP自然语言处理中英文分词工具集锦与基本使用介绍

一、中文分词工具(1)Jieba(2)snowNLP分词工具(3)thulac分词工具(4)pynlpir分词工具(5)StanfordCoreNLP分词工具1.fromstanfordcorenlpimportStanfordCoreNLP2.withStanfordCoreNLP(r'E:\Users\EternalSu...

2019-05-31 09:47:43

部分常用分词工具使用整理

以下分词工具均能在Python环境中直接调用(排名不分先后)。1、jieba(结巴分词)免费使用2、HanLP(汉语言处理包)免费使用3、SnowNLP(中文的类库)免费使用4、FoolNLTK(中文处理工具包)免费使用5、Jiagu(甲骨NLP)免费使用6、pyltp(哈工大语言云)商用需要付费7、THULAC(清华中文词法分析工具包)商用需要付费8...

2019-05-29 09:23:52

HanLP-实词分词器

在进行文本分类(非情感分类)时,我们经常只保留实词(名、动、形)等词,为了文本分类的分词方便,HanLP专门提供了实词分词器类NotionalTokenizer,同时在分类数据集加载处理时,默认使用了NotionalTokenizer分词器。在HanLPJava版代码库中可以查看下边的文件中的函数1、AbstractDataSet.java文件中的AbstractDataSet方法...

2019-05-27 09:59:35

Eclipse myeclipse下配置HanLP的教程

一、说明博主的配置1:window102:myeclipse3:jdk1.8备注:文章分享自贾继康的博客,博客使用的hanlp是1.6.8的版本。大家可以去下载最新的1.7版本了,也比较推荐使用最新的这个版本!二、资源获取1、hanlpjar包获取:可以github上下载。本文中使用的是hanlp-1.6.8.zip版本2、数据包获取三、配...

2019-05-24 09:24:53

HanLP-停用词表的使用示例

停用词表的修改停用词表在“pyhanlp\static\data\dictionary”路径下的“stopwords.txt”文件中,CoreStopWordDictionary.apply方法支持去除停用词。如果需要修改停用词表,则直接编辑文件“stopwords.txt”,之后删除路径下的“stopwords.txt.bin”,运行CoreStopWordDictionary.apply后...

2019-05-22 08:56:05

自然语言处理工具hanlp定制用户词条

作者:baiziyu关于hanlp的文章已经分享过很多,似乎好像大部分以理论性的居多。最近有在整理一些hanlp应用项目中的文章,待整理完成后会陆续分享出来。本篇分享的依然是由baiziyu分享的一篇文章,感兴趣的可以在知乎上关注下他的专栏,写的还是挺好的!以下为文章的主要内容:自定义词表的修改自定义词表在“pyhanlp\static\data\dictionary\custo...

2019-05-20 09:01:31

自然语言处理工具pyhanlp分词与词性标注

Pyhanlp分词与词性标注的相关内容记得此前是有分享过的。可能时间太久记不太清楚了。以下文章是分享自“baiziyu”所写(小部分内容有修改),供大家学习参考之用。简介pyhanlp是HanLP的Python接口。因此后续所有关于pyhanlp的文章中也会写成HanLP。HanLP是完全用Java自实现的自然语言处理工具包。特点是完全用Java实现不引入第三方工具包。完全开源。中文的开源...

2019-05-18 09:40:45

自然语言处理工具HanLP-N最短路径分词

本篇给大家分享baiziyu写的HanLP中的N-最短路径分词。以为下分享的原文,部分地方有稍作修改,内容仅供大家学习交流!首先说明在HanLP对外提供的接口中没有使用N-最短路径分词器的,作者在官网中写到这个分词器对于实体识别来说会比最短路径分词稍好,但是它的速度会很慢。对此我有点个人看法,N-最短路径分词相较于最短路径分词来说只是考虑了每个节点下的N种最佳路径,在最后选出的至少N条路径...

2019-05-17 08:58:55

比较好的中文分词方案汇总推荐

中文分词是中文文本处理的一个基础步骤,也是中文人机自然语言交互的基础模块。不同于英文的是,中文句子中没有词的界限,因此在进行中文自然语言处理时,通常需要先进行分词,分词效果将直接影响词性、句法树等模块的效果。当然分词只是一个工具,场景不同,要求也不同。在人机自然语言交互中,成熟的中文分词算法能够达到更好的自然语言处理效果,帮助计算机理解复杂的中文语言。竹间智能在构建中文自然语言对话系统时,结合...

2019-05-13 09:38:00

自然语言处理工具hanlp 1.7.3版本更新内容一览

HanLP1.7.3发布了。HanLP是由一系列模型与算法组成的Java工具包,目标是普及自然语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。在提供丰富功能的同时,HanLP内部模块坚持低耦合、模型坚持惰性加载、服务坚持静态提供、词典坚持明文发布,使用非常方便,同时自带一些语料处理工具,帮助用户训练自己的模型。新版更新...

2019-05-10 09:18:09

Spark中分布式使用HanLP(1.7.0)分词示例

HanLP分词,如README中所说,如果没有特殊需求,可以通过maven配置,如果要添加自定义词典,需要下载“依赖jar包和用户字典".分享某大神的示例经验:是直接"javaxfhanlp-1.6.8-sources.jar"解压源码,把源码加入工程(依赖本地jar包,有些麻烦,有时候到服务器有找不到jar包的情况)按照文档操作,在Spark中分词,默认找的是本地目录,所以如果...

2019-05-08 08:55:02

java中利用hanlp比较两个文本相似度的步骤

使用HanLP-汉语言处理包来处理,他能处理很多事情,如分词、调用分词器、命名实体识别、人名识别、地名识别、词性识别、篇章理解、关键词提取、简繁拼音转换、拼音转换、根据输入智能推荐、自定义分词器使用很简单,只要引入hanlp.jar包,便可处理(新版本的hanlp安装包可以去github下载安装),下面是某位大神的操作截图:...

2019-05-06 09:47:06

如何在java中去除中文文本的停用词

1.整体思路第一步:先将中文文本进行分词,这里使用的HanLP-汉语言处理包进行中文文本分词。第二步:使用停用词表,去除分好的词中的停用词。2.中文文本分词环境配置使用的HanLP-汉语言处理包进行中文文本分词。·HanLP-汉语言处理包下载,可以去github上下载·HanLP的环境配置有两种方式:方式一、Maven;方式二、下载jar、data、hanlp.p...

2019-04-30 08:57:49

hanlp 加载远程词库示例

说明·目前的实现方式是以远程词库的内容重新构建CustomDictionary.trie,demo主要是为了实现同步远程词库,对性能暂不作考虑,对性能要求要以CustomDictionary.dat为基础实现按hanlp作者述trie后期可能会取消目前CustomDictionary使用DAT储存词典文件中的词语,用BinTrie储存动态加入的词语,前者性能高,后者性能低之...

2019-04-26 10:55:09
奖章
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv1
    勤写标兵Lv1
    授予每个自然周发布1篇到3篇原创IT博文的用户。本勋章将于次周上午根据用户上周的博文发布情况由系统自动颁发。