自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(72)
  • 收藏
  • 关注

转载 如何配置hanlp.properties

如何在spring中读取properties配置文件里面的信息一般来说。我们会将一些配置的信息放在。properties文件中。然后使用${}将配置文件中的信息读取至spring的配置文件。那么我们如何在spring读取properties文件呢。1.首先。我们要先在spring配置文件中。定义一个专门读取properties文件的类.例:classpath*:jdbc.propert...

2019-02-12 16:01:27 2549 4

转载 自然语言处理工具包 HanLP在 Spring Boot中的应用

概 述HanLP 是基于 Java开发的 NLP工具包,由一系列模型与算法组成,目标是普及自然语言处理在生产环境中的应用。而且 HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点,因此十分好上手,本文就结合 Spring Boot来将 HanLP用起来!本文内容脑图如下:下载 HanLP数据和程序由于 HanLP库将数据与代码分离,因此我们需要分别下载所需数据和 jar...

2019-02-12 15:57:27 318 1

原创 中国电子信息产业发展研究院主办的2018中国软件大会上大快搜索“又双叒叕”获奖了

大快搜索自荣获“2018中国大数据企业50强”殊荣,12月20日在由工信部指导,中国电子信息产业化发展研究院主办的2018中国软件大会上,大快搜索获评“2018中国大数据基础软件领域领军企业”称号,入选中国数字化转型TOP100服务商,《城市数据运河》获评优秀政务大数据解决方案。图:工业和信息化部信息化和软件服务业司司长 在会上致辞图:大快搜索获评“2018中国大数据基础软件领域领军企业”...

2018-12-24 09:20:45 370

原创 大数据产业发展创新技术新书《数据之翼》收录自然语言处理工具HanLP

在12月20日由中国电子信息产业发展研究院主办的2018中国软件大会上,大快搜索获评“2018中国大数据基础软件领域领军企业”,并成功入选中国数字化转型TOP100服务商。图:大快搜索获评“2018中国大数据基础软件领域领军企业”在本届2018中国软件大会上,不仅宣传并成立了数字转型促进会,还发布了由中国大数据产业生态联盟副秘书长、《软件和集成电路》杂志社总编辑郭嘉凯编辑的新书——《数据之翼...

2018-12-24 09:19:26 199

转载 java-hanlp中文语言处理

hanlp是一款开源的中文语言处理工具。环境:jdk1.7、myeclipse8.5、win64官网:http://hanlp.linrunsoft.com/git下载使用说明地址:https://github.com/hankcs/HanLP在线演示地址:http://hanlp.com/?sentence=http://hanlp.com/百度云链接: https://pan.bai...

2018-12-20 13:17:59 786

转载 pyhanlp 文本分类与情感分析

这一次我们需要利用HanLP进行文本分类与情感分析。同时这也是pyhanlp用户指南的倒数第二篇关于接口和Python实现的文章了,再之后就是导论,使用技巧汇总和几个实例落。真是可喜可贺啊。文本分类在HanLP中,文本分类与情感分析都是使用一个分类器,朴素贝叶斯分类器。或许这个分类器还算是比较一般,不过从最终结果来看效果还是很可以的。因为底层采用词袋模式,所以当文本较大时可能会是内存开效果大...

2018-12-20 13:16:14 1959 1

转载 HanLP里使用DAT存取字典的方法

CoreBiGramTableDictionary.java和CoreDictionary.java结构思路词典里文件的格式:wordA@wordB frequencyCoreBiGramTableDictionary.java文件用一个TreeMap<(int)wordA, TreeMap<(int)wordB, (int)frequency>>来读取词典。用...

2018-12-03 11:26:21 119

转载 spring boot 项目中hanlp的配置(可增加自定义词典)

pom.xml文件中增加: com.hankcs hanlp system ${project.basedir}/src/main/resources/lib/hanlp-1.5.2.jar字典和模型文件在项目中的位置,其中包括自定义词典:data文件夹在项目中的位置:hanlp.properties文件的位置:这样就可以在web项目中应用。文章...

2018-12-03 11:09:38 1571

转载 HanLP MVN eclipse中major.minor 51(JDK 要求1.7以上)的错误解决

环境背景:系统:优胜美地,安装了jdk8,7,6,5,4问题描述:mvn3.3.9 eclipse build出现错误结论:mvn3.3.9 在jdk1.8下可以运行,问题出在了eclipse的项目上,项目是从GIT上载下来的(HanLP),项目本身用的是jdk1.6(开始没有意识到),然后本机的mvn是jdk1.8,将eclipse的jdk改为1.7依然报错,后来发现项目的jdk才是问题所在...

2018-12-03 11:02:19 252

转载 数据挖掘:基于Spark+HanLP实现影视评论关键词抽取

背景近日项目要求基于爬取的影视评论信息,抽取影视的关键字信息。考虑到影视评论数据量较大,因此采用Spark处理框架。关键词提取的处理主要包含分词+算法抽取两部分。目前分词工具包较为主流的,包括哈工大的LTP以及HanLP,而关键词的抽取算法较多,包括TF-IDF、TextRank、互信息等。本次任务主要基于LTP、HanLP、Ac双数组进行分词,采用TextRank、互信息以及TF-IDF结合...

2018-12-03 11:01:09 884

转载 句法分析工具 LTP HanLP

参考:http://cslt.riit.tsinghua.edu.cn/mediawiki/images/e/e5/句法工具分析.pdfhttp://pyltp.readthedocs.io/zh_CN/latest/api.htmlhttps://pypi.python.org/pypi/pyltphttps://github.com/hankcs/HanLP使用 pyltppyltp...

2018-12-03 10:59:45 2276

转载 lucene使用hanlp分词

maven依赖4.0.0ffdd0.0.1-SNAPSHOTjarddhttp://maven.apache.org org.apache.lucene lucene-core ${lucene.version} org.apache.lucene lucene-queryparser ${lucene.v...

2018-12-03 10:45:36 553

转载 Lucene7.0与HanLP分词器整合索引数据库建立索引文件

HanLP官网:http://hanlp.linrunsoft.com/GitHup地址:https://github.com/hankcs/HanLPHanLP插件地址:https://github.com/hankcs/hanlp-lucene-plugin需要一下jar包类package com.kyd.demo.hanLP;import java.io.IOException;...

2018-12-03 10:44:28 346

转载 Hanlp 在Python环境中安装、介绍及使用

标签:自定义 mpat 高效 path nlp sys 文件 pri fromHanlpHanLP是由一系列模型与算法组成的Java工具包,目标是普及自然语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。功能:中文分词 词性标注 命名实体识别 依存句法分析 关键词提取新词发现 短语提取 自动摘要 文本分类 ...

2018-11-21 16:55:59 2492

转载 python3 安装pyhanlp方法

标签:文件链接 路径 链接 http 官方 c++ 执行 bsp spa直接pip install pyhanlp的时候会提示缺少Microsoft Visual c++环境,其实没有Microsoft Visual c++环境也是可以的,可以先安装jpype1,然后在pip install pyhanlp就行了。步骤:①在python非官方库网站上下载库...

2018-11-21 16:55:07 2582

转载 HanLPTokenizer HanLP分词器

anlp在功能上的扩展主要体现在以下几个方面:•关键词提取•自动摘要•短语提取•拼音转换•简繁转换•文本推荐下面是 hanLP分词器的代码注:使用maven依赖 com.hankcs hanlp portable-1.3.4 使用了java8进行处理文章来源于猴德华的博客...

2018-11-16 14:30:42 517

转载 自然语言处理 依存树的可视化

目标:NLP中依存树的可视化首先需要准备的工具Hanlp(借助hanlp神经网络的高性能依存句法分析器模型)Dependency Viewer可视化工具对于一句话text,可以采用hanlp中的下图代码转化为conll格式下图是采用了一些测试句子的结果(在conll文件中以空行隔开):在dependency View中进行展示,打开dependency View,选择File---...

2018-11-16 14:28:33 825

转载 pyhanlp 繁简转换,拼音转换与字符正则化

繁简转换HanLP几乎实现了所有我们需要的繁简转换方式,并且已经封装到了HanLP中,使得我们可以轻松的使用,而分词器中已经默认支持多种繁简格式或者混合。这里我们不再做过多描述。说明HanLP能够识别简繁分歧词,比如打印机=印表機。许多简繁转换工具不能区分“以后”“皇后”中的两个“后”字,HanLP可以。算法详解《汉字转拼音与简繁转换的Java实现》from pyhanlp impor...

2018-11-16 14:27:15 326 1

转载 HanLP V1.5.3 Demo作用一览表

HanLP V1.5.3 自然语言开源处理包的Demo文件用途说明。在此特别感谢作者Hankcs先生的付出。下面是我从excel粘贴过来的,CSDN处理的格式有问题,见谅!觉得还可以就点个赞吧。文章来源于网络...

2018-11-16 14:25:14 182

转载 pyhanlp 停用词与用户自定义词典

hanlp的词典模式之前我们看了hanlp的词性标注,现在我们就要使用自定义词典与停用词功能了,首先关于HanLP的词性标注方式具体请看HanLP词性标注集。其核心词典形式如下:自定义词典自定义词典有多种添加模式,首先是展示的一个小例子,展示了词汇的动态增加与强行插入,删除等。更复杂的内容请参考后边的第二段代码。简单的例子from pyhanlp import *text = “攻城...

2018-11-16 14:22:34 258

转载 pyhanlp用户自定义词典添加

pyhanlp是python版封装的的HanLP,项目地址:https://github.com/hankcs/pyhanlp经过测试,HanLP比nltk在中文分词和实体识别方面都更好用。如何向pyhanlp添加自定义的词典?以python 2.7.9为例:1.安装pyhanlp:pip install pyhanlp2.在字典路径下添加自定义的词典:CustomDictionary主词...

2018-11-12 13:41:40 640

转载 使用python语言安装stanfornlp 和hanlp安装包

安装stanfornlp准备条件 win10 + jdk8(java安装包) + anaconda3• 1)安装stanford nlp自然语言处理包: pip install stanfordcorenlp• 2)下载Stanford CoreNLP文件https://stanfordnlp.github.io/CoreNLP/download.html下载的文件件为:stanford...

2018-11-12 13:38:59 238

转载 在Hanlp词典和jieba词典中手动添加未登录词

在使用Hanlp词典或者jieba词典进行分词的时候,会出现分词不准的情况,原因是内置词典中并没有收录当前这个词,也就是我们所说的未登录词,只要把这个词加入到内置词典中就可以解决类似问题,如何操作呢,下面我们来看一下:一,在Hanlp词典中添加未登录词1.找到hanlp内置词典目录位于D:\hnlp\hanlp_code\hanlp\data\dictionary\custom也就是Han...

2018-11-12 13:31:43 371

转载 使用Hanlp加载大字典

问题因为需要加载一个 近 1G 的字典到Hanlp中,一开始使用了CustomDictionay.add() 方法来一条条的加载,果然到了中间,维护DoubleArraTre 的成本太高,添加一个节点,都会很长时间,本来时间长一点没有关系,只要训练出.bin 的文件,第二次加载就会很快,然而作为以空间换时间的DAT结构,内存消耗很大,预料之内的出现了out of memory: heap si...

2018-11-12 13:25:15 332

转载 HanLP的配置及使用

HanLP的介绍主页:http://hanlp.linrunsoft.com/HanLP的GitHub主页:https://github.com/hankcs/HanLPHanLP的具体说明讲解主页:http://www.hankcs.com/nlp/hanlp.html项目结构图文章来源于网络...

2018-11-07 13:46:38 1717

转载 11大Java开源中文分词器的使用方法和分词效果对比

本文的目标有两个:1、学会使用11大Java开源中文分词器2、对比分析11大Java开源中文分词器的分词效果本文给出了11大Java开源中文分词的使用方法以及分词结果对比代码,至于效果哪个好,那要用的人结合自己的应用场景自己来判断。11大Java开源中文分词器,不同的分词器有不同的用法,定义的接口也不一样,我们先定义一个统一的接口:从上面的定义我们知道,在Java中,同样的方法名称和...

2018-11-07 13:43:17 156

转载 CS224n笔记17 NLP存在的问题与未来的架构

hankcs.com 2017-07-13 上午11.32.57.png课程介绍了各种各样的深度学习网络与应用,是时候从更高层次思考自然语言处理存在的问题与展望未来了。虽然BiLSTM与attention几乎统治了NLP,但在篇章级别的理解与推断上还不尽人意。新时代人们正在“解决”语言深度学习填平了领域鸿沟,许多计算机视觉的泰斗级学者也开始研究起自然语言处理的各种任务。这里提到的自然语言理...

2018-11-06 14:26:44 219

转载 在CSharp中调用HanLP

今天有用户想在CSharp里调用HanLP的API,遇到了些小问题。所以我干脆自己写了个指南,一步步演示IKVM与HanLP的集成方法,供广大C#程序员参考。本方法也可推广到用C#调用任何Java jar类库,并解决classpath的问题。IKVM简介IKVM.NET是一款开源的Java虚拟机,可以将hanlp.jar类库转为dll直接供C#程序调用,也可以直接当JVM让hanlp.jar...

2018-11-06 14:22:04 286

转载 HanLP极致简繁转换

谈起简繁转换,许多人以为是小意思,按字转换就行了。事实上,汉语历史悠久,地域复杂,发展至今在字符级别存在“一简对多繁”和“一繁对多简”,在词语级别上存在“简繁分歧词”,在港澳台等地则存在“字词习惯不同”的情况。为此,HanLP新增了“简体”“繁体”“臺灣正體”“香港繁體”间的相互转换功能,力图将简繁转换做到极致。关于这些汉语语言上的详情,请参考郭家寶的OpenCC项目。HanLP整合了该项目的...

2018-11-06 14:18:55 828

转载 Python调用自然语言处理包HanLP

Python调用自然语言处理包HanLP3.png一句话安装pyhanlp,全自动下载安装配置,还支持升级。pip install pyhanlp调用方法参考项目主页:https://github.com/hankcs/pyhanlpWindows用户如果遇到:building ‘_jpype’ extensionerror: Microsoft Visual C++ 14.0 is r...

2018-11-06 14:17:42 599

转载 安装elasticsearch中文切词插件hanlp

hanlp好处的,就是它的data字典比较齐全.github上有国人写hanlp支持es的插件https://github.com/pengcong90/elasticsearch-analysis-hanlp1下载它的安装release包下载发现解压按它的安装要求总找不到hanlp.properties文件将源码git下来,发现路径有问题.package org.elasticse...

2018-11-05 14:16:19 500

转载 Elasticsearch集成HanLP分词器

1、通过git下载分词器代码。连接如下:https://gitee.com/hualongdata/hanlp-exthanlp官网如下:http://hanlp.linrunsoft.com/2、下载gradle,如果本机有,就可以略过此步骤。通过gradle官方网站下载,解压,配置环境即可。官方安装配置说明:https://gradle.org/install/3、按本地elasti...

2018-11-05 14:14:54 812

转载 汉语言处理包 HanLP v1.3.5,新功能、优化与维护

HanLP v1.3.5 更新内容:大幅优化CRF分词和二阶HMM分词,重构CharacterBasedGenerativeModelSegment自定义词典支持热更新:#563 ,ngram模型支持热加载:#580新增一个提高用户词典优先级的开关:#633支持98年人民日报的复合词语料格式,如"[中央/n 人民/n 广播/vn 电台/n]nt"开放TextRank关键词提取中的最大迭代...

2018-11-05 14:10:56 316

转载 HanLP中人名识别分析

在看源码之前,先看几遍论文《基于角色标注的中国人名自动识别研究》关于命名识别的一些问题,可参考下列一些issue:名字识别的问题 #387机构名识别错误关于层叠HMM中文实体识别的过程HanLP参考博客:词性标注层叠HMM-Viterbi角色标注模型下的机构名识别分词在HMM与分词、词性标注、命名实体识别中说:分词:给定一个字的序列,找出最可能的标签序列(断句符号:[词尾]或[...

2018-11-05 14:10:15 940

转载 HanLP汉语言分析框架

HanLP(Han Language Processing)是由一系列模型与算法组成的Java工具包,目标是普及自然语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。环境搭建1.创建java项目,导入HanLP必要的包2.把对应的配置文件放置在src下3.修改hanlp.properties配置文件,使其指向data(data中包含词典...

2018-11-05 14:07:02 5367 1

转载 汉语言处理包 HanLP 1.6.4 发布,优化新词发现

HanLP 是由一系列模型与算法组成的 Java 工具包,目标是普及自然语言处理在生产环境中的应用。HanLP 具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。 在提供丰富功能的同时,HanLP 内部模块坚持低耦合、模型坚持惰性加载、服务坚持静态提供、词典坚持明文发布,使用非常方便,同时自带一些语料处理工具,帮助用户训练自己的模型。HanLP v1.6.4 更新内容:优化 Corp...

2018-11-03 11:18:38 549

转载 汉语言处理包 HanLP v1.6.0 发布,感知机词法分析器

对于一个人工智能领域的从业人员来说,如何能在技术公司真正成长下去?>>>HanLP 是由一系列模型与算法组成的 Java 工具包,目标是普及自然语言处理在生产环境中的应用。HanLP 具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。 在提供丰富功能的同时,HanLP 内部模块坚持低耦合、模型坚持惰性加载、服务坚持静态提供、词典坚持明文发布,使用非常方便,同时自带一些...

2018-11-03 11:18:08 219

转载 运用hanlp 通过 python 结合jpype 导出依存句法可视化

效果图from jpype import *… startJVM(getDefaultJVMPath(), “-Djava.class.path=E:\hanlp\hanlp-1.5.4.jar;E:\hanlp”, “-Xms1g”, “-Xmx1g”)HanLP = JClass(‘com.hankcs.hanlp.HanLP’)print(HanLP.parseD...

2018-11-03 10:55:31 718

转载 ubuntu下使用pycharm调用Hanlp自然语言处理包

首先点击File,选择Settings,在Project 下点击Project Interpreter,并通过点击右边的加号:搜索JPype,根据python版本选择你需要的JPype版本安装。之后,在https://github.com/hankcs/HanLP/releases网站下载hanlp.jar包、模型data包、配置文件hanlp.properties,新建一个文件夹Hanlp...

2018-11-03 10:53:30 265 1

转载 HanLP词性标注集

HanLP使用的HMM词性标注模型训练自2014年人民日报切分语料,随后增加了少量98年人民日报中独有的词语。所以,HanLP词性标注集兼容《ICTPOS3.0汉语词性标记集》,并且兼容《现代汉语语料库加工规范——词语切分与词性标注》。...

2018-11-03 10:52:41 1055

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除