2 Atishoo_13

尚未进行身份认证

暂无相关简介

等级
TA的排名 5w+

中文分词的原理——正、逆向最大长度匹配法、处理未登录字符串(JAVA)

中文分词的原理——正、逆向最大长度匹配法、处理未登录字符串(JAVA)中文分词就是对中文断句,这样能消除文字的部分歧义。除了基本的分词功能,为了消除歧义还可以进行更多的加工。中文分词可以分成如下几个子任务:分词:把输入的标题或者文本内容等分成词。词性标注(POS):给分出来的词标注上名词或动词等词性。词性标注可以部分消除词的歧义,例如“行”作为量词和作为形容词表示的意思不一样。语义标注...

2019-02-26 14:36:29

文本分类入门(五)——关于开方检验和信息增益特征选择算法

文本分类入门(五)——关于开方检验和信息增益特征选择算法1.开方检验​ 前文提到过,除了分类算法以外,为分类文本作处理的特征提取算法也对最终效果有巨大影响,而特征提取算法又分为特征选择和特征抽取两大类,其中特征选择算法有互信息,文档频率,信息增益,开方检验等等十数种,这次先介绍特征选择算法中效果比较好的开方检验方法。大家应该还记得,开方检验其实是数理统计中一种常用的检验两个变量...

2019-01-31 12:45:14

文本分类入门(三)——相关概念总结

文本分类入门(三)——相关概念总结学习方法:使用样例(或称样本,训练集)来合成计算机程序的过程称为学习方法[22]。监督学习:学习过程中使用的样例是由输入/输出对给出时,称为监督学习[22]。最典型的监督学习例子就是文本分类问题,训练集是一些已经明确分好了类别文档组成,文档就是输入,对应的类别就是输出。非监督学习:学习过程中使用的样例不包含输入/输出对,学习的任务是理解数据产生的过程 [...

2019-01-31 12:40:10

文本分类入门(二)——训练

文本分类入门(二)——训练1.定义训练,简单的说就是让计算机从给定的一堆文档中自己学习分类的规则。开始训练之前,再多说几句关于VSM这种文档表示模型的话。举个例子,假设说把我正在写的“文本分类入门”系列文章的第二篇抽出来当作一个需要分类的文本,则可以用如下的向量来表示这个文本,以便于计算机理解和处理。w2=(文本,5,统计学习,4,模型,0,……)w_{2}=(文本,5,统计学习,4,...

2019-01-31 12:38:59

文本分类入门(一)——定义、方法、分类、统计学习方法

文本分类入门(一)——定义、方法、分类、统计学习方法​1. 文本分类问题的定义​ 一个文本(以下基本不区分“文本”和“文档”两个词的含义)分类问题就是将一篇文档归入预先定义的几个类别中的一个或几个,而文本的自动分类则是使用计算机程序来实现这样的分类。通俗点说,就好比你拿一篇文章,问计算机这文章要说的究竟是体育,经济还是教育,计算机答不上就揍它。注意这个定义当中着重强调的两个事...

2019-01-31 12:35:06

TF-IDF和TextRank算法抽取关键词源码分析

TF-IDF和TextRank算法抽取关键词源码分析jieba分词的关键词抽取功能,是在jieba/analyse目录下实现的。其中,__ init__.py主要用于封装jieba分词的关键词抽取接口;tfidf.py实现了基于TF-IDF算法抽取关键词;textrank.py实现了基于TextRank算法抽取关键词。1.TF-IDF算法基于TF-IDF算法抽取关键词的主调函数...

2019-01-23 19:53:30

jieba-基于TextRank关键词提取的实现

jieba-基于TextRank关键词提取的实现对每个句子进行分词和词性标注处理过滤掉除指定词性外的其他单词,过滤掉出现在停用词表的单词,过滤掉长度小于2的单词将剩下的单词中循环选择一个单词,将其与其后面4个单词分别组合成4条边。例如:[‘有’,‘媒体’, ‘曝光’,‘高圆圆’, ‘和’, ‘赵又廷’,‘现身’, ‘台北’, ‘桃园’,‘机场’,‘的’, ‘照片’]对于‘媒体‘这个单...

2019-01-23 19:51:39

TextRank算法获取文本关键词

TextRank算法获取文本关键词1.PageRank在了解TextRank前,首先一定要知道PageRank,实质上个人认为可以把TextRank当做PageRank2.0。谷歌的两位创始人的佩奇和布林,借鉴了学术界评判学术论文重要性的通用方法,“那就是看论文的引用次数”。由此想到网页的重要性也可以根据这种方法来评价。于是PageRank的核心思想就诞生了:如果一个网页被很多其他网页链...

2019-01-23 19:48:23

jieba-基于 TF-IDF 算法的关键词抽取

jieba-基于 TF-IDF 算法的关键词抽取通过上述三篇文章的介绍(详见其他的博客),接下来将对TF-IDF算法的实现进行介绍。jieba.analyse.extract_tags(sentence, topK=20, withWeight=False, allowPOS=())sentence 为待提取的文本topK 为返回几个 TF/IDF 权重最大的关键词,默认值为 20...

2019-01-20 20:31:46

TF-IDF与余弦相似性的应用(三):自动摘要

TF-IDF与余弦相似性的应用(三):自动摘要有时候,很简单的数学方法,就可以完成很复杂的任务。仅仅依靠统计词频,就能找出关键词和相似文章,这两部分就是很好的例子。虽然它们算不上效果最好的方法,但肯定是最简便易行的方法。本文讨论如何通过词频,对文章进行自动摘要(Automatic summarization)。1.分簇如果能从3000字的文章,提炼出150字的摘要,就可以为读者节省大量...

2019-01-20 20:21:26

TF-IDF与余弦相似性的应用(二):找出相似文章

TF-IDF与余弦相似性的应用(二):找出相似文章今天,我们再来研究另一个相关的问题。有些时候,除了找到关键词,我们还希望找到与原文章相似的其他文章。比如,"百度新闻"在主新闻下方,还提供多条相似的新闻。为了找出相似的文章,需要用到"余弦相似性"(cosine similiarity)。为了能够更好的理解这个概念,我们先从句子着手。句子A:我喜欢看电视,不喜欢看电影句子B:我不喜欢看电视...

2019-01-20 20:14:47

TF-IDF与余弦相似性的应用(一):自动提取关键词

TF-IDF与余弦相似性的应用(一):自动提取关键词​ 如何完全不加人工干预,正确做到从一篇很长的文章中提取它的关键词(Automatic Keyphrase extraction)?​ 这个问题涉及到数据挖掘、文本处理、信息检索等很多计算机前沿领域,但是出乎意料的是,有一个非常简单的经典算法,可以给出令人相当满意的结果,这就是我今天想要介绍的TF-IDF算法。...

2019-01-20 20:11:38

jieba——分词、添加词典、词性标注、Tokenize

jieba——分词、添加词典、词性标注、Tokenize1.分词jieba.cut方法接受三个输入参数:需要分词的字符串;cut_all参数用来控制是否采用全模式;HMM参数用来控制是否使用HMM模型jieba.cut_for_search方法接受两个参数:需要分词的字符串;是否使用HMM模型。该方法适合用于搜索引擎构建倒排索引的分词,粒度比较细待分词的字符串可以是...

2019-01-16 21:51:53

基于Python的jieba中文分词包的安装

基于Python的jieba中文分词包的安装“结巴”中文分词:做最好的 Python 中文分词组件1.特点支持三种分词模式:精确模式,试图将句子最精确地切开,适合文本分析;全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义;搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。支持繁体分词支持自定义词典MIT 授...

2019-01-16 21:41:55

中文分词工具jieba中的词性类型

中文分词工具jieba中的词性类型jieba为自然语言语言中常用工具包,jieba具有对分词的词性进行标注的功能,词性类别如下:Ag形语素形容词性语素。形容词代码为 a,语素代码g前面置以A。a形容词取英语形容词 adjective的第1个字母。ad副形词直接作状语的形容词。形容词代码 a和副词代码d并在一起。an名形词具有名词功能的形容词。形容词...

2019-01-16 21:34:28

Tomcat安装及配置教程

Tomcat安装及配置教程1.TomcatWeb服务器可以解析(handles)HTTP协议。当Web服务器接收到一个HTTP请求(request),会返回一个HTTP响应(response),例如送回一个HTML页面。为了处理一个请求(request),Web服务器可以响应(response)一个静态页面或图片,进行页面跳转(redirect),或者把动态响应(dynamicresp...

2019-01-13 18:17:40

JAVA——贪吃蛇

使用JAVA制作一个贪吃蛇小游戏1.要求本实例用Applet实现4种级别的玩法,可以通过方向键控制蛇的运动来靠近前面的食物并吃掉食物,当碰到墙壁时作为游戏失败。2.原理实现4个级别,分别为 PRIMARY(初级)、 INTERMEDIATE(中级)、 SENIOR(高级)和 EXTRA(特级),选择级别进入游戏界面。方向键用来控制蛇的运动。小蛇向着食物的方向前进,如果不小心碰到墙壁则游...

2019-01-11 21:29:53

JAVA——CBC方式的解密与加密

CBC方式的解密与加密一、创建对称密钥现代密码算法的过程非常复杂,加密和解密使用相同的密钥,称为对称密钥算法。Java中已经提供了常用的加密算法,我们不需要了解算法的细节就可以直接使用这些算法实现加密。每一种算法所用的密钥都有所不同,本实例演示如何运用Java中提供的方法创建对称密钥,并通过对象序列化方式保存在文件中。1.原理首先获取密钥生成器,然后密钥的生成,最后对密钥进行保存。2....

2018-12-04 15:22:35

JAVA——一个简单的加密和解密程序(凯撒密码)

一个简单的加密和解密程序(凯撒密码)1.凯撒密码凯撒密码是罗马扩张时期朱利斯·凯撒( Julius Caesar)创造的,用于加密通过信使传递的作战命令。加密的过程是将字母表中的字母移动一定位置,从而实现文本的加密。如果将字母表中的字母向右移动2位,则字母A将变为C,字母B将变为D,以此类推,一个明文字符串Hello就被加密成Jgnq。之后解密,就会返回原字符串。这里,移动的位数2是加密和解...

2018-10-23 20:33:06

JAVA——多线程(碰撞的球)

多线程(碰撞的球)1.要求本实例运用多线程控制球的运动,通过窗口中的滑条,对球的大小和颜色进行选择后,随机从窗口左右两方择一进入,小球在遇到障碍或边界后会折回。2.原理多线程是为了使得多个线程并行地工作以完成多项任务,以提高系统的效率。线程是在同一时间需要完成多项任务的时候被实现的。碰撞的小球运用多线程实现,球的运动速度随着时间的变动可能加快,这也是体现多线程的好处之一。从左右两侧出...

2018-10-20 16:49:05

查看更多

勋章 我的勋章
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!