自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(2)
  • 收藏
  • 关注

转载 利用python对中文文本数据进行LDA训练、计算概率距离

数据来自于“豆瓣读书”25名用户标注图书的一些标签(已经过分词、去停用词、去除不规范的标签),目的主要是通过对标签利用LDA得出25名用户在各主题上的概率分布,然后利用JS散度计算概率距离,从而计算25名用户的相似度,找出某个用户的近邻用户集。

2017-07-17 17:19:09 14560 9

转载 利用jieba对多个中文txt文本进行分词

利用jieba对多个中文txt文本进行分词最近研究需要,所以获取了“豆瓣读书”135本书的简介,分成了135个txt文本文件,利用jieba对其进行中文分词、去除停用词工作,并仍旧保存为135个。

2017-07-17 16:04:12 27270 28

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除