自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

上一步保存

无敌最最俊朗的博客

转载利用python对中文文本数据进行LDA训练、计算概率距离

数据来自于“豆瓣读书”25名用户标注图书的一些标签（已经过分词、去停用词、去除不规范的标签），目的主要是通过对标签利用LDA得出25名用户在各主题上的概率分布，然后利用JS散度计算概率距离，从而计算25名用户的相似度，找出某个用户的近邻用户集。

2017-07-17 17:19:09 14560 9

转载利用jieba对多个中文txt文本进行分词

利用jieba对多个中文txt文本进行分词最近研究需要，所以获取了“豆瓣读书”135本书的简介，分成了135个txt文本文件，利用jieba对其进行中文分词、去除停用词工作，并仍旧保存为135个。

2017-07-17 16:04:12 27270 28

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

无敌最最俊朗 CSDN认证博客专家 CSDN认证企业博客

码龄8年

暂无认证

IP 属地：江苏省

IP属地以运营商信息为准，境内显示到省（区、市），境外显示到国家（地区）

0: 原创

130万+: 周排名

211万+: 总排名

4万+: 访问

: 等级

246: 积分

16: 粉丝

10: 获赞

37: 评论

150: 收藏

私信

关注

分类专栏

中文分词 1篇
python 2篇
jieba 1篇
LDA 1篇
JS散度 1篇

转载 利用python对中文文本数据进行LDA训练、计算概率距离

转载 利用jieba对多个中文txt文本进行分词

空空如也

空空如也

转载利用python对中文文本数据进行LDA训练、计算概率距离

转载利用jieba对多个中文txt文本进行分词