自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 实用的一些倒排索引代码

倒排索引作用倒排索引是为了加速搜索过程。例如做问答系统的问题匹配时,数据库过大,用传统方法将所有问题与用户输入的问题一一做相似度匹配耗时很多。而倒排索引可以直接定位到与用户输入有相同词汇的问题,甚至可以简单地将词语的重合度当成相似度来抽取对应答案,大大提高了效率。例如,我有10万条问答对,问句中只出现了100次“篮球”这个词语,而用户输入中有“篮球”这个词语,传统方法需要一一匹配相似度10万次,而倒

2017-06-30 11:58:58 2061

原创 python爬虫提取信息:正则表达式和xpath

由于作者水平有限,只写出相关关键词,并未给出详细解释。爬虫主要是两个功能,一是访问网页,二是从网页中提取数据。事实上访问网页基本都是调用接口直接就可以访问,而从网页中正确地提取数据是主要工作量所在。这里给出两种提取数据的选择和用到的相关库。1.python正则表达式:正则表达式语法规则参考 http://www.cnblogs.com/fnng/archive/

2017-06-20 17:26:29 3624

转载 新词发现方法资料

一些自然语言处理中新词发现的方法以及特性总结

2017-05-24 11:20:26 667

原创 python编码类型整理

\x 是ascii码\u 是unicode(utf8)gbk?ascii和unicode转换中str(tempWord)和unicode(tempWord, "utf8")互为逆运算

2017-05-23 09:45:17 271

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除