世纪无双-CSDN博客

原创如何提高低点击率的用户查询效果？

在搜索中，用户输入某个query，

2014-11-03 14:50:31 526

原创语音助手为什么需要推荐技术？

在分析语音助手的查询日志过程中，我们发现

2014-11-03 14:38:33 674

原创语音助手为什么需要搜索？

国内语音助手的代表公司搜狗语音助手、灵犀语音助手

2014-11-03 14:19:41 1044

转载常用第三方开源代码库（thirdparty/common）

在工作和学习中，借助第三方开源代码库是常见的事情，“站在巨人的肩膀上”嘛，相信大家都不会陌生，赞叹开源、共享的伟大。一方面为了做个总结，另一方面，就是好东西要与大家分享，我在 Github 上维护了一个页面 https://github.com/fandywang/thirdparty_intro，包含了个人比较关注的第三方代码库，如下（持续更新中）：Google 开源库

2014-08-13 13:01:26 8839

原创复合词挖掘

1、基于特征词或标点符号的文本断串；2、N元切分；3、关联规则和最小支持度：（以英文为例子，假如想从一批产品标题数据中挖掘出一系列复合串。）

2008-05-10 01:01:00 595

转载基于内容的大规模网页去重研究

基于内容的大规模网页去重研究[1]彭渊赵铁军郑德权于浩（哈尔滨工业大学机器翻译研究室，黑龙江哈尔滨 150001）摘要：本文提出了一种基于特征码和文章长度相结合的的相同内容网页的去除合并算法。有效的改进了单纯的特征码的方法的处理效率。实验证明：该种新方法能实现很高的判断准确率。并且对于文本分类也有一定的帮助。关键词：特征码搜索引擎文章长度中图法分类

2008-05-01 13:40:00 1887

转载搜索引擎重复网页发现技术分析

一. 介绍统计结果表明，近似镜像网页数占总网页数的比例高达全部页面的29%,而完全相同的页面大约占全部页面的22%。这些重复网页有的是没有一点改动的拷贝，有的在内容上稍作修改，比如同一文章的不同版本，一个新一点，一个老一点，有的则仅仅是网页的格式不同（如 HTML, Postscript）,文献[Models and Algorithms for Duplicate Document Det

2008-05-01 12:24:00 423

原创关于产品对象描述的思考

网页信息抽取，是垂直搜索引擎领域的一项重要技术。它是利用数据挖掘、统计分析、页面结构分析等技术，从海量网页库中抽取出结构化的有用信息（称之为记录Record）以及信息之间的关系。因此，就引入了两个问题？一个是如何度量有用的信息？另外一个是信息之间的关系什么确定？我们能不能用一种知识体系来刻画或界定呢？前些日子，刚好看了篇论文"Le

2008-05-01 11:55:00 685

Berry_-_Survey.of.Text.Mining_Clustering,.Classification,.and.Retrieval

出版社：Springer 作者:Michael W. Berry 这本书，我看了几章，感觉不错。内容提到了分类、聚类、词挖掘、趋势检测。

2009-03-14

Information Extraction in the WebEra

Springer出版的，介绍web信息抽取。

2009-03-14

Survey of Text Mining II Clustering Classification and Retrieval

Springer出版的关于文本挖掘的外文电子书。

2009-03-14

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人