自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 资源 (3)
  • 收藏
  • 关注

原创 如何提高低点击率的用户查询效果?

在搜索中,用户输入某个query,

2014-11-03 14:50:31 526

原创 语音助手为什么需要推荐技术?

在分析语音助手的查询日志过程中,我们发现

2014-11-03 14:38:33 674

原创 语音助手为什么需要搜索?

国内语音助手的代表公司搜狗语音助手、灵犀语音助手

2014-11-03 14:19:41 1044

转载 常用第三方开源代码库 (thirdparty/common)

在工作和学习中,借助第三方开源代码库是常见的事情,“站在巨人的肩膀上”嘛,相信大家都不会陌生,赞叹开源、共享的伟大。一方面为了做个总结,另一方面,就是好东西要与大家分享,我在 Github 上维护了一个页面 https://github.com/fandywang/thirdparty_intro,包含了个人比较关注的第三方代码库,如下(持续更新中):Google 开源库

2014-08-13 13:01:26 8839

原创 复合词挖掘

1、基于特征词或标点符号的文本断串;2、N元切分;3、关联规则和最小支持度:(以英文为例子,假如想从一批产品标题数据中挖掘出一系列复合串。)

2008-05-10 01:01:00 595

转载 基于内容的大规模网页去重研究

基于内容的大规模网页去重研究[1]彭渊 赵铁军 郑德权 于浩(哈尔滨工业大学机器翻译研究室,黑龙江 哈尔滨 150001)  摘要:本文提出了一种基于特征码和文章长度相结合的的相同内容网页的去除合并算法。有效的改进了单纯的特征码的方法的处理效率。实验证明:该种新方法能实现很高的判断准确率。并且对于文本分类也有一定的帮助。 关键词:特征码 搜索引擎 文章长度中图法分类

2008-05-01 13:40:00 1887

转载 搜索引擎重复网页发现技术分析

一.  介绍统计结果表明,近似镜像网页数占总网页数的比例高达全部页面的29%,而完全相同的页面大约占全部页面的22%。这些重复网页有的是没有一点改动的拷贝,有的在内容上稍作修改,比如同一文章的不同版本,一个新一点,一个老一点,有的则仅仅是网页的格式不同(如 HTML, Postscript),文献[Models and Algorithms for Duplicate Document Det

2008-05-01 12:24:00 423

原创 关于产品对象描述的思考

                  网页信息抽取,是垂直搜索引擎领域的一项重要技术。它是利用数据挖掘、统计分析、页面结构分析等技术,从海量网页库中抽取出结构化的有用信息(称之为记录Record)以及信息之间的关系。因此,就引入了两个问题?一个是如何度量有用的信息?另外一个是信息之间的关系什么确定?我们能不能用一种知识体系来刻画或界定呢?          前些日子, 刚好看了篇论文"Le

2008-05-01 11:55:00 685

Berry_-_Survey.of.Text.Mining_Clustering,.Classification,.and.Retrieval

出版社:Springer 作者:Michael W. Berry 这本书,我看了几章,感觉不错。内容提到了分类、聚类、词挖掘、趋势检测。

2009-03-14

Information Extraction in the WebEra

Springer出版的,介绍web信息抽取。

2009-03-14

Survey of Text Mining II Clustering Classification and Retrieval

Springer出版的关于文本挖掘的外文电子书。

2009-03-14

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除