cs_-CSDN博客

原创 query semantics focus retrieval

output format : query after segment [semantics-focus,tag,score] -list佳能/nz S30/m 数码/n 相机/n :[数码,n,19] [数码相机,n,9699] [相机,n,335]一品/b 婷/n 玫瑰/n 眼膜/n :[玫瑰,n,34] [玫瑰眼

2007-08-28 09:00:00 1485 1

原创 YAHOO快乐的生活片段

来yahoo cn已经近小半年了，转眼成了“老新人”。这里每天笑声不断，随手一记。（1）英雄排行榜初来乍到，因原来是研究院工作性质，不苟言笑的那种，不晓得yahoo cn的风格，所以一直默默。但突然饭桌上发现，兄弟们一个个好猛。得知p4p有“七jian”排行榜——偶老大就是赫赫有名的七jian之首~ 哈哈，果然不同凡响啊~~偶也学会了晨会期间问一句，“哥们，你男朋友呢”—

2007-08-17 12:25:00 1541

原创基于最大熵的演化分词算法MEEA的构想

1、ICTCLAS在线分词测试baidu知道用例2007-1-30在baidu知道首页上随机拷贝的问题例子，使用ICTCLAS在线分词的测试结果为：三峡水电站的主要用途是用来干什么的?听不到回音的距离应该是多少推荐好看的小说(类似红颜乱,且试天下的小说)山好水好人不如王牌人好大家好！想更的学习photoshop图像处理，怎样学习才会更有技巧？初二数学人教版试题

2007-02-05 09:09:00 3255

原创传播力模型的初步探讨

做了一个关于"传播力"的调研,下面是一部分的内容(关于整合力等子模型就不贴出了);主要有些问题,大家感兴趣的可以和偶一起讨论.我觉得这个概念还是非常有意思的,不妨再把最后的小结说明贴一下:综合三、四、五的讨论，我们基本上可以得到一个传播力模型的框架。传播力描述的不是出版物的内容，而是它的传播能力；在某种意义上而言，它描述的是一个信息的存在在其环境中的重要性。可以说，内容计算与传播力

2007-01-18 11:00:00 3426

原创 2006个人小结

一，工作任务与完成情况2006年是比较紧张的一年，这一年中主要的工作为专利搜索引擎内核部分的研发与测试、移植工作。包括：（1）新研发的算法模块有占位符索引与匹配模块、主题词摘要与检索模块、考虑位置信息的文本相似度计算算法、数据压缩算法（算法设计）、搜索结果反色模块（设计）、以及一些新的智能体要素提取器的开发工作等。（2）重构的算法模块有短语处理

2007-01-10 13:55:00 2288 1

原创程序设计4

在c/c++中，可以使用含位域的结构体来实现存储的优化。最近的项目中因为一个需求简单写了个测试程序，暂时放在这里。需求的大概是这样的，用32位的空间存储一个文本中词语的位置信息，这个位置信息是具有维度的：常用的是3维形式，即段、段内句、句内词这样记录。一些相关的运算及索引的压缩，都是在这种空间结构之上（以前做压缩时称之为整数向量的压缩）。但有一个特殊的地方是，如果仅仅是访问这三个维度

2006-11-18 09:30:00 1464

原创关于"自由软件"讨论的感触

下面是偶和另外一个朋友的讨论,给大家做参考:--------------------------------------------------------------2 发件人： BruceSolo - 查看个人资料日期： 2006年9月22日(星期五) 下午2时42分对自由软件很长时间都存有一种顾虑，心向往之，但顾虑更多。我对自由软件的看法可能比较务实一点，觉得自由软件的自由不

2006-09-23 09:17:00 1599 1

原创关于自由软件的感想

关于自由软件的感想周六在北大参加国际自由软件日的活动，听到了几个非常不错的业界人士的主题演讲，尤其是宫敏博士、袁教授的报告，印象非常深刻。依据宫敏博士的介绍，我们（中国大陆）可以说是在第三列班车加塞上了“自由软件”号。依我的理解，虽然是这些年自由软件在中国有所发展，但现在看生存条件依然是非常恶劣的，正在享受信息技术成果的人很多，但真正理解、支持自由软件并有实际行动的人并不多。

2006-09-21 12:26:00 3097 4

原创 python读北大corpor的一段测试程序

开始学着python,并为那个相似度开发包做准备.下面是一个小的测试程序:#corpor file reader#author: percylee#time: 2006/08class CorporFileReader: """reader for corpor file, which is labeled just like pku-corpor of Renmin

2006-08-30 10:55:00 1660

转载网络新语

它们是如何产生的?坛子：论坛打倒XXX：称赞某人。 XXX做了什么值得庆祝的事情，让人眼红，比如买到便宜货时，其他人表示祝贺的用词。有时为了强调，还会加上“再踏上一只脚”等等来表达强烈的祝贺。不过不熟悉的人之间慎用：）打PP：打屁股，打PG的温柔词，对某人做错事或说错话的小惩罚。严重**：与动词联用，表示强烈的情感，比如严重打倒，严重同情之类。亮骚：将心爱的东西展示给外人看或

2006-08-29 15:34:00 2052

原创第二届计算语言学讲习班的感触

刚从沈阳回来，参加了第二届计算语言学讲习班，感觉收获还是蛮大的，虽然沈阳之行太匆匆，哪里都没来得及去。这次讲习班的课程主要集中在三个方向，一是微软亚洲研究院的李航博士的统计机器学习，二是北大中文系的詹卫东博士的结合计算的汉语研究，三是计算所几位博士的搜索引擎原理介绍与利用开源工具的搜索引擎搭建。李航博士主要讲了统计学习的基本概念和原理，包括有监督学习和无监督学习，并把学习的概念定义

2006-08-22 17:08:00 2285

原创关于文本相似度计算开发包的构想

最近有一个想法，想用python实现一个小型开发包，以方便的实现并测试各种文本相似度计算算法，输入之一是一个精心建立的小型测试文本语料库，之二则是检索请求文本，输出则可以依据配置的相似度计算方法输出排好序的测试文本序列。因为相似度计算并排序是搜索引擎的核心之一，而对于一个成熟的搜索体系去实验各种想法是很不方便的，所以很想有这样一个工具。大体上可以分为这样几个模块：统一数据

2006-08-12 11:51:00 3329 2

原创 search花絮之索引压缩

搜索引擎的索引一般都是倒排数据。在海量数据中，索引本身的规模也是很可观的。例如对于一种比较复杂的索引数据，其保存了词语的文档标志、词频和位置序列，在30万规模的全文中，有些词语的索引数据达到100M级别。例如“汽车”在某篇文本中的信息为：文本号 = 332权值 = 0.001456 - 位置0 - { 段号= 0, 句号= 0, 词号= 15 } - 位

2006-08-01 15:28:00 1844 2

原创初识Python的感想

最近开始看《简明Python教程》，接触这门动态语言。在空闲之余，也会动手调试一些小程序。因为一直用的是C++，初次使用Python还是带来了一些震撼的感觉。下面是一个小例子（Hello World就不往外贴了）： #findmax.py#find max value in one list def maxval(x,y): if x>=y :

2006-07-21 15:38:00 2740

原创 search花絮之文本字符串搜索结果的排序

最近在研究不考虑语义关系的文本字符串相似度的计算算法。在对文本内容编制索引后，如何对检索出来的结果进行排序，对于“搜索”的用户体验来讲是至关重要的，这个问题也就是归结为任意两个字符串的相似度计算问题。这其中要考虑的因素，除了TF/IDF之外，还有就是词语之间的距离因素和顺序因素：这是不考虑语义关系的情况下能直接从文本中计算迩来的。从人的直观来讲，检索结果串的距离和顺序因素越和请求串一致，

2006-07-11 14:58:00 2492

原创 SegWord讨论大本营

项目已经启动,朋友们一起努力: http://groups.google.com/group/SegWord

2006-07-07 13:27:00 1630

原创程序设计3

有这样一种需求，两个类：class A{ B b; //在成员函数中使用b}; class B{//需要调用A的成员函数(算法)}; 这种情况下，A类是一个全局的控制类，它有一系列的算法调用各个子模块，然而子模块在自己的任务中，有时需要回调全局控制类A的算法。设计一种什么结构可以完成这种需求？现在的方法是，把需要回调的A的算法做

2006-06-13 10:46:00 1175 1

原创程序设计2

程序设计1的问题，简单叙述其需求如下：需要一种结构，要满足（1）其访问速度需要与数组基本一致，可随机存取。（2）无法预先知道其精确的存储空间，不应该先行扫描文本串来获得这个值，以避免时间效率的损失。（3）在申请存储空间失败的时候，可以进行有效的反应，不应使程序失控。后来跟踪那个问题，发现文本数据中因为是专业技术文档的缘故，有大量的

2006-06-02 15:31:00 1489

原创程序设计1

当处理大批量的数据时，不仅要考虑算法的正确性，也要关注程序实现的健壮性，如果发生存储资源不足等类似的问题时，你做如何的应对？在专利搜索中，有一个叶子节点的处理器，是对输入的文本分词，并统计词的频率，记录其所有出现的位置（包括段号、句号、句内位置号），词及其统计信息可被称为一个factor，该处理器就是把文本变换成这样一个factor序列。原来使用数组来存储这个序列（为的是可以随机存取），

2006-06-02 10:11:00 1041

原创分布式计算0

分布式系统可以建立精确的数学模型，其上的算法与性质都是可以证明的，这是最近看一本分布式算法的专著的感受。其中在论及分布式系统的时间概念时，谈到其逻辑时钟是整个系统上的一个序关系Φ，这个序关系可以把系统中的事件序列映射到一个自然数集合上： Φ（Event） = { 0，1，… }除因果事件外，则还有平行事件的存在。故这种映射关系也不是唯一的

2006-05-25 16:24:00 1306

原创软件人月0

去年9月份开始一直到现在都在参与搜索引擎核心的研发工作，除了自然语言处理、算法以及信息检索上的反思之外，在软件工程以及项目管理上开始有了一些感触，于是前一段时间便疯狂的翻看《人月神话》那本书——上大学的时候只看得懂它的第一章：）。趁当时项目中间阶段总结的时候，也曾回忆整个项目研发过程，结合T MM-M这本书，记下了感受最深的几点，本想着形成一篇完整的文章的，不过现在看时间不允许了，就散置

2006-05-25 11:39:00 1702 3

原创人工智能0

晋院长（晋耀红博士）的专著《HNC（概念层次网络）语言理解技术及其应用》由科学出版社出版了（话外音：祝贺祝贺），并给我们组每人一本签名书。翻着这本书，想着平时的工作，有感而写在扉页上：概念符号化，并进行计算，是HNC探索之意义；但探索概念之学习体系，应是在HNC基础上进一步发展的东西，包括推理学习与似然学习。其实很为这个话题而苦恼：因为没有思路。前些日子曾经思考什么

2006-05-24 15:54:00 1352

原创程序设计0

看了几个帖子,觉得楼主开始很重视算法,但在看到一些人的言辞后又退了回去.算法与架构对于程序设计是一个事物的两个方面;所谓程序设计就是把客观世界映射到计算机空间中来,这其中算法解决的是映射的动态复杂性,强调问题的可解性,正确性以及效率,而架构解决的是映射的静态复杂性,强调问题的概念空间,通用性以及可维护性.二者本来是一"王",做程序设计是无须争论的. 对于学生而言,看不

2006-05-23 14:39:00 1007

原创 SegWord::IHash

#ifndef __IHASH_H__#define __IHASH_H__#include "../../include/UString.h"using namespace UStr; /* * IHash接口及其默认实现：ELFhash算法(默认hash算法)***************************************************

2006-05-22 13:04:00 1212

原创泛型编程0

最近写算法，习惯上了泛型编程，一敲键盘，就会不由自主的打出一个template出来。比如前一阵子的通配符搜索库的模块，以及刚刚完成的通用集合运算。通用集合运算的主要功能是：输入：集合列表，集合列表索引的并、交、差运算信息串输出：集合列表在该信息串的运算下所得结果集合比如： SetList = SetOp

2006-05-18 17:23:00 1081

转载什么是知识

　　对知识的认识　　哲学上：理性主义认为真正的知识不是感官实践的结果，而是概念思维的过程；经验主义认为不存在先验知识，知识的唯一来源是感官实践。　　经济学上：新古典经济学家认为：现有知识的利用，现有知识通过价格信息表示；奥地利经济学家认为知识是"主观的"，不能看作是固定的。　　管理学上：科学管理认为，将公认的经验和隐性技能定义为客观和科学的知识；人文理论认为，通过不断提高一线公认的实

2006-05-09 17:15:00 1250 1

原创评论《怎样度量信息》

Google黑板报上有一个系列《数学之美》非常的不错，到目前为止共有四期，链接分别如下：http://googlechinablog.com/2006/04/blog-post.htmlhttp://googlechinablog.com/2006/04/blog-post_10.htmlhttp://googlechinablog.com/2006/04/4.htmlhtt

2006-04-29 16:47:00 4882 3

原创 search花絮之语义处理

语义处理是自然语言处理前沿的热点，其关键作用正逐渐成为学科领域的共识，而我们的中文信息处理强项也在于语义处理，所以很自然就想把这一优势具体体现到搜索项目中来——但毫无疑问这是一个摸索的过程。最初我负责标题分析的研究，曾随机抽取了一些标题示例，例如： “移动存储设备”的例子[[+[移动存储设备]与[读写识别设备]]的[安全[认证方法]]][[改变移动存储设备[+功能或状态]

2006-04-12 11:47:00 1978 3

原创 search花絮之堆合并

大规模词库的词汇检索是一个非常耗时的操作，所以其数据结构一般都是需要经过仔细设计的。单位里原有一个堆结构，最近将它模板化，并在它基础上做模糊查询。但原来没有词库的归并算法，这些日子不得不重新实现一个。算法的难点在于寻找合适的子块进行move操作以及调整该子块的所有相关指针。下面是测试例子之一：int _tmain(int argc, _TCHAR* argv[]){ CWo

2006-04-11 11:12:00 1100

原创 search花絮之关系运算命令

最近忙于一个搜索项目，忙里偷闲，记下其中的一个花絮。在检索式中，有一种关系运算的命令需要解析，以备检索之用。如： WordA 5W WordB这表示WordA和WordB之间可以出现0到5个任意词汇，且WordA和WordB的顺序不能改变。而“5W”，就是一个关系运算的命令。所有的关系运算命令用正则表达式来表达，就是：

2006-03-14 20:07:00 1064

原创 SegWord::UString的待完全测试代码

l UString.h#ifndef __USTRING_H__#define __USTRING_H__ #include /** 文件名: UString.h* 创建日期: 2005-12-12* 创建者: Percy Lee* 修改列表:** 说明:* Unicode string class for c++(

2006-03-02 14:22:00 1563

原创项目SegWord文件目录说明

项目SegWord所有文档与源代码在一个文件目录root下.为便于协作,对root目录中的子目录做如下说明: 目录结构: . /root . /bin . /lib . /doc . /include . /system

2006-03-02 14:09:00 1553

原创 SegWord中需要讨论的问题(1)

项目SegWord中存在许多问题，简要叙述如下，供以后讨论参考。首先需要说明的是，三个既定目标是不能在同一个阶段内完成的，否则任务将过于艰巨，不利于项目的开展。对于传统的分词算法，一般有两大步骤，一是分词，二是词性标注，其中的难点在于歧义的发现与处理，未登录词的识别，新词发现以及兼类处理。这些也同样是SegWord所面对的问题，只不过由于其目标略有不同，在SegWord中的处理时机需要仔

2006-02-20 17:07:00 1678

原创 SegWord项目介绍

SegWord是一个开放项目[1],由其小组成员进行开发维护,稳定版本软件(包括程序与文档)将公开在网络上供参考与交流.下面是其简单介绍:SegWord为一个分词系统，满足：（1）分词（2）获得义性分布（3）词表自调整三个目的。其中（1）表明该系统可对汉语文本进行分词；这是这个系统的基本属性之一。但是，设计者认为不能为分词而分词，故本系统的

2006-02-06 16:37:00 5633 13

在多元逻辑组合处理及标题语义分析的项目过程中体会到，研究型项目亦及早确定问题领域、算法框架以及评估体系，然后依据实验数据的分析与评估结果进行后继研发——即采用实验效果驱动模式。这个过程中，比较重要的一点是，实验会输出大量的实验数据，对这些实验数据制定评估标准，进行深入分析，审查机器利用原定算法思路所能得到的各种类型的处理结果（也就是黄老师所提到的对机器输出的语料的分析利用），从而进一步思考原算法的

2006-01-18 14:41:00 1624

转载现代汉语的两种成分

现代汉语的两种成分周锡令2005.12.21 声明• 本人没有接受过语言学的训练• 如果您听了以下内容，觉得是胡说八道，浪费了您的时间，希望得到您的原谅 • 先听一下两位专家的说法：徐通锵先生认为：汉语中原本没有Sentence的概念 • 北京大学徐通锵先生在他写的文章：《“字”和汉语

2006-01-17 13:07:00 2836

原创 N元模型

设wi是文本中的任意一个词，如果已知它在该文本中的前两个词 wi-2w-1，便可以用条件概率P(wi|wi-2w-1)来预测wi出现的概率。这就是统计语言模型的概念。一般来说，如果用变量W代表文本中一个任意的词序列，它由顺序排列的n个词组成，即W=w1w2...wn，则统计语言模型就是该词序列W在文本中出现的概率P(W)。利用概率的乘积公式，P(W)可展开为：

2005-12-31 17:23:00 3062

原创 HNC与语言学研究学术研讨会（第三届）简单记录(4)

2005年的最后一天，把这篇简单记录补上。内容主要是关于北京邮电大学钟义信教授的全息自然语言理解与机器认知研究和上海交通大学陆汝占教授的对于搜索引擎的思考两篇主题报告。这两篇报告本来是要在开幕式上做的，因时间关系被推到了闭幕式上。钟教授原来是做信息论的，由于申氏信息论只研究信息传输过程中噪声环境的处理，并不涉及信息的理解，所以钟先生主张从语法、语义和语用三个角度来考察信息，也

2005-12-31 14:08:00 1728

原创 HNC与语言学研究学术研讨会（第三届）简单记录(3)

在语言层面上，关于短语处理的文章很少。自己去年一年都在做这方面的工作，可因为忙着用短语处理的结果参加现在单位搜索引擎的研发，竟然一直没有能够对短语处理作一个总结，心里有点遗憾。这次只是匆忙的整理了短语处理中歧义分析的一个点——形容词与两名词组合搭配的歧义结构来参加这次会议（不过从合作者唐和晋老师那里学到不少东西）。相比而言，关于处理句子的报告却不少。从华中师范大学的报告来看，

2005-12-23 17:14:00 1353 1

原创 HNC与语言学研究学术研讨会（第三届）简单记录(2)

21号下午开始分为两个会场，由会议各个代表作报告。我有选择的听了一些，并没有记笔记。作为计算机出身的人员，一方面想多听学语言学的人的不同声音，另一方面又难以接受仅仅谈语言现象、未与机器处理相结合的报告。另外，做语音处理的报告也听得不太明白。从语言的层次来讲，在词一级做处理的关注了两个报告。北京邮电大学刘建毅作了报告《基于统计分类器的新词识别研究》。因为工作中也遇

2005-12-23 13:19:00 1487

空空如也

空空如也