12 zpf1217

尚未进行身份认证

暂无相关描述

等级
博文 127
排名 3w+

Lucene3.02 添加自定义analyzer

<br/>Analyzer主要用来分词,一个是对数据的分词,对分析出来的关键词建索引,第二个就是对查询语句分词,使其能更好的匹配,下面就添加一个最简单的analyzer,功能为如果词是"afei",就能形成关键字。。。不是就忽略。。。这个分词器其实已经失去了意义。。。因为只能返回一个词。。。悲哀。。。<br/>Analyzer:在新建IndexWriter时会传入Analyzer,并调用tokenStream获得相应的tokenStream,我们这里就获得自己定义的AfeiCIGenFilter,

2010-09-07 10:03:00

【快乐周末】Google Docs 彩蛋:Konami 密码(真是太他妈的有创意了,好生向往,呵呵)

<br/><br/>请问有人不知道上图中这个是什么命令吗?如果你不懂的话,那么你估计没有玩过任天堂FC。这是游戏史上最广为人知的一条秘技,最早出现在Komani出品的FC游戏魂斗罗(Contra)中,在标题画面输入这个命令后,再开始游戏就有30条命而不是3条了。后来这个秘技又在大量的Konami甚至非Konami游戏中出现,被人称之为科纳米密码KonamiCode。<br/>Google也是KonamiCode的粉丝,相信谷奥的大部分读者都知道在GoogleRead

2010-09-07 09:51:00

大数据量,海量数据 处理方法总结(我怎么没有早点看到。。。日,第一条没看明白,欢迎指点)

<br/>大数据量,海量数据处理方法总结2010-08-2623:13 | (分类:默认分类)大数据量的问题是很多面试笔试中经常出现的问题,比如baidugoogle腾讯这样的一些涉及到海量数据的公司经常会问到。 <br/><br/>下面的方法是我对海量数据的处理方法进行了一个一般性的总结,当然这些方法可能并不能完全覆盖所有的问题,但是这样的一些方法也基本可以处理绝大多数遇到的问题。下面的一些问题基本直接来源于公司的面试笔试题目,方法不一定最优,如果你有更好的处理方法,欢迎与我讨论。 <br

2010-09-07 01:31:00

京东与淘宝

<br/>  最近听说京东不错,因为之前从没听说过。。。粡了。。。。而且听说上面电子产品很便宜,于是昨天半夜将近一点的时候去京东搜一下“液晶显示器”,因为我想给我的笔记本接双显,想想都爽,呵呵,很简单,有个瀚视明的19寸,699,还免邮费,不错,就点购买,让我注册。。。好吧,注册,点买,填地址,然后点提交订单。。。晕。。。直接就显示已提交。。。好简单。。。连个验证都没有。。。<br/>  结果第二天,也就是今天,下午有人电话。。说货到了。。。直接送到我们公司11楼门口。。还拿了个刷卡机可以刷卡。。。这效

2010-09-07 00:28:00

针对 google 图片搜索的小技巧,嘿嘿

<br/>GOOGLE图片搜索前一阵子出了新功能,就是搜索“类似图片”!!!这个听着简单。。。实在是太NB了,因为图片不像文字和网页可以做全文检索,我们人眼看的比较像,但是在计算机中存储可能就完全不同。。。图片识别太强了,就是能找到与一张图片比较类似的其它的图片,比如是一张金字塔照片,你点击搜索“类似图片”,就会出现金字塔不同角度的照片。。。太犀利了。。。而我们可以用它干什么呢,举个最简单的例子,最近被和谐的厉害。。。<br/>你可以搜索“美女”,会出现很多美女图片!然后找一张漂亮的并且尺度比较犀利的图

2010-09-05 01:14:00

最近发的所有的BLOG中,访问量最多的竟然是“ 点评日本二十三大女优 真是他妈的太搞笑了 ”。。。。。。我不禁对我的人生观,价值观产生了些许怀疑

<br/>RT,其它的BLOG都是1-5个人访问,而点评日本二十三大女优真是他妈的太搞笑了这一篇竟然达到了75人。。。比我发了20篇其它的BLOG还要多,RT日噢。。。

2010-09-03 15:52:00

lucene3.02 的analyzer分析语汇单元

<br/>下面用代码展示LUCENE自带的四种analyzer对相同文本分析结果的异同<br/>注:因为在2.9以后,lucene对语汇单元引入了一种新的机制。。。我用的资料是2006年的luceneinaction,所以是老的代码。。。好悲哀。。。查了好多API,才用新的实现。。。<br/>   AnewTokenStreamAPIhasbeenintroducedwithLucene2.9.ThisAPIhasmovedfrombeingToken-bas

2010-09-03 15:44:00

电脑被洗澡了。。。

<br/>前天,上海8级台风。。。有暴雨。。。被淋得像个落汤鸡,到家了。。发现窗户没关。。。电脑就放在窗前。。。悲剧。。。而那个黄色的灯一直在亮。。。我就很好奇,怎么回事?为什么会亮,现在想想估计是电池短路了,我看到它在亮,就非常想看下是不是已经坏了。。现在想想自己真贱。。。点了一下。。。竟然开开了。。。很激动,立刻关上,开始擦水,好多水啊。。。擦干了。。。再开。。。已经开不开了,只有个电源的小黄灯亮着,没有任何反应。。。我靠。。。相当的悲哀。。。我还没有电吹风。。。现在想想真贱。。。为什么不立刻去买一个

2010-09-03 15:36:00

忽然想起,孩子们明天就开学了

<br/>忽然想起,孩子们明天就开学了,唉,以前上学的时候,非常讨厌9月1号,因为会开学。。呵呵,转眼就工作了啊,唉,好快噢。。。而且还有点累。。。大人们说小孩子最幸福。。。当年还不信。。。现在觉的差不多。。。但是如果让我去当小孩的话,我还是宁愿长大,哈哈,只不过那个曾经天真的我,纯真的我,已经离开了啊。。。<br/>那个为我留长发的姑娘,那个夏天会流很多汗的男孩,那些一起打游戏机的兄弟们,那个打了我会给我道歉的哥哥,和那个胖胖的小子,那些人,那些事,我会永远留在心中<br/>现在唯一能做的,就是靠自

2010-09-01 02:08:00

相当的悲剧,Nutch1.1 关于User-Agent 问题

<br/>今天定了个计划,想做一个程序员解答的专业搜索引擎,因为各方面的原因,主要是带宽和速度,现在不能去做通用搜索引擎,所以之能做一些专用和整站搜索的引擎,昨天对我们公司的做了下,很开心。。。呵呵,<br/> <br/>关于程序员技术方面的看法:因为好多技术问题,通用搜索引擎无法给出好的解答,因为不够专业,而且如果在搜索引擎上排的靠前。。必然是一些过时的。。。(为什么?自己想想,呵呵),这也是stackOverFlow诞生的根源(详见http://stackoverflow.com/,中国

2010-09-01 01:59:00

在自由软件日统筹主办单位中 看到了我的母校--南邮,内心无比欣慰啊

<br/>9月18日是自由软件日(SoftwareFreedomDay(FSD)),我去自由软件日中国站点http://www.sfdchina.org/,随便看看,没想到竟然在主办单位上看到我南邮的名字。。。内心无比欣慰啊。。。只是我在校的时候怎么没有感觉到。。。悲剧。。以下附上全国联筹软件自由日活动<br/> <br/>全国联筹软件自由日活动<br/>COPU秘书处<br/>谨将全国联合筹办今年的软件自由日活动有关情况,公布如下,与大家分享。<br/>----------------

2010-08-31 15:30:00

操他妈的!终于成功了!!!日啊。。。UBUNTU下NUTCH1.1网页搜索结果总为0解决,太悲剧了。。。

<br/>UBUNTU下配置NUTCH1.1,按照书上<Lucene+Nutch搜索引擎开发>一步一步来,前面都是成功的,包括建索引和对索引的搜索,但是到了从网页搜索索引的时候却总是返回0,。。。好无语了。。。网上绝大部分都是说要更改配置文件,增加至 nutch/WEB-INF/classes下nutch-site.xml,增加配置为<br/> <br/> <br/><property><br/> <name>http.agent.name</name><br/> <value>*<

2010-08-31 02:15:00

Ubuntu 字体美化-微软雅黑和宋体

<br/>Ubuntu字体美化-微软雅黑和宋体2009年05月30日星期六上午11:16刚刚接触到LINUX,总是感觉里面的字体怪怪的,也许是习惯了WINDOWS的字体吧;<br/><br/>于是想到将LINUX的字体更换成WINDOWS的字体。<br/><br/>首先,先准备好WINDOWS的字体,一般是微软雅黑和宋体,大家可以从WINDOWS操作系统中提取,也可以通过网上下载。<br/><br/>这两个字体分别放在了WINDOWS/FONTS目录下,名称分别为:msyh.ttf,s

2010-08-28 19:54:00

ubuntu eclipse美化(调整按钮空间)

<br/>在UBUNTU下,发现ECLIPSE明显不如WINDOWS下的排版和布局好,因为图标和按钮以及占的空间太大了,所以找啊找啊找。。。终于找到了不是很完美但也很不错的解决方法。<br/> <br/>文章一:来自(http://www.javaeye.com/topic/88694)<br/> <br/>如果你在Windows和Linux两个平台下都使用过Eclipse,那么你一定注意到Windows下Eclipse项目列表的显示要比Linux下紧凑许多。对于做开发的朋友来讲,在屏幕上同时看到

2010-08-25 01:14:00

vi使用方法

<br/>vi使用方法(接触linux开始学习vi了)阿飞:用了这么多年LINUX,竟然对VI还不熟,真是悲哀啊,以前用gedit,对VI都忘光光了,现在竟然要去找教程。。。连MAN都懒的看了。。。真是悲哀啊。。。全文:开始接触linux了,文本编辑器是最基础的部分,听不少人说vi功能强大,虽然入门有些费事,但使用熟练后绝对方便,因此下决心学习vi了,下面是从网上找的一个vi入门文章,以后不懂就来看看了:)<br/><br/>vi编辑器是所有Unix及Linux系统下标准的编辑器,它的强大不逊色于任何

2010-08-24 23:55:00

上帝为什么不奖赏好人

<br/>上帝为什么不奖赏好人作者:webmaster@u148.net(有意思吧-向好)有3人喜欢此条目<br/><br/> <br/>陌生人的回信:这个世界暖暖的<br/> <br/>1963年,一位叫玛莉·班尼的女孩写信给《芝加哥论坛报》,因为她实在搞不明白,为什么她帮妈妈把烤好的甜饼送到餐桌上,得到的只是一句“好孩子”的夸奖,而那个什么都不干,只知捣蛋的戴维(她的弟弟)得到的却是一个甜饼。她想问一问无所不知的西勒·库斯特先生,上帝真的是公平的吗?为什么她在家和学校常看到一些

2010-08-21 19:55:00

魔王抓住了公主 等笑话

魔王抓住了公主       魔王说:你尽管叫破喉咙吧,没有人会来救你的!      公主:破喉咙,破喉咙!      没有人:公主,我来救你了!      魔王:说曹操曹操就到!      曹操:魔王,你叫我干嘛?      魔王:哇呀,看到鬼了!      鬼:靠!被发现了.      靠:胡说,谁发现我了?      谁:关我屁事!      魔王:oh,mygod!      上帝:谁叫我?!      谁:没有人叫你啊!      没有人:我哪有!!!      据说魔王从此得了精神分裂症.

2010-08-20 00:10:00

lucene的索引文件

<br/>通过实际的程序我们可以观察到,如果不使用复合文件格式来创建索引的话,索引文件很多,这些索引文件记录和Field,Term相关的种种信息,这些信息以一定的格式存放在文件中,并且使用了压缩等多项技术来减少空间占用,不过lucene的压缩结构并没有使查找效率明显降低,适当的冗余还是存在与索引中。<br/>       大部分的搜索(数据库)引擎都是用B树结构来维护索引,索引的更新会导致大量的IO操作,Lucene在实现中,对此稍微有所改进:不是维护一个索引文件,而是在扩展索引的时候不断创建新的索引

2010-08-17 01:51:00

lucene 源代码的分析(search部分)

<br/>lucene的源代码中各种调用关系不是非常明显,往往你中有我,我中有你,这种写程序的方法对于初次接触的源码的人多少有些困惑,但是从整个程序的结构上来讲,这样的工具包使用起来会更加方便一些,封装的层次性较好,扩展性高。这种抽象的思想很值的研究。<br/>     下面是笔者对lucene中search的主体部分(org.apache.lucene.seach)进行的分析。常见的search的用法是这样的  <br/>      IndexReaderreader=IndexRead

2010-08-17 01:48:00

lucene源代码分析(index部分)

<br/>        lucene的索引<br/>         lucene对一系列的文件进行索引时,首先会将物理文件映射为Document类型的文件。Document中包含有和检索相关的field,这个过程将一些感兴趣的内容提取出来,而之后所有的检索都是基于Document的。<br/>         lucene的索引分为两种,一种是将不同索引信息写到不同的文件中,一种是使用复合文件索引格式,该索引格式减少了索引文件的个数,但同时会有一定效率的降低。<br/>经常使用IndexW

2010-08-17 01:46:00
奖章
    暂无奖章