wbia2010lkl-CSDN博客

原创 project3---我们的成果展示

如火如荼的考试周开始了，我们组赶在考试之前完成了我们的最后一个大作业。我们的成果是一个旅游景点搜索----畅游天下，目前能够对北京，深圳，上海，厦门，西安，拉萨六所城市进行搜索。主页面如图1所示：访问站点地址是：http://219.223.192.169,使用google chrome能有理想的页面显示效果。本项目采用MVC三层开发模型，页面显示层使用javascipt,html,数据抽取采用heritrix,建立索引使用Lucene，数据库使用MYSQL。下面展示一下目前实现的功能：一、搜景点输

2011-01-03 21:49:00 1279 2

原创 Project2--Lucene的Ranking算法修改：BM25算法

1. BM25算法 BM25是二元独立模型的扩展，其得分函数有很多形式，最普通的形式如下： ∑ 其中，k1,k2,K均为经验设置的参数，fi是词项在文档中的频率，qfi是词项在查询中的频率。 K1通常为1.2，通常为0-1000 K的形式较为复杂 K= 上式中，dl表示文档的长度，avdl表示文档的平均长度，b通常取0.75 2.

2010-11-30 23:26:00 9388

原创 Project2--Lucene的Ranking机制浅析

1. 原理首先，Lucene采用了空间向量模型（VSM）来进行检索。其次，Lucene的打分机制是根据以下公式：score(q,d)=coord(q,d)xqueryNorm(q)x∑(tf (t ind )xidf(t)2 xt.getBoost()xnorm(t,d)))其中coord表示一篇文档所包含的搜索词越多，此文档的分数越高；queryNorm计算每个查询条目的方差和，其结果对排序没有影响2. 如何计算各个部分的值a. tf和idftf表示某个term在文档中出现的词频，idf表示term在几个

2010-11-24 21:20:00 2591

原创 Project2--配置Lucene, 对ccer数据建立索引和查询系统

Step 1 读取文件夹下的所有文件public static String getFiles(File f) { if(f.isDirectory()) { File[]fs=f.listFiles(); for(int i=0;i

2010-11-19 19:47:00 1144

原创 IKAnalyzer的分词效果

为了能够对抓取的中文信息进行检，需要选择分词器对其进行分词，IKAnalyzer是一个不错的选择，小试了一下IKAnalyzer的分词效果，感觉不错，代码如下： package org.kaiser;import java.io.IOException;import java.io.StringReader;import org.wltea.analyzer.IKSegmentation;import org.wltea.analyzer.Lexeme;

2010-11-10 21:14:00 3920 1

原创作业第三步----Top10的最重要页面（续）

由于此前在Heritrix中自定义的Extractor保存了如下几个文件： 1.入度；格式为url+“/n”+入度数 例如：http://hmwu.ccer.edu.cn/ 1 2.出度，格式同上 3.url及其链出的url 例如：http://www.ccer.pku.edu.cn/cn/Images/arrow.gif

2010-10-27 23:23:00 842

原创作业第三步----Top10的最重要页面

到了这一步，这次的作业基本计算完成了。通过得到url的出入度信息，排出Top10的最重要页面。在抓取过程中，我们创建了自己Extractor,然后又在BdbFrontier中修改了代码实现了出入度的文件保存，于是接下来只需对文件进行分析利用pageRank算法即可。思路一：这是最常规的方法，也是第一时间可以相处的方法，就是利用出度关系，直接构造一个邻接矩阵，读取矩阵之后进行 nG= 0.85*LT+0.15/11(1N)nP0=(1/11,1/11,….)Tn

2010-10-25 01:45:00 904 1

原创作业第二步——#3找出isUrlVisited

这是Frontier的类图，从中可以看到有几个关键类：5。BdbUriUniqFilter:它用来检查一个要进入等待队列的链接是否已经被抓取过.其中有个关键函数setAdd,就是此次要找的isUrlVisited的核心//添加URL protected boolean setAdd(CharSequence uri) { DatabaseEntry key = new DatabaseEntry(); LongBinding.longToEntry(createKey(u

2010-10-21 22:12:00 741

原创作业第二步—#2找出Politeness

在eclipse中利用全局搜索，搜索politeness，就找到了他的藏身之地Frontier--》AbstractFrontier 中的politenessDelayFor函数， /** * Update any scheduling structures with the new information in this * CrawlURI. Chiefly means make necessary arran

2010-10-21 22:01:00 580

原创作业第二步——#1代码分析

首先看一下Heritrix的架构图： 1。 CrawlController（下载控制器）整个下载过程的总的控制者，整个抓取工作的起点，决定整个抓取任务的开始和结束。从Frontier获取 URI，传递给线程池（ToePool）中的ToeThread处理。 2。 Frointier(边界控制器) 主要确定下一个将被处理的URI，负责访问的均衡处理，避免对某一web服务器造成太大的压力。它保存着craw

2010-10-21 21:19:00 776

原创作业第三步，统计URL的出度和入读

这真是一件令人兴奋的事，终于在今天搞定了网页抓取的出入度统计工作！上周我们在抓取完所有的网页之后，得到了crawl.log文件，按照最初的计划，由于此文件中记录了全部的抓取信息，所以想利用此文件来分析该抓取任务的出入度，但是当打开这个庞大的文件的时候，我们实在是老虎吃螃蟹---无处可下爪！这个9M文件实在是令人生畏。但是我们起初并没有放弃这个想法，而是从中研究这个文件的生成过程，从而想利用这个思路企图寻求更好的解决方法，这边有了漫长地研究Heritrix源码的过程。 1.研

2010-10-21 15:39:00 1746 2

原创 Bloom Filter

在javaEyes上找到一篇挺有用的文章，希望能对大家理解Bloom filter有帮助 1 Overview Bloom filter最早由 Burton Howard Bloom提出，是一种用于判断成员是否存在于某个集合中的数据结构。 Bloom filter的判断基于概率论：如果某个成员存在于集合中，那么Bloom filter不会返回假（即不存在），也就是说false negative是不可能的。如果某个成员实际上不存在于集合中，Bloom fi

2010-10-20 11:16:00 1747

原创 Heritrix在开发环境myEclipse下的配置方法

配置的时候，先从网上搜的配置方法，但不知道怎么回事，老是配置不成功，就是输入http://127.0.0.1:8090(我设置的端口是8090)时，打不开。我看网上配置的方法都是大同小异的，但不知道怎么到我这就不成功了，很苦恼。后来不知怎么的，就认认真真的按部就班的按一篇文章上写的配置，配置成功了。 下面是我配置成功参考的步骤： 主要步骤如下： 1. 下载heritrix-1.14.4.zip和heritrix-1.14.4-src.zip，分别解压

2010-10-15 20:01:00 1593

原创 Eclipse中导入Heritrix，报错找不到类 sun.net.www.protocol.file.FileURLConnection

在Heritrix1.14.3配置运行时，出现Error：找不到sun.net.www.protocol.file.FileURLConnection，网上找了一下原因是sun包是受保护的包，默认只有sun公司的软件才能使用，Eclipse使用则会报错，只需把对保护使用waring就可以了 具体的做法是： Windows -> Preferences -> Java -> Compiler -> Errors/Warnings-> Deprecated and trstric

2010-09-30 14:58:00 7674 1

原创 Self Introduction-----李金平

李金平，女，山东菏泽人。本科就读于山东大学软件工程系，顺利毕业，并取得学士学位。现在在互联网信息工程研发中心攻读硕士学位。自认为的优点：天生的乐观，总是把事情想的很美好自认为的缺点：太爱幻想，需要实际一点爱好：摄影，打羽毛球，不过都很不专业，只是喜欢希望能在以后的几个月里，跟队友合作愉快，认认真真的学好彭老师的这门课！另外，很想在这赞美一下彭老师，第一次见脾气这么好的老师，笑起来很温和。

2010-09-30 14:38:00 1229

转载 (转)Heritrix1.14.1在Eclipse下的配置总结

1、在Eclipse下新建一个项目。（哪一个版本应该无所谓吧，JDK1.5）； 2、将1.14.1版的Heritrix两个.zip文件下载并解压到临时目录（heritrix-1.14.1-src.zip和heritrix-1.14.1.zip）； 3、从第一个zip文件解压目录下/src/java复制三个文件夹（包）：org、com、st到项目中的src上； 4、从第一个zip文件解压目录下/src/conf复制所有

2010-09-30 14:24:00 648

原创 Self Introduction --- 赵帅

Hello~This is Leon Chiao~我是赵帅，来自古城西安，毕业于中国最美丽的大学---厦门大学，现于北京大学信息科学技术学院互联网信息工程中心攻读理学硕士研究生。作为一名从软件工程专业转向计算机系统结构专业的学生，为的正是对互联网技术的热爱。对移动互联网发展的热衷，使得我本科毕业前与同学合力策划并开发了“笑客---手机笑话分享平台”（http://v.youku.com/v_show/id_XMjAwNTMyNjcy.html）。出于对网络研究生学习的先修准备，我参加了全国计算机与软件资格认

2010-09-30 13:46:00 1873

wbia2010lkl的专栏