dufei07-CSDN博客

原创编程珠玑--程序员思维和排序的作用

一、程序员思维-三思而后coding。优秀的程序员都有点懒：他们坐下来并等待灵机一动的出现而不急于使用最开始的想法编程。相信大部分程序员都遇到过这种情况：写了半天的程序发现一开始就想错了，不得不无奈的推倒重来。我认为，无论多简单的问题都会有很多种解决方案，我们要时刻提醒自己能不能写的更好，能不能让代码跟简练，更易读，更具有扩展性，容错性。有人说精炼和易读、扩展性、容错性是相互排斥的...

2012-08-19 22:42:43 641

原创 java awt 模拟钟表

import java.awt.BasicStroke;import java.awt.geom.Ellipse2D;import java.text.SimpleDateFormat;import java.util.Locale;public class run extends javax.swing.JFrame { // 定义一Graphics变量，用来画分针、...

2010-10-29 18:41:59 341

原创 struts2获得session，request，application等web元素

最常用的方法：利用IOC原理，让struts2自动给你注入web元素的实例具体操作：可以在你要获取web元素的action类上实现RequestAware,SessionAware, ApplicationAware 这三个接口。并实现这三个接口的方法：setXXX,就可以调用动态注入web元素实例。以RequestAware为例它只有一个方法： void setRequest(Map&l...

2010-10-22 16:43:25 110

搜索提示功能实现

搜索提示功能主要依靠的是ajax技术，本系统用的是ajax开源框架dwr。众所周知，dwr最大的特点就是页面可以调用后台类，及其方法。具体实现方法设计：数据库存放用户希望查找的产品品牌型号，当用户在搜索输入栏中输入数据中捕获其键盘onkeyup()事件，当此事件发生时利用dwr调用后台类生成的对象查询数据库，并把查询结果返回页面显示。实现步骤：（1）：创建hint类...

2009-05-30 01:42:20 232

lucene关键字高亮显示

关键字高亮显示也就是在页面显示时，事先对要显示的内容处理，抽取出关键字并加亮，这里抽取关键字也是用lucene，lucene自带有heightlight包就可以实现此功能。Highlighter包括了三个主要部分：段划分器（Fragmenter）、计分器（Scorer）和格式化器（Formatter）。通常要用到的几个重要类有：import org.apache.lucene.sear...

2009-05-24 22:17:28 156

lucene整合struts2，搜索引擎的初步实现

构思时这样：采用3层架构表示层：有3个jsp页面。 1 (index.jsp):用来形成一个搜索的页面（大概弄成像google主页那种模式） 2 (resutl.jsp):用来显示查询结果 3 (product.jsp)：用来显示产品的详细信息；控制层：用struts2来实现，包括2个action。 1 (search.action)...

2009-05-24 01:22:34 147

说是第8天，其实就是起个计数作用最近太懒了提取出了网页，并生成了5000多个txt文本文件，下一步就是要对其索引，并存入数据库。对于存进数据库，初学者可能觉得为什么还要用到数据库呢，lucene已经提供了查询，索引。我的理解是存入数据库可以方便我们jsp页面显示。如果数据库中的数据项过于庞大（构建搜索引擎的目的就是为了从庞大的数据中筛选我们需要的信息，所以这点是避免不了的），单纯的用sql来检...

2009-05-20 22:47:57 78

htmlparser使用经验总结，与网页提取

先说说htmlparser的初步学习我觉得htmlparser也不是很困难，就是处理是麻烦些，htmlparser对html节点处理的数据结构为：解析html有3中方法1：lexerlexer解析html的方式更底层些，我返回的是node节点的线性序列，不能产生树形序列2：filterfilter 解析html返回树形节点序列支持逻辑嵌套（andfilter(filte...

2009-05-18 10:24:14 155

htmlparser初体验

昨天晚上完成了网页的下载，暂时不用和heritrix打交道了，有空我要好好研究下它的代码，现在没那么多时间。今天对htmlparser有了初步了解，并自己写了一个简单的可以提取出网页中图片的url的小程序package test;import java.io.BufferedWriter;import java.io.File;import java.io.FileWrit...

2009-05-02 23:32:26 69

heritrix使用经验

1:create based on existing job 会把order.xml这个文件copy进去，对于在setting中没有可更改的选项会和existing Job 一样。2：对于上次说的那个 seed report 中抛出的那个domain...异常（种子下载异常）过一段时间种子也许可以继续下载下来。 3：如果把800多个种子一股脑的放到种子列表中的话会出现一系列我不明白的...

2009-04-30 16:24:46 92

heritrix多线程探索

上午说的那个方法经过试验是不起作用的。按照上面说的配置后开始抓取网页，发现还是单线程在ACTIVE，查看了order.xml发现还是HostNamesQueueAssignmentPolicy。(后来我才知道原来是因为我是用base one existing job创建JOB的，这样对于setting中没有提供设定的属性会继承下来，由于QUEUEASSIGNMENTPOLICY这个属性在set...

2009-04-28 21:00:15 118

heritrix扩展，多线程抓取网页

由于下载速度太慢，打算重载QueueAssignmentPolicy这个类，并重写它的getClassKey（）这个方法，网上的代码有： public String getClassKey(CrawlController controller, CandidateURI cauri) { String uri = cauri.getUURI().toString(); ...

2009-04-28 15:06:11 111

爬虫问题

今天爬虫爬了一天，速度出奇的慢，始终是单线程在运作，最后也没有爬完，爬了65%马上要停电了，只能先停了。现在面临的问题：1：爬虫始终是单线程，导致速度超级慢，有个方法是继承org.archive.crawler.frontier.QueueAssignmentPolicy这个类，重写他的getClassKey（）方法，改变他的key值生成方式，并提供了ELFHash算法。2：爬虫怎么实...

2009-04-27 22:59:28 115

heritrix种子选取，与扩展抓取

搜索引擎首先要用爬虫把网页爬下来，我用Heritrix，选择Heritrix的主要原因是因为手头有一本《Heritrix+lucene构建自己的搜索引擎》书，资料多一点困难就少一点吧。其实这几天一直在想做什么主题的垂直搜索引擎，最后决定做汽车的。毕竟没什么经验，时间也不是很多了，我想第一期计划是完成对车的详细参数的搜索。我选择的网站是太平洋汽车网。首先我找到了一个可以吧所有的汽车都可以...

2009-04-26 22:30:10 165

原创俺不是程序员

俺不是程序员,俺不会写程序!

2007-12-29 23:52:00 194

dufei07的专栏