自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)
  • 收藏
  • 关注

原创 编程珠玑--程序员思维和排序的作用

一、程序员思维-三思而后coding。 优秀的程序员都有点懒:他们坐下来并等待灵机一动的出现而不急于使用最开始的想法编程 。  相信大部分程序员都遇到过这种情况:写了半天的程序发现一开始就想错了,不得不无奈的推倒重来。我认为,无论多简单的问题都会有很多种解决方案,我们要时刻提醒自己能不能写的更好,能不能让代码跟简练,更易读,更具有扩展性,容错性。有人说精炼和易读、扩展性、容错性是相互排斥的...

2012-08-19 22:42:43 641

原创 java awt 模拟钟表

import java.awt.BasicStroke;import java.awt.geom.Ellipse2D;import java.text.SimpleDateFormat;import java.util.Locale;public class run extends javax.swing.JFrame { // 定义一Graphics变量,用来画分针、...

2010-10-29 18:41:59 341

原创 struts2获得session,request,application等web元素

最常用的方法:利用IOC原理,让struts2自动给你注入web元素的实例具体操作:可以在你要获取web元素的action类上实现RequestAware,SessionAware, ApplicationAware 这三个接口。并实现这三个接口的方法:setXXX,就可以调用动态注入web元素实例。以RequestAware为例它只有一个方法: void setRequest(Map&l...

2010-10-22 16:43:25 110

搜索提示功能实现

搜索提示功能主要依靠的是ajax技术,本系统用的是ajax开源框架dwr。众所周知,dwr最大的特点就是页面可以调用后台类,及其方法。具体实现方法设计:数据库存放用户希望查找的产品品牌型号,当用户在搜索输入栏中输入数据中捕获其键盘onkeyup()事件,当此事件发生时利用dwr调用后台类生成的对象查询数据库,并把查询结果返回页面显示。    实现步骤:        (1):创建hint类...

2009-05-30 01:42:20 232

lucene关键字高亮显示

关键字高亮显示也就是在页面显示时,事先对要显示的内容处理,抽取出关键字并加亮,这里抽取关键字也是用lucene,lucene自带有heightlight包就可以实现此功能。Highlighter包括了三个主要部分:段划分器(Fragmenter)、计分器(Scorer)和格式化器(Formatter)。通常要用到的几个重要类有:import org.apache.lucene.sear...

2009-05-24 22:17:28 156

lucene整合struts2,搜索引擎的初步实现

构思时这样:采用3层架构表示层:有3个jsp页面。      1 (index.jsp):用来形成一个搜索的页面(大概弄成像google主页那种模式)      2 (resutl.jsp):用来显示查询结果      3 (product.jsp):用来显示产品的详细信息;控制层:用struts2来实现,包括2个action。      1 (search.action)...

2009-05-24 01:22:34 147

lucene索引

说是第8天,其实就是起个计数作用最近太懒了提取出了网页,并生成了5000多个txt文本文件,下一步就是要对其索引,并存入数据库。对于存进数据库,初学者可能觉得为什么还要用到数据库呢,lucene已经提供了查询,索引。我的理解是存入数据库可以方便我们jsp页面显示。如果数据库中的数据项过于庞大(构建搜索引擎的目的就是为了从庞大的数据中筛选我们需要的信息,所以这点是避免不了的),单纯的用sql来检...

2009-05-20 22:47:57 78

htmlparser使用经验总结,与网页提取

先说说htmlparser的初步学习我觉得htmlparser也不是很困难,就是处理是麻烦些,htmlparser对html节点处理的数据结构为:解析html有3中方法1:lexerlexer解析html的方式更底层些,我返回的是node节点的线性序列,不能产生树形序列2:filterfilter 解析html返回树形节点序列支持逻辑嵌套(andfilter(filte...

2009-05-18 10:24:14 155

htmlparser初体验

昨天晚上完成了网页的下载,暂时不用和heritrix打交道了,有空我要好好研究下它的代码,现在没那么多时间。今天对htmlparser有了初步了解,并自己写了一个简单的可以提取出网页中图片的url的小程序package test;import java.io.BufferedWriter;import java.io.File;import java.io.FileWrit...

2009-05-02 23:32:26 69

heritrix使用经验

1:create  based on existing job 会把order.xml这个文件copy进去,对于在setting中没有可更改的选项会和existing Job 一样。2:对于上次说的那个 seed report 中抛出的那个domain...异常(种子下载异常)过一段时间种子也许可以继续下载下来。 3:如果把800多个种子一股脑的放到种子列表中的话会出现一系列我不明白的...

2009-04-30 16:24:46 92

heritrix多线程探索

上午说的那个方法经过试验是不起作用的。按照上面说的配置后开始抓取网页,发现还是单线程在ACTIVE,查看了order.xml发现还是HostNamesQueueAssignmentPolicy。(后来我才知道原来是因为我是用base one existing job创建JOB的,这样对于setting中没有提供设定的属性会继承下来,由于QUEUEASSIGNMENTPOLICY这个属性在set...

2009-04-28 21:00:15 118

heritrix扩展,多线程抓取网页

由于下载速度太慢,打算重载QueueAssignmentPolicy这个类,并重写它的getClassKey()这个方法,网上的代码有: public String getClassKey(CrawlController controller, CandidateURI cauri) { String uri = cauri.getUURI().toString(); ...

2009-04-28 15:06:11 111

爬虫问题

今天爬虫爬了一天,速度出奇的慢,始终是单线程在运作,最后也没有爬完,爬了65%马上要停电了,只能先停了。现在面临的问题:1:爬虫始终是单线程,导致速度超级慢,有个方法是继承org.archive.crawler.frontier.QueueAssignmentPolicy这个类,重写他的getClassKey()方法,改变他的key值生成方式,并提供了ELFHash算法。2:爬虫怎么实...

2009-04-27 22:59:28 115

heritrix种子选取,与扩展抓取

搜索引擎首先要用爬虫把网页爬下来,我用Heritrix,选择Heritrix的主要原因是因为手头有一本《Heritrix+lucene构建自己的搜索引擎》书,资料多一点困难就少一点吧。其实这几天一直在想做什么主题的垂直搜索引擎,最后决定做汽车的。毕竟没什么经验,时间也不是很多了,我想第一期计划是完成对车的详细参数的搜索。我选择的网站是太平洋汽车网。首先我找到了一个可以吧所有的汽车都可以...

2009-04-26 22:30:10 165

原创 俺不是程序员

俺不是程序员,俺不会写程序!

2007-12-29 23:52:00 194

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除