8 haoshenwang

尚未进行身份认证

Alibaba大神

等级
TA的排名 1w+

IDEA常用快捷键

IDEA常用快捷键Runcmd+4Debugcmd+5Terminaloption+F12DistractionFreeModecmd+shift+F12Movethecurrentlineofcodecmd+s...

2018-06-26 19:34:04

Java网络爬虫crawler4j学习笔记<25> PageFetcher类

简介PageFetcher类主要是HTTPClient包的运用。需要了解其API代码packageedu.uci.ics.crawler4j.fetcher;importjava.io.IOException;importjava.io.UnsupportedEncodingException;importjava.security.cert.X509Certificate;impor

2016-11-10 22:13:14

Java网络爬虫crawler4j学习笔记<24> PageFetchResult类

源代码packageedu.uci.ics.crawler4j.fetcher;importjava.io.EOFException;importjava.io.IOException;importorg.apache.http.Header;importorg.apache.http.HttpEntity;importorg.apache.http.util.EntityUtil

2016-11-10 21:41:15

Java网络爬虫crawler4j学习笔记<23> IdleConnectionMonitorThread类

简介IdleConnectionMonitorThread类负责监控httpclient中的连接,进行清理操作。同时提供终止爬虫的功能。源代码packageedu.uci.ics.crawler4j.fetcher;importjava.util.concurrent.TimeUnit;importorg.apache.http.impl.conn.PoolingHttpClientConne

2016-11-10 21:17:52

Java网络爬虫crawler4j学习笔记<22> Parser 类

简介Parser类负责将从服务器得到的byte[]数据(存储在Page对象里)进行解析,按照binary,text,html的类型,分别调用相应的parseData类>。这里有个容易混淆的点:类BinaryParseData,TextParseData,HtmlParseDat命名有点不好,它们表示的意思是pase之后得到的关于网页的规范化的Data,而不是动名词结构(parsedata)。源代码

2016-11-10 20:28:51

SAX解析示例

简介关于HtmlDOM中的Node对象的namespace,localname等属性的详细解释,参见(W3C)。Book.xml<!--<?xmlversion="1.0"encoding="UTF-8"?><书架><书><书名name="hello"value="world">海的女儿</书名><作者>安徒生</作者>

2016-11-10 17:18:18

Java网络爬虫crawler4j学习笔记<19> SAX解析工具类

ExtractedUrlAnchorPair类packageedu.uci.ics.crawler4j.parser;//将html文本中的超链接标签,拆分为href(超链接),anchor(锚文本),tag(HTML标签)各部分publicclassExtractedUrlAnchorPair{privateStringhref;privateStringancho

2016-11-10 15:42:50

Java网络爬虫crawler4j学习笔记<21> Page 类

简介Page类解析httpClient包中的Entity对象,获取当前页面的信息,包括url(转换为WebURl),response的信息(statuscode,responseheader等),解析后的内容信息等等。源代码packageedu.uci.ics.crawler4j.crawler;importjava.nio.charset.Charset;importorg.apac

2016-11-10 14:32:30

Java网络爬虫crawler4j学习笔记<20> 网页内容转码解析

简介网页内容解析相关的类和接口位于包edu.uci.ics.crawler4j.parser中,用于拆分解析html网页的各部分内容。源代码ParseData接口ParseData接口包含getOutgoingUrls方法,用于获取当前页面的所有外链。packageedu.uci.ics.crawler4j.parser;importedu.uci.ics.crawler4j.url.WebU

2016-11-10 14:20:00

Java网络爬虫crawler4j学习笔记<18> Configurable类

简介Configurable抽象类包含了一个爬虫配置信息对象config,爬虫其他的功能模块有可能需要用到这些配置信息。源代码packageedu.uci.ics.crawler4j.crawler;/***Severalcorecomponentsofcrawler4jextendthisclass*tomakethemconfigurable.**@a

2016-11-10 12:28:24

Java网络爬虫crawler4j学习笔记<17> CrawlConfig类

简介CrawlConfig类存放着爬虫的基本配置,可供用户在初始化爬虫时进行配置。CrawlConfig类也向其他的功能模块提供它们需要的爬虫配置信息。源代码/***LicensedtotheApacheSoftwareFoundation(ASF)underoneormore*contributorlicenseagreements.SeetheNOTI

2016-11-10 12:13:51

Java网络爬虫crawler4j学习笔记<16> exceptions

简介edu.uci.ics.crawler4j.crawler.exceptions包比较简单,里面都是一些自定义的异常类。源代码ContentFetchExceptionpackageedu.uci.ics.crawler4j.crawler.exceptions;/***CreatedbyAviHayunon12/8/2014.**Thrownwhenthere

2016-11-10 11:16:13

Java网络爬虫crawler4j学习笔记<15> FormAuthInfo类

源代码packageedu.uci.ics.crawler4j.crawler.authentication;importjavax.swing.text.html.FormSubmitEvent.MethodType;importjava.net.MalformedURLException;/***CreatedbyAviHayunon11/25/2014.**F

2016-11-10 10:57:45

Java网络爬虫crawler4j学习笔记<14> BasicAuthInfo类

源代码packageedu.uci.ics.crawler4j.crawler.authentication;importjavax.swing.text.html.FormSubmitEvent.MethodType;importjava.net.MalformedURLException;/***CreatedbyAviHayunon11/25/2014.**B

2016-11-10 10:55:30

Java网络爬虫crawler4j学习笔记<13> AuthInfo类

源代码packageedu.uci.ics.crawler4j.crawler.authentication;importjavax.swing.text.html.FormSubmitEvent.MethodType;importjava.net.MalformedURLException;importjava.net.URL;/***CreatedbyAviHayuno

2016-11-10 10:51:10

Java网络爬虫crawler4j学习笔记<12> RobotstxtParser类

源代码packageedu.uci.ics.crawler4j.robotstxt;importjava.util.StringTokenizer;//根据网站的robot.txt文本,构建allows和disallow集合publicclassRobotstxtParser{//当使用String.matches方法调用时,"?i"表示忽略大小写privatestat

2016-11-10 10:18:39

Java网络爬虫crawler4j学习笔记<11> RobotstxtConfig类

源代码packageedu.uci.ics.crawler4j.robotstxt;//robot.txt的配置类publicclassRobotstxtConfig{/***ShouldthecrawlerobeyRobots.txtprotocol?MoreinfoonRobots.txtis*availableathttp://www

2016-11-10 09:48:46

Java网络爬虫crawler4j学习笔记<10> HostDirectives类

源代码packageedu.uci.ics.crawler4j.robotstxt;//存放当前Host的robot.txt指令publicclassHostDirectives{//Ifwefetchedthedirectivesforthishostmorethan//24hours,wehavetore-fetchit.privat

2016-11-10 09:44:07

Java网络爬虫crawler4j学习笔记<9> RuleSet类

源代码packageedu.uci.ics.crawler4j.robotstxt;importjava.util.SortedSet;importjava.util.TreeSet;//RuleSet类根据robot.txt来定义爬虫爬取url时的rulepublicclassRuleSetextendsTreeSet<String>{privatestaticfin

2016-11-10 09:32:34

Java网络爬虫crawler4j学习笔记<8> URLCanonicalizer类

源代码packageedu.uci.ics.crawler4j.url;importjava.net.MalformedURLException;importjava.net.URI;importjava.net.URISyntaxException;importjava.net.URL;importjava.net.URLDecoder;importjava.net.URL

2016-11-08 22:26:33

查看更多

勋章 我的勋章
    暂无奖章