自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

原创 大数据

有人问什么是大数据,大数据就是

2014-07-19 11:54:21 493

原创 软件故障定位

软件故障定位的研究方法,应用

2014-07-19 11:49:39 1087

原创 改一个参数就是创新?

中国人搞研究是怎么了,几年下来就改一个参数就发论文了,zhesh

2014-07-18 19:06:47 558 1

转载 Apriori

1 Apriori介绍Apriori算法使用频繁项集的先验知识,使用一种称作逐层搜索的迭代方法,k项集用于探索(k+1)项集。首先,通过扫描事务(交易)记录,找出所有的频繁1项集,该集合记做L1,然后利用L1找频繁2项集的集合L2,L2找L3,如此下去,直到不能再找到任何频繁k项集。最后再在所有的频繁集中找出强规则,即产生用户感兴趣的关联规则。其中,Apriori算法具有这样一条性

2014-07-17 11:11:29 626

原创 1.5抓取网页

1.5抓取网页现在我们把所有的都放在一起,尝试着做一次网页的抓取,大概的思路已经十分清楚了,首先建立连接,然后下载网页的内容,最后将网页内容存储到本地硬盘中。import java.io.BufferedInputStream;import java.io.DataOutputStream;import java.io.File;import java.io.FileOutpu

2014-07-17 10:50:10 469

原创 1.3 Redict

1.3 Redict    在获取网页的过程中,往往会发生跳转,为了有效的处理跳转,需要用getStatusCode()方法获取服务器的状态码并且加以判断,如果返回值是以3开头的,那么则发生了跳转,这时候要确定新的地址,常见的几个以3开头的状态码是HttpStatus.SC_MOVED_TEMPORARILY、HttpStatus.SC_MOVED_PERMANENTLY) 、HttpSt

2014-07-17 10:49:00 1156

转载 1.2StateCode

1.2StateCode    成功(2字头)    这一类型的状态码,代表请求已成功被服务器接收、理解、并接受。200 OK请求已成功,请求所希望的响应头或数据体将随此响应返回。201 Created请求已经被实现,而且有一个新的资源已经依据请求的需要而建立,且其 URI 已经随Location 头信息返回。假如需要的资源无法及时建立的话,应当返回 '202 Accept

2014-07-17 10:48:02 666

原创 网络舆情系统的开发

第一章 爬取网页这一章主要介绍如何爬取网页,在实际应用中,通常采用网络爬虫来快速抓取大量网页,存入本地硬盘内,开源的爬虫软件有很多,在开源中国中有详细的介绍,http://www.oschina.net/project/tag/64/spider。在这一版本的舆情监控系统中,暂时不采用这样庞大的爬虫,因为我们需要的信息量并不大,通过自己写的爬虫程序便可以抓取足够的网页信息,在这一章,我们将抓取

2014-07-17 10:30:45 5230 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除