自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

neo_2011的专栏

积累一点算一点……

  • 博客(16)
  • 收藏
  • 关注

原创 fopen的模式选择r和rb

一段的读写二进制的程序遇到莫名奇妙的错误,循环写入的是268个字符,读出的有时是269,有时是270。搜索问题才知道和fopen的mode参数选择有关:如果没有b,即单以”r”为参数的话,系统就把换行符0A转换为0D0A,因为windows是以0D0A为换行符的。参考:http://www.cppblog.com/izualzhy/archive/2012/04/23/172489

2012-06-20 20:31:32 1127

原创 set_union的几个例子

问题:将多个集合合并成没有交集的集合。  给定一个字符串的集合,格式如:{aaabbbccc},{bbbddd},{eeefff},{ggg},{dddhhh}要求将其中交集不为空的集合合并,要求合并完成后的集合之间无交集,例如上例应输出{aaabbbcccdddhhh},{eeefff},{ggg}。  (1)请描述你解决这个问题的思路;  (2)请给出主要的处理流程,算法,以及算法

2012-03-18 13:55:29 10225 1

原创 Larbin学习小结

Larbin是一个用C++开发的开源网络爬虫,有一定的定制选项和较高的网页抓取速度。下图表示了一般爬虫抓取网页的基本过程。抓取以/Larbin.conf中的startUrl做为种子URLs开始。 下面先来看用于处理url的类:上面的类图只显示了url类可见的接口。除了基本的构造函数和私有变量的get函数,url类比较重要的函数是hashCode( ),其实现

2011-11-30 14:24:01 8827 1

原创 Hadoop伪分布式配置试用+eclipse配置使用

参考文档:http://hadoop.apache.org/common/docs/current/single_node_setup.html环境:WinXP+cygwin+hadoop-0.20.2解压hadoop到E:\hadoop-0.20.2,配置文件conf/hadoop-env.sh:# The java implementation to use. R

2011-11-29 14:06:33 3361 1

转载 Nutch 插件系统浅析

原文地址:http://www.ibm.com/developerworks/cn/java/j-lo-nutchplugin/?S_TACT=105AGX52&S_CMP=tec-csdnNutch 基本情况Nutch 是 Apache 基金会的一个开源项目,它原本是开源文件索引框架 Lucene 项目的一个子项目,后来渐渐发展成长为一个独立的开源项目。它基于 Java 开发

2011-11-14 16:40:42 1015

转载 Nutch中MapReduce的分析

How Map and Reduce operations are actually carried outhttp://wiki.apache.org/nutch/MapReducehttp://wiki.apache.org/hadoop/MapReduce转载地址:http://blog.csdn.net/jiutao_tang/article/details/653

2011-11-14 16:38:49 1568

原创 WinXP+cygwin+eclipse配置nutch-1.2,添加IKAnalyzer中文分词

主要参考博客:配置:1,win7下cygwin + Eclipse + Nutch1.2 + Tomcat6 安装配置2,nutch1.1导入eclipse中运行3,nutch研究—基本使用相关说明添加中文分词包:4,Nutch1.2 添加IKAnalyzer中文分词5,nutch研究—遇到的错误和解决办法6,Nutch1.2二次开发详细攻略(四)【图文】---

2011-11-07 17:01:01 4688 2

原创 使用VSM计算文档相似度的一个程序示例

以前课程作业写的一个小程序,复习一下知识点……VSM(vector space model,向量空间模型)http://en.wikipedia.org/wiki/Vector_space_model本例中使用的TF-IDF权重模型公式为sim(q,d)等于TFdoc表示文档中词项出现的次数,TFq表示查询中词项出现的次数,df(w)表示出现词项的文档数,d

2011-11-06 16:46:07 5133 3

转载 一条Dos命令使用notepad2替换windows自带记事本

http://sourceforge.net/projects/notepad2/项目官网下载了notepad2v1108.7z,解压在D盘根目录,文件名该为“notepad.exe ”。在cmd使用命令“replace D:\notepad.exe C:\windows /s”,过几秒钟会弹出个windows文件保护窗口出来,点取消,确认保留。OK. 转载地址:http://

2011-10-29 11:19:38 926

原创 nutch-1.2和nutch-1.3的配置使用

一年多以前简单试用过nutch,但半途而废,打算再次学习一下。前几天先去nutch官网下了最新的nutch-1.3版,依照wiki说明,在windows+cygwin+eclipse中完成配置。http://wiki.apache.org/nutch/RunNutchInEclipse(对应nutch-1.3)http://wiki.apache.org/nutch/NutchTuto

2011-10-25 13:09:38 2760 2

转载 HttpClient使用基础

HttpClient基础(译自自带文档httpclient-tutorial.pdf第一章)http://www.cppblog.com/iuranus/archive/2010/07/04/119311.htmlHttpClient 4使用实例http://hi

2011-10-17 16:35:18 549

原创 删除双系统的ubuntu,以及ubuntu上网很慢的解决办法

最开始分区没分好,/home分区太小了。想重新分区,却感觉困难挺大的,搜了很久没找到解决方案。试用了fdisk, testdisk, diskgen, 分区表医生,都不太好用、不会用……另外不得不提的是ubuntu居然连上网浏览网页都很慢,live cd也是一样,解析超慢,只能上百度和google,网上容易搜到的各种配置DNS的方法并不好用。折腾了很久才找到解决方法,居然是需要关闭

2011-09-28 01:22:57 1819

转载 Ubuntu下调整eclipse界面紧凑

基于GTK+2.0的程序在启动时会到用户的home目录找GTK+2.0的配置文件,即~/.gtkrc-2.0。我使用的方案是编辑加入如下代码:$ gedit ~/.gtkrc-2.0style "gtkcompact" {font_name="Sans 8"

2011-09-26 15:36:03 1549

转载 Linux下C语言连接MySQL

#include #include #include int main(){ MYSQL mysql; MYSQL_ROW row; MYSQL_RES *result; unsigned int num_fields;

2011-09-23 21:36:41 2367

转载 linux man命令使用方法

Linux提供了丰富的帮助手册,当你需要查看某个命令的参数时不必到处上网查找,只要man一下即可。Linux的man手册共有以下几个章节:1、Standard commands (标准命令)2、System calls (系统调用)3、Library functi

2011-09-23 17:41:11 477

原创 htmlparser的简单使用

抽取豆瓣电影信息的例子:我个人主要使用的类有NodeFilter ,TagNameFilter,AndFilter,HasAttributeFilter,NodeList ……public void extract() { BufferedWriter bw = null; NodeFilter title_filter = new TagNameFilter("h1");

2011-08-21 17:40:38 515

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除