- 博客(52)
- 资源 (24)
- 收藏
- 关注
原创 大数据系列1:在win7上安装配置Hadoop伪分布式集群
1、 安装虚拟机和操作系统VMware-workstation-full-10.0.0 或VirtualBox-4.2.18-88781-Win 下载VMware 下载VirtualBoxubuntu-13.04-server-amd64.iso下载ubuntu2、 设置root用户密码sudo passwdroot3、 上传文件利用Win
2014-02-03 16:40:42 10120
原创 APDPlat的系统启动和关闭流程剖析
APDPlat接管了Spring的启动关闭权,为各种运行其上的开源框架和类库的无缝集成提供了支持。 当然,大家都知道,一个JAVA EE Web应用的入口点是web.xml,APDPlat当然也不例外,我们看看APDPlat是如何接管Spring的启动关闭权的: 经过定制的spring监听器 org.apdplat.platform.spring.APDPlatContext
2014-02-03 10:47:09 10121
转载 The Future of Compass & ElasticSearch
Posted by: Shay Banon on 07/07/2010 Its been a long time since I blogged about Compass, and I guess its about time to discuss Compass, ElasticSearch, and how they relate to one another.
2014-02-05 18:41:56 805
原创 和讯网人物信息采集程序
对于单站点或是数量较少的站点的信息采集来说,使用JSoup+CSSPath是非常不错的选择,使用Firefox的插件Firebug进行页面结构分析,可以很容易地得到待采集内容的CSSPath。对于更复杂的情况,我们就需要引入专业的网络爬虫如Nutch来完成页面的抓取,当然解析网页的工作还是使用JSoup+CSSPath。
2014-02-05 18:25:22 924
原创 电子报纸采集程序
使用JSoup+CSSPath从网上采集电子报纸,通过对不同电子报纸的网站结构进行分析,可以抽象出一些通用的模式,统一的接口,通用的抽象类,可扩展的实现。
2014-02-05 18:05:34 524 1
原创 Nutch相关框架视频教程20
第二十讲 优酷在线视频地址(22分钟)【视频下载地址】 1、Ganglia以单播方式监控跨多个网段的单一集群vi /etc/ganglia/gmetad.conf data_source "hadoop-cluster" 10 host6 /etc/init.d/gmetad restart 在集群的所有节点中指定以下配置:vi /etc
2014-02-03 19:05:53 184
原创 Nutch相关框架视频教程19
第十九讲 优酷在线视频地址(21分钟)【视频下载地址】 1、Ganglia以组播方式监控同一个网段中的多个集群vi /etc/ganglia/gmetad.conf data_source "cluster1" 10 host2 data_source "cluster2" 10 host6 data_source "cluster3" 10
2014-02-03 19:01:33 930
原创 Nutch相关框架视频教程18
第十八讲 优酷在线视频地址 (57分钟)【视频下载地址】 1、准备压缩数据从dmoz下载url库wget http://rdf.dmoz.org/rdf/content.rdf.u8.gzgunzip content.rdf.u8.gz准备nutch1.6svn co https://svn.apache.org/repos/asf/nutch
2014-02-03 19:00:08 174
原创 Nutch相关框架视频教程17
第十七讲 优酷在线视频地址 (31分钟)【视频下载地址】 Ganglia主要是用来监控大规模分布式系统的性能,如:cpu、内存、硬盘、负载、网络流量等。Ganglia支持通过浏览器访问,强大的图表展示方式很容易直观地了解每个节点以及整个集群的工作状态,对集群运行参数调整、提高系统整体资源利用率起到重要作用。1、 配置服务端host6作为服务端:创建用户和组:
2014-02-03 18:58:43 173
原创 Nutch相关框架视频教程16
第十六讲 优酷在线视频地址 (27分钟)【视频下载地址】 1、运行基准测试hadoop jarhadoop-test-1.1.2.jar hadoop jarhadoop-test-1.1.2.jar DFSCIOTest -write -nrFiles 12 -fileSize 1000 -resFiletesthadoop jarhadoop-test-1.
2014-02-03 18:57:16 159
原创 Nutch相关框架视频教程15
第十五讲 优酷在线视频地址 (30分钟)【视频下载地址】 1、限制hadoop节点连接NameNode:vi conf/hdfs-site.xml dfs.hosts /home/hadoop/hadoop-1.1.2/conf/include dfs.hosts.exclude /home/hadoop/had
2014-02-03 18:55:42 161
原创 Nutch相关框架视频教程14
第十四讲 优酷在线视频地址 (26分钟)【视频下载地址】 1、 动态增加DataNode节点和TaskTracker节点以host226为例在host226上执行:指定主机名vi /etc/hostname指定主机名到IP地址的映射vi /etc/hosts增加用户和组addgrouphadoopadduser--ingroup h
2014-02-03 18:53:58 138
原创 Nutch相关框架视频教程13
第十三讲 优酷在线视频地址 (29分钟)【视频下载地址】 1、改变负载三台机器,改变负载host2(NameNode、DataNode、TaskTracker)host6(SecondaryNameNode、DataNode、TaskTracker)host8(JobTracker、DataNode、TaskTracker) 指定SecondaryNam
2014-02-03 18:52:08 164
原创 Nutch相关框架视频教程12
第十二讲 土豆在线视频地址(30分钟)【视频下载地址】 1、 HADOOP多机完全分布式模式三台机器host2(NameNode、SecondaryNameNode、JobTracker、DataNode、TaskTracker)host6(DataNode、TaskTracker)host8(DataNode、TaskTracker)vi /etc/
2014-02-03 18:50:39 163
原创 Nutch相关框架视频教程11
第十一讲土豆在线视频地址(64分钟)【视频下载地址】 1、配置Cygwin支持无密码SSH登陆安装SSH默认的Cygwin没有安装ssh,所以重新运行http://www.cygwin.com/setup.exe在Select Packages的时候,在search输入ssh,选择openssh:The OpenSSH server and client pro
2014-02-03 18:48:48 167
原创 Nutch相关框架视频教程10
第十讲土豆在线视频地址(58分钟)【视频下载地址】 1、HADOOP单机本地模式wgethttp://mirror.bit.edu.cn/apache/hadoop/common/hadoop-1.1.2/hadoop-1.1.2.tar.gztar -xzvf hadoop-1.1.2.tar.gzexport PATH=/home/ysc/hadoop-
2014-02-03 18:47:12 158
原创 Nutch相关框架视频教程9
第九讲土豆在线视频地址(44分钟)【视频下载地址】 1、 安装win上的nutch运行环境Cygwincygwin路径不要有空格把安装好的JDK拷贝到用户主目录把nutch的文件拷贝到用户主目录下载解压ant,加入path2、 运行nutchException in thread "main" java.io.IOException:Failed
2014-02-03 18:45:45 172
原创 Nutch相关框架视频教程8
第八讲土豆在线视频地址(38分钟)【视频下载地址】 1、指定LUKE工具的分词器 访问https://code.google.com/p/mmseg4j/downloads/list 下载mmseg4j-1.9.1.v20130120-SNAPSHOT.zip 将压缩包里面的dist文件夹里面的jar解压,将解压出来com和data文件夹拖到lukeall-4.
2014-02-03 18:43:59 181
原创 Nutch相关框架视频教程7
第七讲土豆在线视频地址(58分钟)【视频下载地址】 1、indexcheckerbin/nutch indexchecker http://www.163.com2、安装配置SOLRwgethttp://mirror.bjtu.edu.cn/apache/lucene/solr/3.6.2/apache-solr-3.6.2.tgztar -xzv
2014-02-03 18:42:22 149
原创 Nutch相关框架视频教程6
第六讲 土豆在线视频地址(46分钟)【视频下载地址】 1、注入分值bin/nutch readdb data2/crawldb -dump crawldb_dumpcat crawldb_dump/* | grep Score | sort | uniqbin/nutch scoreupdater -crawldb data2/craw
2014-02-03 18:41:03 97
原创 Nutch相关框架视频教程5
第五讲 土豆在线视频地址(66分钟)【视频下载地址】 1、 域统计bin/nutch domainstats data2/crawldb/current host hostbin/nutch domainstats data2/crawldb/current domain domainbin/nutch domainstats dat
2014-02-03 18:36:17 189
原创 Nutch相关框架视频教程4
第四讲 土豆在线视频地址(60分钟) 【视频下载地址】 1、 深入分析nutch的抓取周期injectgenerate -> fetch -> parse ->updatedb2、 3大merge和3大read命令阐释bin/nutch | grep mergebin/nutch | grep readbin/nutch merges
2014-02-03 18:05:55 189
原创 Nutch相关框架视频教程3
第三讲土豆在线视频地址(53分钟)【视频下载地址】 1、 nutch的存储文件夹data下面各个文件夹和文件里面的内容究竟是什么?2、 命令:crawldbbin/nutch | grep readbin/nutch readdb data/crawldb -statsbin/nutch readdb data/crawldb -
2014-02-03 17:57:46 132
原创 Nutch相关框架视频教程3
第三讲土豆在线视频地址(53分钟)【视频下载地址】 1、 nutch的存储文件夹data下面各个文件夹和文件里面的内容究竟是什么?2、 命令:crawldbbin/nutch | grep readbin/nutch readdb data/crawldb -statsbin/nutch readdb data/crawldb -
2014-02-03 17:55:21 91
原创 Nutch相关框架视频教程2
第二讲土豆在线视频地址 (52分钟)【视频下载地址】 1、 git来作为分布式版本控制工具,github作为server。bitbucket.org提供免费的私有库。2、 nutch的提高在于研读nutch-default.xml文件中的每一个配置项的实际含义(需要结合源代码理解)。3、 定制开发nutch的入门方法是研读build.xml文件。4、 命令:
2014-02-03 17:33:49 80
原创 Nutch相关框架视频教程1
第一讲土豆在线视频地址(52分钟)超清原版下载地址 压缩高清下载地址1、 通过nutch,诞生了hadoop、tika、gora。2、 nutch通过ivy来进行依赖管理(1.2之后)。3、 nutch是使用svn进行源代码管理的。4、 lucene、nutch、hadoop,在搜索界相当有名。5、 ant构建之后,生成runtime
2014-02-03 16:56:20 30
原创 大数据系列12:Hadoop2 – 全新的Hadoop
wgethttp://mirrors.hust.edu.cn/apache/hadoop/common/stable2/hadoop-2.2.0.tar.gztar-xzvf hadoop-2.2.0.tar.gzcdhadoop-2.2.0vietc/hadoop/hadoop-env.sh修改:export JAVA_HOME=/home/ysc/jdk
2014-02-03 16:53:16 658
原创 大数据系列11:Gora – 大数据持久化
gora-demo托管于github wgethttp://mirrors.cnnic.cn/apache/gora/0.3/apache-gora-0.3-src.zipunzip apache-gora-0.3-src.zipcd apache-gora-0.3mvn clean package1、创建项目mvn archetype:create -Dgroup
2014-02-03 16:52:23 988
原创 大数据系列10:Spark – 内存计算
wgethttp://mirrors.cnnic.cn/apache/incubator/spark/spark-0.8.0-incubating/spark-0.8.0-incubating-bin-hadoop1.tgztar-zxvf spark-0.8.0-incubating-bin-hadoop1.tgzmvspark-0.8.0-incubating-bin-ha
2014-02-03 16:51:07 730
原创 大数据系列9:Mahout – 机器学习
wgethttp://mirrors.ustc.edu.cn/apache/mahout/0.8/mahout-distribution-0.8.tar.gztar-xzvf mahout-distribution-0.8.tar.gzcdmahout-distribution-0.8sudo vi /etc/profile增加: export PATH=$P
2014-02-03 16:50:22 1051
原创 大数据系列8:Sqoop – HADOOP和RDBMS数据交换
Sqoop1:wgethttp://mirrors.ustc.edu.cn/apache/sqoop/1.4.4/sqoop-1.4.4.bin__hadoop-1.0.0.tar.gztar-xzvf sqoop-1.4.4.bin__hadoop-1.0.0.tar.gzmvsqoop-1.4.4.bin__hadoop-1.0.0 sqoop-1.4.4cds
2014-02-03 16:49:31 812
原创 大数据系列7:Storm – 流计算
wgethttp://download.zeromq.org/zeromq-2.1.7.tar.gztar -xzvf zeromq-2.1.7.tar.gzcd zeromq-2.1.7sudo apt-get install gccsudo apt-get install g++sudo apt-get install libuuid-dev./configur
2014-02-03 16:48:39 282
原创 大数据系列6:HBase – 基于Hadoop的分布式数据库
wgethttp://mirrors.cnnic.cn/apache/zookeeper/zookeeper-3.4.5/zookeeper-3.4.5.tar.gztar-xzvf zookeeper-3.4.5.tar.gzcdzookeeper-3.4.5cpconf/zoo_sample.cfg conf/zoo.cfgviconf/zoo.cfg
2014-02-03 16:47:31 385
原创 大数据系列5:Pig – 大数据分析平台
wget http://mirror.bit.edu.cn/apache/pig/pig-0.11.1/pig-0.11.1.tar.gztar -xzvf pig-0.11.1.tar.gzsudo vi /etc/profile增加: export PIG_HOME=/home/ysc/pig-0.11.1exportPATH=$PATH:$PIG_HOME/bi
2014-02-03 16:45:50 515
原创 大数据系列4:Hive – 基于HADOOP的数据仓库
wgethttp://mirror.bit.edu.cn/apache/hive/hive-0.11.0/hive-0.11.0-bin.tar.gztar-xzvf hive-0.11.0-bin.tar.gzcdhive-0.11.0-binsudo vi /etc/profile增加:export HIVE_HOME=/home/ysc/hive-0.10.0
2014-02-03 16:44:58 292
原创 大数据系列3:用Python编写MapReduce
vi mapper.py 输入: #!/usr/bin/env python importsys for linein sys.stdin: line= line.strip()
2014-02-03 16:44:08 599
原创 大数据系列2:建立开发环境编写HDFS和Map Reduce程序
1、在eclipse中配置hadoop插件 将hadoop-eclipse-plugin-1.2.1.jar复制到eclipse/plugins目录下,重启eclipse。2、打开MapReduce视图 Window-> Open Perspective -> Other 选择Map/Reduce,图标是个蓝色的象。3、添加一个MapReduce环
2014-02-03 16:42:10 415
原创 APDPlat拓展搜索之集成Solr
APDPlat充分利用Compass的OSEM和ORM integration特性,提供了简单易用且功能强大的内置搜索特性。 APDPlat的内置搜索,在设计简洁优雅的同时,还具备了强大的实时搜索能力,用户只需用注解的方式在模型中指定需要搜索哪些字段(还可在模型之间进行关联搜索)就获得了搜索能力,而不用编写任何代码。平台自动处理索引维护、查询解析、结果高亮等支撑功能。 然而APDP
2014-02-03 10:45:32 928
Nutch相关框架视频教程讲义 (1-20)
2013-09-24
Nutch公开课从搜索引擎到网络爬虫
2013-09-24
java检测并自动获取usb扫码枪设备输入
2012-07-20
Jolt获奖图书(拥有两项大奖共计58本)
2012-02-16
提高nutch运行效率的原理与方法
2012-02-16
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人