自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(32)
  • 资源 (4)
  • 收藏
  • 关注

原创 Flink一致性保证实现剖析

概述Flink通过快照机制和Barrier来实现一致性的保证,当任务中途crash或者cancel之后,可以通过checkpoing或者savepoint来进行恢复,实现数据流的重放。从而让任务达到一致性的效果,这种一致性需要开启exactly_once模式之后才行。需要记住的是这边的Flink exactly_once只是说在Flink内部是exactly_once的,并不能保证与外部存储交...

2019-06-28 16:20:43 2558

原创 基于hadoop搜索引擎实践——在线处理(六)

基于hadoop搜索引擎——在线处理    这部分主要实现的是用户从前台输入查询请求,后台对这些请求进行查询和合并,最后前台显示结果信息的过程。    本系统实现使用jsp,服务器为tomcat6.0,具体页面实现这边不再讲述,主要讲述的是后台处理。当后台获取到需要查询的信息时,把这些信息进行分词,然后对每个关键词从倒排索引文件中获取各自MULTI_INFO,然后从所有关键词中的MULTI

2014-10-29 17:48:44 1398 4

原创 基于hadoop搜索引擎实践——二级索引文件(五)

基于hadoop搜索引擎——二级索引文件    一般生成的倒排表文件会比源文件暂用空间大,主要是倒排表文件所记录的信息比较详细。它记录了所有的索引词记录(TERM_RECORD)信息,对于常见的关键词(TERM),其MULTI_INFO可能包含几万甚至几十万个SINGLE_INFO.    由于倒排表文件很大。系统难以将其在同一时刻全部装入内存;另外一面,用户在查询时只会用到几个TERM及

2014-10-28 17:10:51 2202

原创 基于hadoop搜索引擎实践——生成倒排表文件(四)

2.3 建立倒排表文件(引用刘鹏hadoop实战)    在分析完分词,Rank值得计算等问题的解决方案之后,就可以设计相应的MapReduce算法,来建立倒排表,计算,保存Rank和Position等附属信息。    首先定义倒排表存储信息格式,这是算法的输出目标,也是查询程序从倒排表中获取信息的接口。本系统倒排表的存储格式定义如下:    (1)倒排表文件(INVERTED_I

2014-10-23 16:51:19 1679

原创 基于hadoop搜索引擎实践——生成倒排表文件(三)

1.源文件过滤    在对源文件进行功能性处理之前,有必要对生成的源文件进行一次预分析和过滤。    (1)去重,过滤掉爬取过程中重复的帖子,保持帖子的唯一性。    (2)过滤不符合要求的帖子,比如获取的信息不能正常转为json格式的数据。内容全部为空的数据等。    这部分过滤处理相对简单,在map阶段,把帖子的url作为key,map中的value仍为value,组成传输到r

2014-10-22 17:57:17 1713

原创 基于hadoop搜索引擎实践——网页爬取(二)

基于hadoop搜索引起——网页爬取本系统抓取的是某网站的bbs论坛,具体情况可以根据自己的需求选择。1.爬取思路    爬取策略是深度优先爬取。算法思想如下:    从网站主页开始,执行如下步骤:    (1)选择一个尚未爬取的频道(比如有社会,人文,娱乐);如果所有频道都已经爬完,算法结束    (2)在已选择的频道中,选择一个尚未爬取的板块(比如有八卦

2014-10-21 11:57:30 4298

原创 基于hadoop搜索引擎实践——总体概述(一)

1.系统工作原理    搜索引擎是为用户提供信息检索服务的工具。在整个搜索系统中可以分为在线处理和离线处理两部分。搜索引擎的离线处理主要是在接受用户查询的请求之前需要处理的一系列工作。主要包括抓取并整理网页信息,建立倒排索引文件,建立二级索引文件等。离线处理涉及海量的数据,实时性要求不高。    在线处理主要是用户输入查询请求,搜索引擎为用户响应查询结果所完成的一系列工作。这部分主要包括:

2014-10-20 15:40:39 4324 10

原创 win eclipse 执行mapreduce 提示AccessControlException: Permission denied的解决办法

win eclipse 执行mapreduce,提示如下错误:org.apache.hadoop.security.AccessControlException: Permission denied: user=1010, access=WRITE, inode="/1010":root:supergroup:drwxr-xr-x问题 原因:没有1010这个用户的权限解决方案:在had

2014-09-30 11:25:04 1347

原创 hadoop中mapreduce的默认设置

默认设置job.setInputFormatClass()的默认设置为TextInputFormat类,该类处理输入(该类只处理文本文件)。TextInputFormat将文本文件的多行分成splits,并通过LineRecorderReader,将其中的每一行解析成对,key值为对应行在文件中德偏移量,value为行的内容。job.setMapperClass()的默认值为Mapper,

2014-09-24 17:55:50 1546

原创 Hadoop与HBase的一些特殊操作命令

Hadoop与HBase的一些特殊操作命令 1.将hbase数据库中的表导出到hdfs中的命令:Hbase org.apache.hadoop.hbase.mapreduce.Export   [ [ []]]2.加载导出的数据回到HBase的命令:Hbase org.apache.hadoop.hbase.mapreduce.Import  注意:导入时表必须存在,导出的

2014-09-24 17:53:59 2348

原创 Hadoop,HBase添加和删除节点

Hadoop添加和删除节点一.添加节点(一)添加节点有两种方式,一种是静态添加,关闭hadoop集群,配置相应配置,重启集群(二)动态添加,在不重启集群的情况下添加节点1.设置DN与NN的SSH无密码登陆2.在hosts添加主机名称,并且把该文件复制到集群中的其他节点上。3.修改Name节点上的slaves文件(主要用于下次重启的时候使用)4.在DN中启动进程:

2014-09-24 17:44:32 5968

原创 ganglia在CentOS6.5的安装

一.ganglia概述Ganglia是UC Berkeley发起的一个开源集群监视项目,设计用于测量数以千计的节点。Ganglia的核心包含gmond、gmetad以及一个Web前端。主要是用来监控系统性能,如:cpu 、mem、硬盘利用率, I/O负载、网络流量情况等,通过曲线很容易见到每个节点的工作状态,对合理调整、分配系统资源,提高系统整体性能起到重要作用。(来自百度百科)二.前期工

2014-05-20 20:03:16 1377

原创 在集群中java 通过调用API操作HBase 0.98

在集群中java 通过API调用HBase 0.98

2014-04-08 20:34:04 4663

原创 HBase 0.98.0安装

1.环境配置本次集群有三台节点Master:hpd1Slave:hdp2,hdp3OS:CentOS 6.5Hadoop: 2.2.02.下载安装包HBase 0.98.0 下载地址:http://mirror.bit.edu.cn/apache/hbase/hbase-0.98.0/3.解压安装到本地目录$tar -zxvf hbase-0.98.0-hado

2014-04-02 16:05:28 3247

原创 Zookeeper 3.4.6在Hadoop 2.2.0的安装

1.环境配置本次集群有三台节点Master:hpd1Slave:hdp2,hdp3OS:CentOS 6.52.下载Zookeeper 3.4.6Zookeeper 3.4.6下载地址:http://mirrors.cnnic.cn/apache/zookeeper/zookeeper-3.4.6/3.解压安装$tar -zxvf zookeeper-3.4.6.t

2014-04-02 14:10:23 1965

原创 在64位操作系统中重编译hadoop 2.2.0

在64位操作系统中重编译hadoop 2.2.0最近为了做一些测试,在CentOS6.5中部署Hadoop 2.2.0。从官方网站下载hadoop-2.2.0.tar.gz的安装包,部署安装后发现不能运行提示: WARNutil.NativeCodeLoader: Unable to load native-hadoop library for yourplatform... using

2014-03-27 19:49:05 4614

原创 Hadoop 2.2.0的新特性

Apache Hadoop-2.2.0与之前的hadoop-1.x相比出现了一些新的特性,具体如下:一.资源统一管理系统YARNYARN  是”Yet  Another Resource Negotiator”的简称。由于MRv1存在扩展性,资源利用率,可靠性和只能单一框架作业的问题,apache对MRv1进行改造,把JobTracker中的资源管理功能抽象成了一个独立的系统,由原来HDF

2014-03-27 17:59:51 1209

原创 如何使编写的java程序在hadoop 2.2中运行的完整过程

如何使编写的java程序在hadoop 2.2中运行的完整过程(在不使用eclipse情况)在不使用eclipse情况使java程序在hadoop 2.2中运行的完整过程。整个过程中其实分为java程序的编译,生成jar包,运行测试。这三个步骤运用的命令都比较简单,主要的还是如何找到hadoop 2.2提供给java程序用来编译的jar包。具体可以查看:HADOOP_HOME/

2014-03-26 19:02:43 3162 2

转载 Hadoop发行版的比较与选择

Hadoop的发行版除了社区的Apache Hadoop外,Cloudera,Hortonworks,MapR,EMC,IBM,Intel,华为等都提供了自己的商业版本。商业版主要是提供了专业的技术支持,这对一些大型企业尤其重要。每个发行版都有自己的一些特点,本文就各个发行版做简单介绍。 2008 年成立的 Cloudera  是最早将 Hadoop 商用的公司,为合作伙伴提供 Hadoo

2014-03-17 16:40:24 1100

原创 Hive基本命令(2)

1.创建表:    create table if not exists student(id int,name string);2.创建表并创建索引字段ds    create table sutdent(id int,name string) PARTITIONED BY (ds string);3.显示所有表:show tables;4.按正则表达式显示表:SHOW TA

2013-09-26 21:13:00 781

原创 Hive的基本命令(1)

文本数据1:sample2.txtA    1950    0    1B    1950    22    1A    1950    -11    1B    1949    111    1A    1949    78    1文件数据2:sample3.txtA       1950    23      1B       1949    22

2013-09-25 23:03:05 701

原创 java通过api对hadoop的操作

一.文件操作1.上传本地文件到hadood2.在hadoop中新建文件,并写入3.删除hadoop上的文件4.读取文件5.文件修改时间二.目录操作1.在hadoop上创建目录2.删除目录3.读取某个目录下的所有文件三.hdfs信息1.查找某个文件在HDFS集群中位置2.获取HDFS集群上所有名称节点信息一.文件操作1.上传本地文件到hadoodp

2013-09-23 22:33:44 1197

原创 Hive0.10.0安装和配置

一.安装1.下载http://apache.fayea.com/apache-mirror/hive/hive-0.10.0/hive-0.10.0.tar.gz2.解压到当前用户的hive目录下:tar -zxvf hive-0.10.0.tar.gz /home/long1657/hive3.配置环境变量:vim ~/.bashrcexport HIVE_HOME=/home/

2013-09-23 22:05:48 1849

原创 Hadoop中的Streaming对linux的操作

如何使用Hadoop提供的Streaming,我们可以通过Linux中的命令来实验,比如查看一个文件中的数字统计可以使用下面的命令:cat sample.txt | wc其中sample.txt表示需要统计的文件,|表示管道,wc统计数据的命令现在使用Streaming形式统计Hadoop中的sample.txt的数字。1.把sample.txt上传到hadoop中,:hadoop

2013-09-15 21:01:22 756

转载 hbase介绍

hbase 介绍一、简介history started by chad walters and jim2006.11 G release paper on BigTable2007.2 inital HBase prototype created as Hadoop contrib2007.10 First useable Hbase2008

2013-08-31 21:47:39 620

原创 HBase建表的基本命令

1.启动HBase外壳环境(shell):hbase shell2.新建一张表“test”  要新建一个表,必须对你的表命名,并定义模式。一个表的模式包含表的属性和一个列族的列表。列族本身也有属性。可以在定义模式时一次定义它们。列族的属性示例包括列族是否应该在文件系统中压缩村村,一个单元格要保存多少个版本等。模式可以修改,需要时把表设为“离线”(offline)即可。外科环境中使用disa

2013-08-31 12:40:25 6221

原创 hadoop 0.20.2中hbase 0.90.5的完全分布式安装

本文是介绍如何在hadoop 0.20.2上进行hbase 0.90.5的完全分布式安装。一。先介绍当前环境情况JDK7+Hadoop 0.20.2本集群有三个节点,分别为:二。HBase的安装1.下载hbase 0.90.5版本,该版本匹配hadoop 0.20.2下载地址可以在官网上下载,也可以点击下面链接下载:http://pan.baidu.com/disk

2013-08-30 23:03:28 1519

原创 Hadoop 权威指南中气象术语的解释

STN---WBAN 气象站号YEARMODA 年月日TEMP 气温DEWP 露点(dew point)SLP 海平面气压(Sea level pressure)STP 本站气压(station pressure)VISIB 能见度 (Visibility)WDSP 风向风速(wind direction ; speed)MXSPD   最大风速 (max. spe

2013-07-13 09:08:26 3818

原创 Hadoop 在重启或者多次格式化后无法启动datanode问题的解决

一.安装好的hadoop,在重启或者多次格式化后无法重启datanode二.问题产生原因        当我们执行文件系统格式化时,会在namenode数据文件夹(即配置文件中dfs.name.dir在本地系统的路径)中保存一个current/VERSION文件,记录namespaceID,标识了所格式化的 namenode的版本。如果我们频繁的格式化namenode,那么datanode

2013-07-09 23:12:05 4127

原创 Ubuntu13.04安装Hadoop集群环境

1.配置hosts通过命令:sudo vim /etc/hosts,按照实际情况配置hosts2.安装JDK,具体可以参考网上:http://blog.csdn.net/long1657/article/details/92659493.安装SSH:具体参考网上资料:http://blog.csdn.net/long1657/article/details/92660374

2013-07-09 22:56:50 1372

原创 Ubuntu13.04安装SSH,以及配置多台电脑之间无密码登陆

本章讲述的是在ubuntu13.04中如何安装SSH已经配置,多台电脑之间的无密码登录1.安装SSH在ubuntu13.04的终端中输入:sudo apt-get install ssh根据提示安装SSH;可以在用户根目录下通过命令:ls -a 查看是否存在.ssh目录,(注意:.ssh是一个隐藏文件,所以需要用.-a选项)第一次安装一般都可能不存在,可以通过:ssh loca

2013-07-08 00:01:29 2396

原创 Ubuntu 13.04 安装JDK7

本章讲述的是在ubuntu13.04下如何安装JDK7。1.在oracle的官方网站下载适合本机环境的JDK         http://www.oracle.com/technetwork/java/javase/downloads/jdk7-downloads-1880260.html2.解压和安装 $ sudo mkdir /usr/lib/jvm $ s

2013-07-07 23:06:12 1350

基于hadoop搜索引擎 离线处理程序

本项目是基于hadoop搜索引擎的离线处理程序,主要包含三部分 1.网页信息过滤 2.生成倒排索引文件 3.生成二级索引文件;

2014-10-20

基于hadoop搜索引擎 在线处理

这是一个简单的web与hadoop2.2.0连接的项目,里面包含了hadoop的配置文件,和相应的hadoop jar包(精简后的包)项目实现基于hadoop的搜索引擎的在线处理部分。

2014-10-20

Java通过api 操作hbase 0.98

在集群中创建java项目调用api来操作hbase,主要涉及对hbase的创建表格,删除表格,插入数据,删除数据,查询一条数据,查询所有数据等操作。 具体流程如下: 1.创建项目 2.获取jar包到项目的lib目录下(这边试用的事hbase 0.98 lib目录下的所有jar包) 3.编写java程序 4.编写ant脚本

2014-04-08

java通过api方式操作Hadoop

该资源是java通过api的方式来操作hadoop,主要有以下操作: 一.文件操作 1.上传本地文件到hadood 2.在hadoop中新建文件,并写入 3.删除hadoop上的文件 4.读取文件 5.文件修改时间 二.目录操作 1.在hadoop上创建目录 2.删除目录 3.读取某个目录下的所有文件 三.hdfs信息 1.查找某个文件在HDFS集群中位置 2.获取HDFS集群上所有名称节点信息

2013-09-23

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除