自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(83)
  • 收藏
  • 关注

原创 hdfs 文件的追加

1、修改hdfs-site.xml [code="java"] dfs.support.append true [/code]2、目前如何在命令行里面给HDFS文件中追加内容我还没找到相应的方法。但是,我们可以通过Ha...

2015-07-19 11:07:32 704

原创 hdfs 的分布式缓存

DistributedCache是Hadoop提供的文件缓存工具,它能够自动将指定的文件分发到各个节点上,缓存到本地,供用户程序读取使用。。它具有以下几个特点:缓存的文件是只读的,修改这些文件内容没有意义;用户可以调整文件可见范围(比如只能用户自己使用,所有用户都可以使用等),进而防止重复拷贝现象;按需拷贝,文件是通过HDFS作为共享数据中心分发到各节点的,且只发给任务被调度到的节点。Di...

2015-03-05 11:07:35 373

原创 hdfs 的集中式缓存

[color=red]集中缓存有两层概念:[/color]第一层是缓存,即为存储在HDFS中文件提供缓存的机制,从而可以加速DFSClient对文件的读操作;第二层概念是集中式的管理,传统的HDFS缓存依赖了OS本身的缓存机制,但是这种缓存机制不能被管理员或中央节点进行管理,不能自由的控制哪些文件缓存,哪些文件不进行缓存;集中式的管理可以提高了对缓存内存的可控性;[color=red]...

2015-03-05 10:06:58 259

原创 基于Flume的美团日志收集系统(一)架构和设计

转自:http://www.aboutyun.com/thread-8317-1-1.html问题导读:[color=red]1.Flume-NG与Scribe对比,Flume-NG的优势在什么地方?2.架构设计考虑需要考虑什么问题?3.Agent死机该如何解决?4.Collector死机是否会有影响?5.Flume-NG可靠性(reliability)方面做了哪些措施...

2015-03-04 17:32:20 148

原创 基于Flume的美团日志收集系统(二)改进和优化

原文:http://blog.csdn.net/lskyne/article/details/37564449问题导读:[color=red]1.Flume的存在些什么问题?2.基于开源的Flume美团增加了哪些功能?3.Flume系统如何调优?[/color]在《基于Flume的美团日志收集系统(一)架构和设计》中,我们详述了基于Flume的美团日志收集系统的架构...

2015-03-04 17:18:42 108

原创 flume 自定义source

按照以往的惯例,还是需求驱动学习,有位网友在我的flume学习五中留言提了一个问题如下:我想实现一个功能,就在读一个文件的时候,将文件的名字和文件生成的日期作为event的header传到hdfs上时,不同的event存到不同的目录下,如一个文件是a.log.2014-07-25在hdfs上是存到/a/2014-07-25目录下,a.log.2014-07-26存到/a/2014-07-2...

2015-03-04 11:16:02 227

原创 使用hive来分析flume收集的日志数据

前面已经讲过如何将log4j的日志输出到指定的hdfs目录,我们前面的指定目录为/flume/events。如果想用hive来分析采集来的日志,我们可以将/flume/events下面的日志数据都load到hive中的表当中去。如果了解hive的load data原理的话,还有一种更简便的方式,可以省去load data这一步,就是直接将sink1.hdfs.path指定为hi...

2015-03-03 22:50:34 112

原创 flume iterceptor

对于flume拦截器,我的理解是:在app(应用程序日志)和 source 之间的,对app日志进行拦截处理的。也即在日志进入到source之前,对日志进行一些包装、清新过滤等等动作。官方上提供的已有的拦截器有:Timestamp InterceptorHost InterceptorStatic InterceptorRegex Filtering Intercept...

2015-03-03 22:18:18 113

原创 HBase Rowkey的散列与预分区设计

HBase中,表会被划分为1...n个Region,被托管在RegionServer中。Region二个重要的属性:StartKey与EndKey表示这个Region维护的rowKey范围,当我们要读/写数据时,如果rowKey落在某个start-end key范围内,那么就会定位到目标region并且读/写到相关的数据。简单地说,有那么一点点类似人群划分,1-15岁为小朋友,16-39岁为年轻人...

2015-03-03 14:51:59 75

原创 hbase bluk loading

使用HBASE的BULK LOAD一、环境的配置1.首先配置$HADOOP_HOME下的conf/hadoop-env.sh文件,修改其中的HADOOP_CLASSPATH为如下export HADOOP_CLASSPATH=$HADOOP_CLASSPATH:/hadoop/hbase-0.90.3.jar:/hadoop/hbase/hbase-0.90.3-t...

2015-03-03 11:29:59 122

原创 hadoop 面试题

1.Hadoop集群可以运行的3个模式?单机(本地)模式伪分布式模式全分布式模式2. 单机(本地)模式中的注意点?在单机模式(standalone)中不会存在守护进程,所有东西都运行在一个JVM上。这里同样没有DFS,使用的是本地文件系统。单机模式适用于开发过程中运行MapReduce程序,这也是最少使用的一个模式。3. 伪分布模式中的注意点?伪分布...

2015-03-02 15:10:22 104

原创 mapreduce '找共同朋友',面试题

mapred找共同朋友,数据格式如下:[quote]A B C D E FB A C D EC A B ED A B EE A B C DF A[/quote]第一字母表示本人,其他是他的朋友,找出有共同朋友的人,和共同朋友是谁答案如下:[code="java"]import java.io.IOException;i...

2015-02-12 15:24:25 432

原创 Hadoop中MapReduce多种join实现实例分析

原文:[url]http://database.51cto.com/art/201410/454277.htm[/url][b]一、概述[/b]对于RDBMS中的join操作大伙一定非常熟悉,写sql的时候要十分注意细节,稍有差池就会耗时巨久造成很大的性能瓶颈,而在Hadoop中使用MapReduce框架进行join的操作时同样耗时,但是由于hadoop的分布式设计理念的特殊性,因...

2015-02-11 11:13:13 221

原创 ZooKeeper 分布式锁实现

[b]场景描述[/b]在分布式应用, 往往存在多个进程提供同一服务. 这些进程有可能在相同的机器上, 也有可能分布在不同的机器上. 如果这些进程共享了一些资源, 可能就需要分布式锁来锁定对这些资源的访问.本文将介绍如何利用zookeeper实现分布式锁.[b]获取锁实现思路:[/b]1. 首先创建一个作为锁目录(znode),通常用它来描述锁定的实体,称为:/l...

2015-01-14 10:23:52 111

原创 Zookeeper 分布式配置管理

[b]原创[/b][b]配置中心代码:[/b][code="java"]import java.io.IOException;import java.util.concurrent.CountDownLatch;import org.apache.zookeeper.WatchedEvent;import org.apache.zookeeper.Watcher;...

2015-01-13 17:27:38 107

原创 Zookeeper 进阶之——Zookeeper编程示例(如何使用Zookeeper实现屏障Barriers和队列Queues)...

[quote]原文:http://www.cnblogs.com/haippy/archive/2012/07/26/2609769.html[/quote][b]引言[/b]本文将告诉你如何使用 Zookeeper 实现两种常用的分布式数据结构,屏障(barriers) 和队列(queues),我们为此还分别实现了两个类:Barrier and Queue. 本文中的例子假设你已...

2015-01-13 09:36:28 173

原创 sqoop import and export

[b]import:[/b][code="java"]sqoop import connect jdbc:mysql://mysql.example.com/sqoop --username sqoop --password sqoop --table cities[/code]--connect:指定JDBC URL--username/password:mysql数据库...

2015-01-13 09:33:03 265

原创 ZooKeeper 典型的应用场景(二)

原文:http://www.cnblogs.com/haippy/archive/2012/07/23/2604556.htmlZookeeper 进阶之——典型应用场景(二)2012-07-23 20:57 by Haippy, 5320 阅读, 0 评论, 收藏, 编辑本文是前一篇博文《Zookeeper 进阶之——典型应用场景(一)》的姊妹篇阅读指南——如何利用 Zo...

2015-01-12 17:26:07 100

原创 ZooKeeper 典型的应用场景

[quote]原文:[url]http://www.cnblogs.com/haippy/archive/2012/07/23/2603583.html[/url][/quote][b]ZooKeeper 典型的应用场景:[/b]Zookeeper 从设计模式角度来看,是一个基于观察者模式设计的分布式服务管理框架,它负责存储和管理大家都关心的数据,然后接受观察者的注册,一旦这些...

2015-01-12 17:23:18 82

原创 zookeeper java实例

[quote][b]原文:[/b]http://www.cnblogs.com/haippy/archive/2012/07/20/2600077.html[/quote]简介Apache Zookeeper 是由 Apache Hadoop 的 Zookeeper 子项目发展而来,现在已经成为了 Apache 的顶级项目。Zookeeper 为分布式系统提供了高效可靠且易于使用的协同...

2015-01-12 17:18:12 75

原创 zookeeper java-api

原文:[url]http://www.cnblogs.com/haippy/archive/2012/07/19/2600032.html[/url][b]简介[/b]Apache Zookeeper 是由 Apache Hadoop 的 Zookeeper 子项目发展而来,现在已经成为了 Apache 的顶级项目。Zookeeper 为分布式系统提供了高效可靠且易于使用的协同...

2015-01-12 17:14:13 67

原创 zookeeper的伪分布式搭建

[quote]原文:[url]http://www.cnblogs.com/haippy/archive/2012/07/19/2599989.html[/url][b]简介[/b][/quote]Apache Zookeeper 是由 Apache Hadoop 的 Zookeeper 子项目发展而来,现在已经成为了 Apache 的顶级项目。Zookeeper 为分布式系统提供了高...

2015-01-12 16:36:04 73

原创 Hadoop YARN中内存和CPU两种资源的调度和隔离

Hadoop YARN同时支持内存和CPU两种资源的调度(默认只支持内存,如果想进一步调度CPU,需要自己进行一些配置),本文将介绍YARN是如何对这些资源进行调度和隔离的。在YARN中,资源管理由ResourceManager和NodeManager共同完成,其中,ResourceManager中的调度器负责资源的分配,而NodeManager则负责资源的供给和隔离。ResourceM...

2015-01-07 11:22:02 73

原创 Hadoop YARN配置参数剖析(5)—Capacity Scheduler相关参数Hadoop YARN配置参数剖析(5)—Capacity Schedul...

Capacity Scheduler是YARN中默认的资源调度器。想要了解Capacity Scheduler是什么,可阅读我的这篇文章“Hadoop Capacity Scheduler分析”。在Capacity Scheduler的配置文件中,队列queueX的参数Y的配置名称为yarn.scheduler.capacity.queueX.Y,为了简单起见,我们记为Y,则每个队...

2015-01-07 11:20:18 138

原创 Hadoop YARN配置参数剖析(4)—Fair Scheduler相关参数

首先在yarn-site.xml中,将配置参数yarn.resourcemanager.scheduler.class设置为org.apache.hadoop.yarn.server.resourcemanager.scheduler.fair.FairScheduler。Fair Scheduler的配置选项包括两部分,其中一部分在yarn-site.xml中,主要用于配置调度器级别的参...

2015-01-07 11:16:04 98

原创 mapreduce 任务调度器的配置

需求公司里有两个部门,一个叫hive,一个叫pig,这两个部门都需要使用公司里的hadoop集群。于是问题来了,因为hadoop默认是FIFO调度的,谁先提交任务,谁先被处理,于是hive部门很担心pig这个部门提交一个耗时的任务,影响了hive的业务,hive希望可以和pig在高峰期时,平均使用整个集群的计算容量,互不影响。思路hadoop的默认调度器是FIFO,但是也有...

2015-01-07 10:56:31 193

原创 mapreduce 任务调度器的配置

需求公司里有两个部门,一个叫hive,一个叫pig,这两个部门都需要使用公司里的hadoop集群。于是问题来了,因为hadoop默认是FIFO调度的,谁先提交任务,谁先被处理,于是hive部门很担心pig这个部门提交一个耗时的任务,影响了hive的业务,hive希望可以和pig在高峰期时,平均使用整个集群的计算容量,互不影响。思路hadoop的默认调度器是FIFO,但是也有...

2015-01-07 10:56:31 105

原创 hadoop的管理命令 dfsadmin

dfsadmin是一个多任务的工具,我们可以使用它来获取HDFS的状态信息,以及在HDFS上执行的一系列管理操作。调用方式例如:Hadoop dfsadmin -reportdfsadmin命令详解-report:查看文件系统的基本信息和统计信息。-safeadmin enter | leave | get | wait:安全模式命令。安全模式是NameNo...

2015-01-06 16:34:04 468

原创 hadoop集群balance工具详解

在线上的hadoop集群运维过程中,hadoop 的balance工具通常用于平衡hadoop集群中各datanode中的文件块分布,以避免出现部分datanode磁盘占用率高的问题(这问题也很有可能导致该节点CPU使用率较其他服务器高)。 1) hadoop balance工具的用法:To start:bin/start-balancer.sh [-threshol...

2015-01-06 12:52:51 162

原创 hadoop fsck命令详解

hadoop fsckUsage: DFSck [-move | -delete | -openforwrite] [-files [-blocks [-locations | -racks]]] 检查这个目录中的文件是否完整 -move 破损的文件移至/lost+found目录...

2015-01-06 12:49:09 148

原创 hive + hbase

环境配置:hadoop-2.0.0-cdh4.3.0 (4 nodes, 24G mem/node)hbase-0.94.6-cdh4.3.0 (4 nodes,maxHeapMB=9973/node)hive-0.10.0-cdh4.3.0 一、查询性能比较: query1: select count(1) from on...

2015-01-04 10:42:11 147

原创 hbase 布隆过滤器

布隆过滤器: 1.原理? 数据块索引提供了一个有效的方法,在访问一个特定的行时用来查找应该读取的HFile的数据块。但是它的效用是有限的。HFile数据块的默认大小是64KB,这个大小不能调整太多。 如果你要查找一个短行,只在整个数据块的起始行键上建立索引无法给你细粒度的索引信息。例如,如果你的行占用100字节存储空间,一个64KB的数据块包含(64 * 1024)/100 = 6...

2014-12-23 10:48:06 310

原创 hbase 自定义filter

base自带的filter已经很多了,按照RK,CF,CQ过滤的都有我最常用的PrefixFilter,按照rk前缀RowFilter,按照rk比较ColumnPrefixFilter,按照cq前缀QualifierFilter,按照cq比较 hbase还有一堆WritableByteArrayComparable,可以满足各种比较比如Reg...

2014-12-17 17:22:10 135

原创 HBase性能优化方法总结(四):数据计算

HBase性能优化方法总结(四):数据计算本文主要是从HBase应用程序设计与开发的角度,总结几种常用的性能优化方法。有关HBase系统配置级别的优化,可参考:淘宝Ken Wu同学的博客。下面是本文总结的第四部分内容:数据计算相关的优化方法。4. 数据计算4.1 服务端计算Coprocessor运行于HBase RegionServer服务端,各个Regions保...

2014-12-12 10:57:14 102

原创 HBase性能优化方法总结(三):读表操作

HBase性能优化方法总结(三):读表操作本文主要是从HBase应用程序设计与开发的角度,总结几种常用的性能优化方法。有关HBase系统配置级别的优化,可参考:淘宝Ken Wu同学的博客。下面是本文总结的第三部分内容:读表操作相关的优化方法。3. 读表操作3.1 多HTable并发读创建多个HTable客户端用于读操作,提高读数据的吞吐量,一个例子:复制代码...

2014-12-12 10:56:34 65

原创 HBase性能优化方法总结(二):写表操作

HBase性能优化方法总结(二):写表操作本文主要是从HBase应用程序设计与开发的角度,总结几种常用的性能优化方法。有关HBase系统配置级别的优化,可参考:淘宝Ken Wu同学的博客。下面是本文总结的第二部分内容:写表操作相关的优化方法。2. 写表操作2.1 多HTable并发写创建多个HTable客户端用于写操作,提高写数据的吞吐量,一个例子:复制代码...

2014-12-12 10:55:40 80

原创 hbase 表设计

HBase性能优化方法总结(一):表的设计本文主要是从HBase应用程序设计与开发的角度,总结几种常用的性能优化方法。有关HBase系统配置级别的优化,可参考:淘宝Ken Wu同学的博客。下面是本文总结的第一部分内容:表的设计相关的优化方法。1. 表的设计1.1 Pre-Creating Regions默认情况下,在创建HBase表的时候会自动创建一个region...

2014-12-12 10:54:30 85

原创 hbase 快照

Apache HBase快照介绍分享到: 6本文由 ImportNew - 陈 晨 翻译自 Cloudera。欢迎加入翻译小组。转载请参见文章末尾的要求。CDH是Cloudera的完全开源分布式Apache Hadoop及相关项目(包括Apache HBase)。CDH的当前版本(4.2)引入的一个HBase新特性最近加入到了主干中,允许用户对指定表进行快照。在C...

2014-12-10 15:52:26 153

原创 hbase 日常维护

一,基本命令: 建表:create 'testtable','coulmn1','coulmn2' 也可以建表时加coulmn的属性如:create 'testtable',{NAME => 'coulmn1', BLOOMFILTER => 'NONE', REPLICATION_SCOPE => '0', VERSIONS => '10', COMPRESSION...

2014-12-09 10:46:48 106

原创 MapReduce剖析笔记之五:Map与Reduce任务分配过程 - esingchan

在上一节分析了TaskTracker和JobTracker之间通过周期的心跳消息获取任务分配结果的过程。中间留了一个问题,就是任务到底是怎么分配的。任务的分配自然是由JobTracker做出来的,具体来说,存在一个抽象类:TaskScheduler,主要负责分配任务,继承该类的有几个类:CapacityTaskScheduler、FairScheduler、JobQueueTask...

2014-11-13 16:02:57 155

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除