王诗龄-CSDN博客

原创 hdfs 文件的追加

1、修改hdfs-site.xml [code="java"] dfs.support.append true [/code]2、目前如何在命令行里面给HDFS文件中追加内容我还没找到相应的方法。但是，我们可以通过Ha...

2015-07-19 11:07:32 704

原创 hdfs 的分布式缓存

DistributedCache是Hadoop提供的文件缓存工具，它能够自动将指定的文件分发到各个节点上，缓存到本地，供用户程序读取使用。。它具有以下几个特点：缓存的文件是只读的，修改这些文件内容没有意义；用户可以调整文件可见范围（比如只能用户自己使用，所有用户都可以使用等），进而防止重复拷贝现象；按需拷贝，文件是通过HDFS作为共享数据中心分发到各节点的，且只发给任务被调度到的节点。Di...

2015-03-05 11:07:35 373

原创 hdfs 的集中式缓存

[color=red]集中缓存有两层概念：[/color]第一层是缓存，即为存储在HDFS中文件提供缓存的机制，从而可以加速DFSClient对文件的读操作；第二层概念是集中式的管理，传统的HDFS缓存依赖了OS本身的缓存机制，但是这种缓存机制不能被管理员或中央节点进行管理，不能自由的控制哪些文件缓存，哪些文件不进行缓存；集中式的管理可以提高了对缓存内存的可控性；[color=red]...

2015-03-05 10:06:58 259

原创基于Flume的美团日志收集系统(一)架构和设计

转自：http://www.aboutyun.com/thread-8317-1-1.html问题导读：[color=red]1.Flume-NG与Scribe对比，Flume-NG的优势在什么地方？2.架构设计考虑需要考虑什么问题？3.Agent死机该如何解决？4.Collector死机是否会有影响？5.Flume-NG可靠性(reliability)方面做了哪些措施...

2015-03-04 17:32:20 148

原创基于Flume的美团日志收集系统(二)改进和优化

原文：http://blog.csdn.net/lskyne/article/details/37564449问题导读：[color=red]1.Flume的存在些什么问题？2.基于开源的Flume美团增加了哪些功能？3.Flume系统如何调优？[/color]在《基于Flume的美团日志收集系统(一)架构和设计》中，我们详述了基于Flume的美团日志收集系统的架构...

2015-03-04 17:18:42 108

原创 flume 自定义source

按照以往的惯例，还是需求驱动学习，有位网友在我的flume学习五中留言提了一个问题如下：我想实现一个功能，就在读一个文件的时候，将文件的名字和文件生成的日期作为event的header传到hdfs上时，不同的event存到不同的目录下，如一个文件是a.log.2014-07-25在hdfs上是存到/a/2014-07-25目录下，a.log.2014-07-26存到/a/2014-07-2...

2015-03-04 11:16:02 227

原创使用hive来分析flume收集的日志数据

前面已经讲过如何将log4j的日志输出到指定的hdfs目录，我们前面的指定目录为/flume/events。如果想用hive来分析采集来的日志，我们可以将/flume/events下面的日志数据都load到hive中的表当中去。如果了解hive的load data原理的话，还有一种更简便的方式，可以省去load data这一步，就是直接将sink1.hdfs.path指定为hi...

2015-03-03 22:50:34 112

原创 flume iterceptor

对于flume拦截器,我的理解是：在app(应用程序日志)和 source 之间的，对app日志进行拦截处理的。也即在日志进入到source之前，对日志进行一些包装、清新过滤等等动作。官方上提供的已有的拦截器有：Timestamp InterceptorHost InterceptorStatic InterceptorRegex Filtering Intercept...

2015-03-03 22:18:18 113

HBase中，表会被划分为1...n个Region，被托管在RegionServer中。Region二个重要的属性:StartKey与EndKey表示这个Region维护的rowKey范围，当我们要读/写数据时，如果rowKey落在某个start-end key范围内，那么就会定位到目标region并且读/写到相关的数据。简单地说，有那么一点点类似人群划分，1-15岁为小朋友,16-39岁为年轻人...

2015-03-03 14:51:59 75

原创 hbase bluk loading

使用HBASE的BULK LOAD一、环境的配置1.首先配置$HADOOP_HOME下的conf/hadoop-env.sh文件，修改其中的HADOOP_CLASSPATH为如下export HADOOP_CLASSPATH=$HADOOP_CLASSPATH:/hadoop/hbase-0.90.3.jar:/hadoop/hbase/hbase-0.90.3-t...

2015-03-03 11:29:59 122

原创 hadoop 面试题

1.Hadoop集群可以运行的3个模式？单机（本地）模式伪分布式模式全分布式模式2. 单机（本地）模式中的注意点？在单机模式（standalone）中不会存在守护进程，所有东西都运行在一个JVM上。这里同样没有DFS，使用的是本地文件系统。单机模式适用于开发过程中运行MapReduce程序，这也是最少使用的一个模式。3. 伪分布模式中的注意点？伪分布...

2015-03-02 15:10:22 104

原创 mapreduce '找共同朋友'，面试题

mapred找共同朋友，数据格式如下：[quote]A B C D E FB A C D EC A B ED A B EE A B C DF A[/quote]第一字母表示本人，其他是他的朋友，找出有共同朋友的人，和共同朋友是谁答案如下：[code="java"]import java.io.IOException;i...

2015-02-12 15:24:25 432

原创 Hadoop中MapReduce多种join实现实例分析

原文：[url]http://database.51cto.com/art/201410/454277.htm[/url][b]一、概述[/b]对于RDBMS中的join操作大伙一定非常熟悉，写sql的时候要十分注意细节，稍有差池就会耗时巨久造成很大的性能瓶颈，而在Hadoop中使用MapReduce框架进行join的操作时同样耗时，但是由于hadoop的分布式设计理念的特殊性，因...

2015-02-11 11:13:13 221

原创 ZooKeeper 分布式锁实现

[b]场景描述[/b]在分布式应用, 往往存在多个进程提供同一服务. 这些进程有可能在相同的机器上, 也有可能分布在不同的机器上. 如果这些进程共享了一些资源, 可能就需要分布式锁来锁定对这些资源的访问.本文将介绍如何利用zookeeper实现分布式锁.[b]获取锁实现思路：[/b]1. 首先创建一个作为锁目录(znode)，通常用它来描述锁定的实体，称为:/l...

2015-01-14 10:23:52 111

原创 Zookeeper 分布式配置管理

[b]原创[/b][b]配置中心代码：[/b][code="java"]import java.io.IOException;import java.util.concurrent.CountDownLatch;import org.apache.zookeeper.WatchedEvent;import org.apache.zookeeper.Watcher;...

2015-01-13 17:27:38 107

原创 Zookeeper 进阶之——Zookeeper编程示例（如何使用Zookeeper实现屏障Barriers和队列Queues）...

[quote]原文：http://www.cnblogs.com/haippy/archive/2012/07/26/2609769.html[/quote][b]引言[/b]本文将告诉你如何使用 Zookeeper 实现两种常用的分布式数据结构，屏障(barriers) 和队列(queues)，我们为此还分别实现了两个类：Barrier and Queue. 本文中的例子假设你已...

2015-01-13 09:36:28 173

原创 sqoop import and export

[b]import：[/b][code="java"]sqoop import connect jdbc:mysql://mysql.example.com/sqoop --username sqoop --password sqoop --table cities[/code]--connect：指定JDBC URL--username/password：mysql数据库...

2015-01-13 09:33:03 265

原创 ZooKeeper 典型的应用场景(二)

原文：http://www.cnblogs.com/haippy/archive/2012/07/23/2604556.htmlZookeeper 进阶之——典型应用场景（二）2012-07-23 20:57 by Haippy, 5320 阅读, 0 评论, 收藏, 编辑本文是前一篇博文《Zookeeper 进阶之——典型应用场景（一）》的姊妹篇阅读指南——如何利用 Zo...

2015-01-12 17:26:07 100

原创 ZooKeeper 典型的应用场景

[quote]原文：[url]http://www.cnblogs.com/haippy/archive/2012/07/23/2603583.html[/url][/quote][b]ZooKeeper 典型的应用场景:[/b]Zookeeper 从设计模式角度来看，是一个基于观察者模式设计的分布式服务管理框架，它负责存储和管理大家都关心的数据，然后接受观察者的注册，一旦这些...

2015-01-12 17:23:18 82

原创 zookeeper java实例

[quote][b]原文：[/b]http://www.cnblogs.com/haippy/archive/2012/07/20/2600077.html[/quote]简介Apache Zookeeper 是由 Apache Hadoop 的 Zookeeper 子项目发展而来，现在已经成为了 Apache 的顶级项目。Zookeeper 为分布式系统提供了高效可靠且易于使用的协同...

2015-01-12 17:18:12 75

原创 zookeeper java-api

原文：[url]http://www.cnblogs.com/haippy/archive/2012/07/19/2600032.html[/url][b]简介[/b]Apache Zookeeper 是由 Apache Hadoop 的 Zookeeper 子项目发展而来，现在已经成为了 Apache 的顶级项目。Zookeeper 为分布式系统提供了高效可靠且易于使用的协同...

2015-01-12 17:14:13 67

原创 zookeeper的伪分布式搭建

[quote]原文：[url]http://www.cnblogs.com/haippy/archive/2012/07/19/2599989.html[/url][b]简介[/b][/quote]Apache Zookeeper 是由 Apache Hadoop 的 Zookeeper 子项目发展而来，现在已经成为了 Apache 的顶级项目。Zookeeper 为分布式系统提供了高...

2015-01-12 16:36:04 73

原创 Hadoop YARN中内存和CPU两种资源的调度和隔离

Hadoop YARN同时支持内存和CPU两种资源的调度（默认只支持内存，如果想进一步调度CPU，需要自己进行一些配置），本文将介绍YARN是如何对这些资源进行调度和隔离的。在YARN中，资源管理由ResourceManager和NodeManager共同完成，其中，ResourceManager中的调度器负责资源的分配，而NodeManager则负责资源的供给和隔离。ResourceM...

2015-01-07 11:22:02 73

原创 Hadoop YARN配置参数剖析(5)—Capacity Scheduler相关参数Hadoop YARN配置参数剖析(5)—Capacity Schedul...

Capacity Scheduler是YARN中默认的资源调度器。想要了解Capacity Scheduler是什么，可阅读我的这篇文章“Hadoop Capacity Scheduler分析”。在Capacity Scheduler的配置文件中，队列queueX的参数Y的配置名称为yarn.scheduler.capacity.queueX.Y，为了简单起见，我们记为Y，则每个队...

2015-01-07 11:20:18 138

原创 Hadoop YARN配置参数剖析(4)—Fair Scheduler相关参数

首先在yarn-site.xml中，将配置参数yarn.resourcemanager.scheduler.class设置为org.apache.hadoop.yarn.server.resourcemanager.scheduler.fair.FairScheduler。Fair Scheduler的配置选项包括两部分，其中一部分在yarn-site.xml中，主要用于配置调度器级别的参...

2015-01-07 11:16:04 98

原创 mapreduce 任务调度器的配置

需求公司里有两个部门，一个叫hive，一个叫pig，这两个部门都需要使用公司里的hadoop集群。于是问题来了，因为hadoop默认是FIFO调度的，谁先提交任务，谁先被处理，于是hive部门很担心pig这个部门提交一个耗时的任务，影响了hive的业务，hive希望可以和pig在高峰期时，平均使用整个集群的计算容量,互不影响。思路hadoop的默认调度器是FIFO，但是也有...

2015-01-07 10:56:31 193

原创 mapreduce 任务调度器的配置

需求公司里有两个部门，一个叫hive，一个叫pig，这两个部门都需要使用公司里的hadoop集群。于是问题来了，因为hadoop默认是FIFO调度的，谁先提交任务，谁先被处理，于是hive部门很担心pig这个部门提交一个耗时的任务，影响了hive的业务，hive希望可以和pig在高峰期时，平均使用整个集群的计算容量,互不影响。思路hadoop的默认调度器是FIFO，但是也有...

2015-01-07 10:56:31 105

原创 hadoop的管理命令 dfsadmin

dfsadmin是一个多任务的工具，我们可以使用它来获取HDFS的状态信息，以及在HDFS上执行的一系列管理操作。调用方式例如：Hadoop dfsadmin -reportdfsadmin命令详解-report：查看文件系统的基本信息和统计信息。-safeadmin enter | leave | get | wait：安全模式命令。安全模式是NameNo...

2015-01-06 16:34:04 468

原创 hadoop集群balance工具详解

在线上的hadoop集群运维过程中，hadoop 的balance工具通常用于平衡hadoop集群中各datanode中的文件块分布，以避免出现部分datanode磁盘占用率高的问题（这问题也很有可能导致该节点CPU使用率较其他服务器高）。 1） hadoop balance工具的用法：To start:bin/start-balancer.sh [-threshol...

2015-01-06 12:52:51 162

原创 hadoop fsck命令详解

hadoop fsckUsage: DFSck [-move | -delete | -openforwrite] [-files [-blocks [-locations | -racks]]] 检查这个目录中的文件是否完整 -move 破损的文件移至/lost+found目录...

2015-01-06 12:49:09 148

原创 hive + hbase

环境配置：hadoop-2.0.0-cdh4.3.0 (4 nodes, 24G mem/node)hbase-0.94.6-cdh4.3.0 (4 nodes,maxHeapMB=9973/node)hive-0.10.0-cdh4.3.0 一、查询性能比较： query1: select count(1) from on...

2015-01-04 10:42:11 147

原创 hbase 布隆过滤器

布隆过滤器： 1.原理？数据块索引提供了一个有效的方法，在访问一个特定的行时用来查找应该读取的HFile的数据块。但是它的效用是有限的。HFile数据块的默认大小是64KB，这个大小不能调整太多。如果你要查找一个短行，只在整个数据块的起始行键上建立索引无法给你细粒度的索引信息。例如，如果你的行占用100字节存储空间，一个64KB的数据块包含(64 * 1024)/100 = 6...

2014-12-23 10:48:06 310

原创 hbase 自定义filter

base自带的filter已经很多了，按照RK，CF，CQ过滤的都有我最常用的PrefixFilter,按照rk前缀RowFilter，按照rk比较ColumnPrefixFilter，按照cq前缀QualifierFilter，按照cq比较 hbase还有一堆WritableByteArrayComparable，可以满足各种比较比如Reg...

2014-12-17 17:22:10 135

原创 HBase性能优化方法总结（四）：数据计算

HBase性能优化方法总结（四）：数据计算本文主要是从HBase应用程序设计与开发的角度，总结几种常用的性能优化方法。有关HBase系统配置级别的优化，可参考：淘宝Ken Wu同学的博客。下面是本文总结的第四部分内容：数据计算相关的优化方法。4. 数据计算4.1 服务端计算Coprocessor运行于HBase RegionServer服务端，各个Regions保...

2014-12-12 10:57:14 102

原创 HBase性能优化方法总结（三）：读表操作

HBase性能优化方法总结（三）：读表操作本文主要是从HBase应用程序设计与开发的角度，总结几种常用的性能优化方法。有关HBase系统配置级别的优化，可参考：淘宝Ken Wu同学的博客。下面是本文总结的第三部分内容：读表操作相关的优化方法。3. 读表操作3.1 多HTable并发读创建多个HTable客户端用于读操作，提高读数据的吞吐量，一个例子：复制代码...

2014-12-12 10:56:34 65

原创 HBase性能优化方法总结（二）：写表操作

HBase性能优化方法总结（二）：写表操作本文主要是从HBase应用程序设计与开发的角度，总结几种常用的性能优化方法。有关HBase系统配置级别的优化，可参考：淘宝Ken Wu同学的博客。下面是本文总结的第二部分内容：写表操作相关的优化方法。2. 写表操作2.1 多HTable并发写创建多个HTable客户端用于写操作，提高写数据的吞吐量，一个例子：复制代码...

2014-12-12 10:55:40 80

原创 hbase 表设计

HBase性能优化方法总结（一）：表的设计本文主要是从HBase应用程序设计与开发的角度，总结几种常用的性能优化方法。有关HBase系统配置级别的优化，可参考：淘宝Ken Wu同学的博客。下面是本文总结的第一部分内容：表的设计相关的优化方法。1. 表的设计1.1 Pre-Creating Regions默认情况下，在创建HBase表的时候会自动创建一个region...

2014-12-12 10:54:30 85

原创 hbase 快照

Apache HBase快照介绍分享到： 6本文由 ImportNew - 陈晨翻译自 Cloudera。欢迎加入翻译小组。转载请参见文章末尾的要求。CDH是Cloudera的完全开源分布式Apache Hadoop及相关项目（包括Apache HBase）。CDH的当前版本（4.2）引入的一个HBase新特性最近加入到了主干中，允许用户对指定表进行快照。在C...

2014-12-10 15:52:26 153

原创 hbase 日常维护

一，基本命令：建表：create 'testtable','coulmn1','coulmn2' 也可以建表时加coulmn的属性如：create 'testtable',{NAME => 'coulmn1', BLOOMFILTER => 'NONE', REPLICATION_SCOPE => '0', VERSIONS => '10', COMPRESSION...

2014-12-09 10:46:48 106

原创 MapReduce剖析笔记之五：Map与Reduce任务分配过程 - esingchan

在上一节分析了TaskTracker和JobTracker之间通过周期的心跳消息获取任务分配结果的过程。中间留了一个问题，就是任务到底是怎么分配的。任务的分配自然是由JobTracker做出来的，具体来说，存在一个抽象类：TaskScheduler，主要负责分配任务，继承该类的有几个类：CapacityTaskScheduler、FairScheduler、JobQueueTask...

2014-11-13 16:02:57 155

空空如也

空空如也