wf1982-CSDN博客

转载 NameNode HA 采用方案

原文：http://yanbohappy.sinaapp.com/?p=50Hadoop的设计初衷是服务于off-line的数据存储和处理应用。随着这个产品的不断成熟和发展，对于支持on-line应用的需求越来越强烈。例如HBase已经被Facebook和淘宝用到了在线存储应用中。所以Hadoop的on-line化也是一个趋势。目前制约Hadoop作为on-line存储和处理的

2012-07-27 13:20:09 13482 1

转载 NameNode federation

原链:http://blog.csdn.net/azhao_dn/article/details/7480201从0.23.0开始，Hadoop开始支持分布式NameNode，通过NameNode federation的形式实现。这样实现了NameNode的横向扩展，使得Hadoop集群的规模可以达到上万台。1，分布式NameNode基本原理和设计HDFS存储包

2012-07-27 13:13:07 8756

转载 hbase应用优化相关

转载自：http://www.cnblogs.com/panfeng412/archive/2012/03/08/hbase-performance-tuning-section1.html本文主要是从HBase应用程序设计与开发的角度，总结几种常用的性能优化方法。有关HBase系统配置级别的优化，可参考：淘宝Ken Wu同学的博客。下面是本文总结的第一部分内容：表的设

2012-07-13 10:41:03 6549

转载 HBase存储架构

原文：http://www.blogjava.net/hengheng123456789/archive/2010/12/31/342074.html英文原文：http://www.larsgeorge.com/2009/10/hbase-architecture-101-storage.htmlHBase最隐秘的问题之一就是它的数据是如何存储的。虽然大多数用户都不会因为这个问

2012-07-11 22:22:11 6351

原创 hadoop出现元数据不能更新且SNN合并失效

问题表现： NameNode 保存edits文件停留在5.3号凌晨。SNN执行合并文件报空指针错误，导致无法正常合并元数据原因：要弄清原因首先需要清楚SNN合并流程，NN写editslog流程等等。简单说来如下：1 在5.3号 SNN合并文件后并成功将合并的数据put到NN。当NN在关闭临时edit文件edit.new，打开edits文件时报错：unable to

2012-05-09 18:26:16 2216

原创 hadoop metrics 各参数解释

研究使用hadoop的人对hadoop中详细的计数器有所了解，但是很多人在想完全清楚所有metrics时发愁找不到资料。而且在代码中查找时介绍也比较少。先罗列出所有。dfs.datanode.blockChecksumOp_avg_time 块校验平均时间dfs.datanode.blockChecksumOp_num_ops 块检验次数dfs.datanode.blockRe

2012-04-06 16:49:04 7458 2

转载 rpm安装和卸载脚本的工作原理[重点关注]

http://www.ibm.com/developerworks/cn/linux/management/package/rpm/part3/安装和卸载脚本的工作原理安装和卸载脚本看起来很简单，但它们工作原理中的一些意外可能会引起大问题。

2011-10-12 15:02:41 2220

转载 SO_SNDBUF and SO_RECVBUF

参见 http://stackoverflow.com/questions/4257410/what-are-so-sndbuf-and-so-recvbufThe "SO_" prefix is for "socket option", so yes, these are per-socket settings for the per-socket buffers. There ar

2014-08-27 15:35:14 7410

原创使用hive 对lzo数据分析时的报错

之前建立map作业将文本文件通过combineInputFormat 合并小文件并压缩为lzo文件，作业设置： conf.setInt("mapred.min.split.size", 1); conf.setLong("mapred.max.split.size", 600000000); // 600MB,使得每个压缩后文件120MB左右

2014-03-03 18:07:56 11090

原创 Hadoop MultiOutputs 实现

工作中有人问 MultiOutputs 实现为啥在指定reduce数为1时结果文件数依然是好多个？这其实由其实现逻辑决定的。在MR中一般job都可以通过map reduce 默认的OutputCollector 实现写入作业初始化时指定格式的输出中，只能一个文件格式。当需要将结果分门别类区分或者使用不同格式存储在多个文件结果中时就需要 MultiOutputs了。Mul

2014-02-24 14:14:06 7885 1

原创 cdh4.2 在mac OS X10.9.1下编译

编译 hadoop-2.0.0-cdh4.2下载 tar 包http://www.cloudera.com/content/cloudera-content/cloudera-docs/CDH4/latest/CDH-Version-and-Packaging-Information/cdhvd_topic_6_1.html 安装maven 3.0.5 并配置环境变量 M

2014-01-15 18:47:44 8981

原创 Java的类加载器简述

类加载器是java设计中一项创新，独立于JVM之外，类如何加载可以由JVM外部实现。如早期的Applets，曾经大红的OSGI等。类加载器就是加载类的。一个jvm中可以存在若干个类加载器。相同的字节码因为类加载器不同，产生的实例肯定不同，即用instanceof 或者equal，isInstance()等方法对较相同字节码不同类加载器对象时返回均为false。开发者可以继承java

2013-08-31 12:18:49 6634

翻译为多租户场景集群配置Impala和Mapreduce

原文标题：Configuring Impala and MapReduce for Multi-tenant Performance(http://blog.cloudera.com/blog/2013/06/configuring-impala-and-mapreduce-for-multi-tenant-performance/)为多租户场景集群配置Impala和Mapreduce

2013-08-10 11:18:39 12634 1

转载 Hive SQL解析/执行计划生成流程分析

Hive SQL解析/执行计划生成流程分析近在研究Impala，还是先回顾下Hive的SQL执行流程吧。Hive有三种用户接口：cli (Command line interface)bin/hive或bin/hive –service cli命令行方式（默认）hive-server/hive-server2bin/h

2013-06-18 17:36:10 16905 1

翻译如何使用vagrant在虚拟机安装hadoop集群

原文地址：http://blog.cloudera.com/blog/2013/04/how-to-use-vagrant-to-set-up-a-virtual-hadoop-cluster/vagrant 是一个非常好用的工具，可以用它来在单台物理机器编程管理多个虚拟机(vms)。其支持原生VirtualBox，并同时提供了对VMware Fusion、Amazon EC2虚拟机集群的

2013-04-14 09:11:56 11988 1

原创关于hadoop mapreduce的job cleanup阶段

近段时间发现好多分析的mr作业延迟1个小时到2个小时，其实那个作业平时可能会只需要20分钟。分析作业状态发现延迟是在job的cleanup阶段。近段时间由于用户的增长及数据的持续飙升，集群作业越来越多，每个作业占用槽位也不断增长，导致集群槽位紧张，所以集群出现排队现象本来运算正常，但是如果整个作业setup、map、reduce都处理完了，仅剩cleanup（极其轻量）没执行完导

2013-03-29 18:33:36 11048 2

原创 hive sequencefile 和rcfile 效率对比

源数据放在test1表中，大小 26413896039 Byte。创建sequencefile 压缩表test2，使用insert overwrite table test2 select ...语句将test1数据导入 test2 ，设置配置项：set hive.exec.compress.output=true;set mapred.output.compress=tru

2012-09-17 17:32:14 11470

转载 Google Dremel 原理 - 如何能3秒分析1PB

原链：http://www.yankay.com/google-dremel-rationale/简介Dremel 是Google 的“交互式”数据分析系统。可以组建成规模上千的集群，处理PB级别的数据。MapReduce处理一个数据，需要分钟级的时间。作为MapReduce的发起人，Google开发了Dremel将处理时间缩短到秒级，作为MapReduce的有力补

2012-08-24 13:29:45 5678

转载 hadoop默认参数

1 常用的端口配置1.1 HDFS端口参数描述默认配置文件例子值fs.default.name namenodenamenode RPC交互端口8020core-site.xmlhdfs://ma

2012-08-14 18:47:08 14201

转载大整数乘法算法

一转换为二进制求，推导出的公式适合十进制计算设X和Y都是n位的二进制整数，现在要计算它们的乘积XY。我们可以用小学所学的方法来设计一个计算乘积XY的算法，但是这样做计算步骤太多，显得效率较低。如果将每2个1位数的乘法或加法看作一步运算，那么这种方法要作O(n2)步运算才能求出乘积XY。下面我们用分治法来设计一个更有效的大整数乘积算法。　图6-3 大整数X和Y的分段

2012-07-11 23:38:34 33500 1

原创 c 使用libhdfs写数据配置blocksize

在libhdfs提供的hdfswrite基础上修改好自己的namenode ip及端口/** * Licensed to the Apache Software Foundation (ASF) under one * or more contributor license agreements. See the NOTICE file * distributed with this

2012-06-29 18:43:28 6239

转载 hive基本用法汇总（部分）

看到的文章，总结的很好，转载一下：原文http://www.jiacheo.org/blog/1261，创建表?123456CREATETABLEpage_view(viewTime INT, userid BIGINT,page_url STRING, refer

2012-06-09 07:37:52 21272

转载 hive udtf的使用

原文:http://blog.linezing.com/2011/03/hive%E4%B8%ADudtf%E7%BC%96%E5%86%99%E5%92%8C%E4%BD%BF%E7%94%A81. UDTF介绍UDTF(User-Defined Table-Generating Functions) 用来解决输入一行输出多行(On-to-many mapin

2012-06-01 15:46:01 25179 1

转载 hive中的复杂类型使用

在Hive 中如何使用符合数据结构 maps，array，structs 1. Array的使用创建数据库表，以array作为数据类型 create table person(name string,work_locations array)ROW FORMAT DELIMITEDFIELDS TERMINATED BY '\t

2012-04-18 18:08:39 14455

转载 CHD4B1（hadoop-0.23）实现NameNode HA安装配置

关注hadoop社区发展情况，下步会找时间专门坐下测试。先转个帖子：原文:http://www.cnblogs.com/MGGOON/archive/2012/03/14/2396481.htmlCHD4B1（hadoop-0.23）实现NameNode HA安装配置 Cloudera CHD4B1版本已经包含了NameNode HA，社区也把Na

2012-03-27 11:49:12 1688

原创 Hadoop端口说明

默认端口设置位置描述信息8020 namenode RPC交互端口8021 JT RPC交互端口50030 mapred.job.tracker.http.address JobTracker admini

2012-03-26 15:59:58 5595

转载 Hprof使用及在Hadoop中MR任务使用

J2SE中提供了一个简单的命令行工具来对java程序的cpu和heap进行 profiling，叫做HPROF。HPROF实际上是JVM中的一个native的库，它会在JVM启动的时候通过命令行参数来动态加载，并成为 JVM进程的一部分。若要在java进程启动的时候使用HPROF，用户可以通过各种命令行参数类型来使用HPROF对java进程的heap或者（和）cpu进行profiling的功

2012-03-22 16:54:24 3146

原创 hive 全排序优化

全排序Hive的排序关键字是SORT BY，它有意区别于传统数据库的ORDER BY也是为了强调两者的区别–SORT BY只能在单机范围内排序。考虑以下表定义：CREATE TABLE if not exists t_order( id int, -- 订单编号 sale_id int, -- 销售ID customer_id int, -- 客户ID produc

2012-03-19 15:56:39 5880

原创 MR任务中默认counter意义

Counter有"组group"的概念，用于表示逻辑上相同范围的所有数值。MapReduce job提供的默认Counter分为五个组，下面逐一介绍。这里也拿我的一份测试数据来做详细比对，它们会以表格的形式出现在各组描述中。 FileInputFormatCounters 这个group表示map task读取文件内容(总输入数据)的统计

2012-03-02 17:00:15 1816 1

原创 splunk 测试报告

Splunk使用测试报告一、技术组件及原理1． Indexer 将本地或远程日志数据做索引。工作机制：可以对具有时间线的任何格式的日志数据做索引。这个索引动作是基于时间戳将数据打乱后放入events中，每个events包含时间戳、host、source、source type属性。一般一行日志就是一个event，如果是xml logs，可能被分解成多个events.当用户搜索时，

2012-01-19 18:21:28 7587 1

原创 Redis常用命令

键值相关命令　　1、keys　　返回满足给定pattern的所有key：　　redis 127.0.0.1:6379> keys *　　1) "myzset2"　　2) "myzset3"　　3) "mylist"　　4) "myset2"　　5) "myset3"　　6) "myset4"　　7) "k_zs_1"

2012-01-18 14:20:14 21528 5

原创 Redis教程

一 Redis介绍 Redis是一个开源的使用ANSI C语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库，并提供多种语言的API。从2010年3月15日起，Redis的开发工作由VMware主持。 Redis能运行在大多数POSIX(Linux, *BSD, OS X 和Solaris等)系统上，官方没有支持Windows的版本。

2012-01-18 14:15:56 10028 4

转载新浪微博架构演讲---转载至新闻

转载自：http://tech.sina.com.cn/i/2010-11-16/14434871585.shtml　以下为演讲实录：　　大家下午好，在座的大部分都是技术开发者，技术开发者往往对微博这个产品非常关心。最晚的一次，是12点多收到一个邮件说想了解一下微博底层是怎么构架的。很多技术人员对微博的构架非常感兴趣，就是一个明星他有300万粉丝，这个技术怎么来实现？今天在这里跟大

2012-01-17 11:45:08 1200

原创 Oozie介绍

首先本人以前还真不知道Oozie这个东东，经别人说才知道，所以感觉也是比较惭愧。毕竟正在做的项目DIP-DATA-ANALYZE与这个有些共同处，就是提供类似工作流的机制更好的调度任务。不过Oozie支持的更多，支持了pig,直接mr，streaming。我们目前是基于hive的，当然也可以支持streaming,mr，不过目前还没有。另外一个不同是Oozie使用自定义的xml

2012-01-14 15:35:27 23724 1

转载 hadoop作业调优参数整理及原理

在淘宝重新看了下hadoop作业相关参数的知识，一并转载过来http://www.tbdata.org/archives/1470/comment-page-1#comment-5341hadoop作业调优参数整理及原理1 Map side tuning参数1.1 MapTask运行内部原理当map task开始运算，并产生中间数据时

2012-01-14 11:35:28 1112 1

转载下一代Apache Hadoop MapReduce框架的架构

转自 http://dongxicheng.org/mapreduce-nextgen/nextgen-mapreduce-introduction/ 懂的博客背景随着集群规模和负载增加，MapReduce JobTracker在内存消耗，线程模型和扩展性/可靠性/性能方面暴露出了缺点，为此需要对它进行大整修。需求当我们对Hadoop MapRed

2012-01-14 11:20:23 1423

转载 map join优化

转载：http://www.gemini5201314.net/hadoop/hadoop-%E4%B8%AD%E7%9A%84%E4%B8%A4%E8%A1%A8join.html为数据分析中经常进行的join 操作，传统DBMS 数据库已经将各种算法优化到了极致，而对于hadoop 使用的mapreduce 所进行的join 操作，去年开始也是有各种不同的算法论文出现，讨论各种算法

2012-01-14 11:09:47 5635

原创关于12306网络购票的架构方面思考

自从2012开始那天，网络购买火车票成了国内最火的话题，12306.cn的Alexa排名从三个月前的全球万位以外迅速窜升至今日的全球排名1560位、中国排名102位。并且成为第11大电商网站。但是由于铁道部公开的种种原因，12306也让人诟病不止。其中最大的原因就是登陆12306慢，页面打不开，好不容易打开了，无法查询票额，无法购买票，甚至只收钱不吐票:),在放票时间更是非常突出。

2012-01-08 00:23:39 17499 34

转载 GREENPLUM简介

原帖：http://www.itpub.net/thread-1409964-1-1.html什么是GREENPLUM？对于很多IT人来说GREENPLUM是个陌生的名字。简单的说它就是一个与ORACLE, DB2一样面向对象的关系型数据库。我们通过标准的SQL可以对GP中的数据进行访问存取。GREENPLUM与其它普通的关系型数据库的区别？本质上讲GREENPLUM是一个

2012-01-07 11:44:29 42986 18

原创使用mapjoin效率对比

MAPJION会把小表全部读入内存中，在map阶段直接拿另外一个表的数据和内存中表数据做匹配，由于在map是进行了join操作，省去了reduce运行的效率也会高很多使用一个表测试，该表时5分钟表，数据很少，大概60多w。测试日志里包含多个字段，其中有uid和uip。测试场景为给出2个uid，取uid共同的uip。三个不同uidselect /*+

2011-12-26 17:09:51 3899

空空如也

应用中程序通过getBean方式 得到spring中 hibernate sessionFactory问题

javaeye.com 目前存在的bug

应用中程序通过getBean方式得到spring中 hibernate sessionFactory问题