自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

竹叶青 的专栏

hadoop hive 数据挖掘 python

  • 博客(162)
  • 资源 (2)
  • 收藏
  • 关注

原创 Hadoop2 MR-JobHistory服务介绍

1)MR-JobHistory服务目标主要是向用户提供历史的mapred Job 查询2)MR-JobHistory服务架构详细解释:a)在运行MR Job时,MR 的 ApplicationMaster会根据mapred-site.xml配置文件中的配置,将MR Job的job history信息保存到指定的hdfs路径(首先保存到临时目录,然后mv到最终目录)

2015-05-15 11:09:59 15310 2

原创 Hadoop 2:Capacity Scheduler配置项说明

yarn.scheduler.capacity.A.capacity队列A的最低保障容量(百分比)(所有队列总和相加为100)yarn.scheduler.capacity.A.maximum-capacity队列A可以获取到的最大容量(不予保障)(集群空闲时从其他队列借取)yarn.scheduler.capacity.A.minimum-user-limit-p

2015-05-14 14:57:47 7407

原创 大数据环境下的关联规则挖掘-赵修湘-专题视频课程

大数据集环境下的关联规则发现日益受到重视,如何在大数据环境下进行数据分析和数据挖掘成为了企业要面对的首要难题!本次课程将讲解大数据环境下关联规则挖掘面临的挑战以及应用实践。...

2014-11-29 11:42:12 521

原创 第十次 EasyHadoop公益免费技术分享

第十次 EasyHadoop公益免费技术分享 (互联网大数据与基因大数据交流活动)2014年11月10日技术活动EasyHadoop 技术分享 ,重新起航。easyhadoop社区自2012年2月成立,从2012年02月25日举办第一次技术分享到2013年6月22日的第九次已经举办了九期技术分享活动,这之后便沉寂了大约一年半的时间,本次是第十期活动。让大家久等了,谢谢大家这两年

2014-11-11 15:00:28 5966

原创 访问劫持?访问苏宁时发生的怪事

我在浏览器里面敲入www.suning.com,结果浏览器给我跳转到了这么一个页面       页面地址:http://www.duomai.com/special/error/error.htm?site_id=83658&aid=84&euid=&t=http%3A%2F%2Fwww.suning.com%2F#site_0                     

2014-08-14 00:00:05 7568 1

原创 hive查询实战1

1)json操作hive> select get_json_object("{\"a\":1}","$.a") from filterd_url limit 2;               OK 1 1 Time taken: 364.962 seconds, Fetched: 2 row(s) hive> select * from filterd_url where

2014-08-13 17:44:38 5191

原创 实现字符型进度条(pyton、java)

大家在linux上使用wget时,wget命令会向linux命令行界面输出进度条,但平时也没有太留意这些细节。最近由于需要给产品人员提供后台分析程序,虽然不需要实现界面,但为了让程序更人性化一些,于是计划在dos界面上实现进度条的输出。         实现原理:        在向标准输出输出数据时,可以使用 \r 字符实现回退到该行的头部,如:sys.stdout.write(‘\

2013-12-12 15:15:19 10131

原创 python输出excel能够识别的utf-8格式csv文件

可能大家都遇到过,python在输出的csv文件中如果有utf-8格式的中文,那么在使用excel打开该csv文件时,excel将不能够有效识别出文件中的中文数据,严重时甚至不能够识别出分隔符。那么,要怎样操作才能够让excel识别出utf-8格式的中文呢?方法其实很简单,见以下代码:import codecswith open('ExcelUtf8.csv', 'w') as f:

2013-11-27 18:24:02 24658

原创 hive partition 使用记录1

最近在使用hive的partition时,发生这么一件有意思的事情:      我们在定义hive表时,partition字段的定义为int,而在增加partition时,对partition字段的赋值却是string,很遗憾的是,hive这时并没有对字段类型进行检查,也就是说,我们的增加partition语句执行成功了。在我们使用刚才增加的partition时,hadoop job管理页面显

2013-11-27 14:46:39 6981

原创 hive自定义mapred脚本运行机制分析

1.  hive自定义mapred脚本运行机制        1.1)HQL中使用自定义mapred脚本的语法格式及案例语法格式:FROM ( FROM src MAP expression (',' expression)* (inRowFormat)? USING 'my_map_script' ( AS colName (',' col

2013-09-25 14:01:19 7972 2

原创 linux杀死指定进程的命令

1)根据pid文件杀死进程            命令:cat test.pid | xargs kill -9            注意事项:如果是在windows上编写的shell 脚本,迁移到linux上时,一定要执行dos2unix 转换命令,将shell脚本文件格式转换为unix格式,否则会发生很多奇怪的问题。

2013-06-18 23:06:56 5354

转载 Log4J日志管理类使用详解

Log4J日志管理类使用详解,java开发必备,不多说了一、前言:log4j 是一个开放源码项目,是广泛使用的以Java编写的日志记录包。由于log4j出色的表现, 当时在log4j完成时,log4j开发组织曾建议sun在jdk1.4中用log4j取代jdk1.4 的日志工具类,但当时jdk1.4已接近完成,所以sun拒绝使用log4j,当在java开发中实际使用最多的还是log4j, 人

2013-06-18 11:10:48 6269

原创 jave eclipse开发遇上的问题

1)override问题        在学习使用maven管理项目时,尝试将一个已有的thrift项目改为maven 项目,结果在添加完依赖库之后,thrift自动生成的代码一下子报了一百多个错误,而且还全部是override错误,最初还以为是maven添加的依赖库产生的问题(由于刚学习maven),结果在依赖库上面折腾了半天,也没能解决问题。后来试着在百度上搜索(thrift 错误:必须覆

2013-05-09 19:47:51 5579

转载 Thirft框架介绍

(转载文章,点击查看原文)Thirft框架介绍1、前言Thrift是一个跨语言的服务部署框架,最初由Facebook于2007年开发,2008年进入Apache开源项目。Thrift通过一个中间语言(IDL, 接口定义语言)来定义RPC的接口和数据类型,然后通过一个编译器生成不同语言的代码(目前支持C++,Java, Python, PHP, Ruby, Erlang,

2013-05-08 11:54:08 5448

转载 Apache Thrift Quickstart Tutorial

(转载文章,点击查看原文)Thrift is a cross language RPC framework initially developed at Facebook, now open sourced as an Apache project. This post will describe how to write a thrift service and client in

2013-05-08 11:42:21 7541

转载 Java版的各种Thrift server实现的比较

(转载文章,点击查看原文http://www.codelast.com/)本文是我对这篇文章的翻译:Thrift Java Servers Compared,为了便于阅读,我将原文附于此处,翻译穿插在其中。此外,为了防止原链接在未来某一天失效后,文中的图片再也看不到的问题,我将原文中的图片也保存到了本站的服务器上,我不知道github或原作者是否允许这样做,但我翻译本文仅在于传播知识的

2013-05-08 09:32:41 18818

原创 windows配置thrift开发环境

1)安装thrift:到thrift官网下载exe文件,然后将文件重命名为thrift.exe,拷贝到c:\windows目录下,然后就可以在dos环境下使用了           如:thrift -gen java D:\mywork\javaProject\thriftTest\test.thrift ,输出的java文件默认输出到当前目录下,也可以使用-o参数指定输出路径

2013-05-07 19:50:43 20638 5

原创 hbase权威指南: store file合并(compaction)

hbase为了防止小文件(被刷到磁盘的menstore)过多,以保证保证查询效率,hbase需要在必要的时候将这些小的store file合并成相对较大的store file,这个过程就称之为compaction。在hbase中,主要存在两种类型的compaction:minor  compaction和major compaction。          major compaction 的

2013-04-29 16:05:52 21583

原创 zookeeper客户端 和服务器连接时版本问题

在使用kafka 和zookeeper 实现实时分析程序时,由于zookeeper部署版本和分析程序导入jar包的版本不一致,导致了当实时分析程序从远程服务器连接kafka集群的zookeeper时报错,错误信息如下:2012-12-31 10:51:41,562-[TS] INFO main-EventThread org.I0Itec.zkclient.ZkClient - zookeep

2013-01-05 17:18:34 109056 8

原创 在windows搭建hive eclipse开发环境

1)安装jdk2)安装ant     2.1)下载ant最新版本     2.2)建ant解压到安装目录     2.3)修改环境变量,添加变量:ATN_HOME ,修改path,添加:%ANT_HOME%/bin3)在cmd中测试ant是否安装成功:    在cmd 中运行ant命令,如果安装成功,则输出:Buildfile: build.xml does not

2012-12-04 18:31:02 14505 1

原创 使用java开发mapred时遇上的奇怪问题

1)错误代码:输入文件的key class 为LongWritable ,和Text 不匹配      错误原因:最初设定程序的输入文件为sequence file ,生成的测试数据 为 text file,而 text file 的key 为该行的偏移量,为LongWritable2)错误代码:Text 不能转化为 LongWritable      错误原因:在初始化mapred

2012-11-29 16:59:46 4738 1

转载 java 阻塞队列

import java.util.concurrent.ArrayBlockingQueue;import java.util.concurrent.BlockingQueue;import java.util.concurrent.ExecutorService;import java.util.concurrent.Executors; /**

2012-11-16 17:41:01 9318 2

原创 hive UDF开发注意事项

在开发的hive UDF中,有时候需要使用到第三方jar包,一般的做法是把第三方jar包和udf一起打包,结果在测试udf时,hive报错:java.lang.ClassNotFoundException     解决办法:             1)在运行hive hql时,手动将udf所需要的jar包 通过add语句 添加(测试通过);              2)将udf所需

2012-11-14 12:04:14 8133 2

转载 HIVE UDAF和UDTF实现group by后获取top值

作者:liuzhoulong 发表于2012-7-26 14:52:57 原文链接先自定义一个UDAF,由于udaf是多输入一条输出的聚合,所以结果拼成字符串输出,代码如下:public class Top4GroupBy extends UDAF {    //定义一个对象用于存储数据    public static class State {        priva

2012-10-30 16:12:43 2538 2

转载 Map/reduce 输出格式化

查看原文在运行mapTask 或者reduceTask,输出的结果可能需要进行格式化才能满足我们的需求.hadoop 提供了OutputFormat 供我们转换使用。org.apache.hadoop.mapreduce.lib.output.OutputFormatK,V>//在Job中可以通过setOutputFormatClass 方法来设置格式化,SortedOut

2012-10-15 16:38:02 4680

转载 Hadoop现有测试框架探幽

查看原文Hadoop现有测试框架探幽背景从使用hadoop的第一天开始,就一直没有离开过对Hadoop自身功能的开发以及hadoop本身bug的修复的相关开发。这样的开发模式已经持续了好几年,但是可以从中发现的一个现象:对于我们修复的bug或者开发的功能,一直都没有一种很规范,很统一,高效,好管理,并且一目了然的测试的方式。常常的现象是:开发了一个功能或修复了一个bug后,就针

2012-10-12 18:32:19 3742 1

原创 创建hadoop 1.0.3 Eclipse开发环境

为了提高mapred开发效率,今天终于下定决心将hadoop的Eclipse开发环境配置好。        Eclipse版本:163disk.com_eclipse-jee-indigo-SR2-win32 ,点击下载        插件版本:hadoop-eclipse-plugin-1.0.2 ,点击下载        配置过程可以参考一下两篇博文:

2012-10-12 17:18:55 2309

转载 Hadoop程序打印调试

转载   Hadoop程序打印调试1. System.out 和 System.errMain在Main函数里使用System.out标准输出和System.err标准错误输出,输出定向到执行程序节点的终端上。即在完全分布的Hadoop部署中,输出会定向到启动程序的节点的终端上。Mapper针对每个split,会实例化一个Mapper对象作为一个task,在Hadoop集群

2012-09-21 14:10:56 7553

原创 EasyHadoop 第六次技术分享(Hadoop应用(海量小文件存储),Hadoop高可用和信息安全)

初春播下的种子,在春夏阳光雨露的滋润下快速成长,转眼也快到了十月金秋收获的季节。而现在正是秋初酝酿成长之季。Hadoop 从互联网领域蓬勃发展,广大搜索,电商,视频,门户,游戏公司都纷纷开始实施Hadoop技术解决方案。同时Hadoop大数据解决方案已经扩展到通信,安全,工业,乃至生物医药等领域,成为公认的大数据分析处理领域规范标准。        EasyHadoop 开源社区从二月的第

2012-09-19 09:00:17 8710 1

原创 python 编码方式总结

python 编码方式总结(python内部使用unicode编码):    >>> t='北京'>>> t'\xe5\x8c\x97\xe4\xba\xac'   1)urllib.quote(t) 将t转换为16进制编码      '%E5%8C%97%E4%BA%AC'  urllib.unquote('%E5%8C%97%E4%BA%AC') 将16进制编码转换为内

2012-07-26 18:23:51 9179

原创 hadoop集群balance工具详解

在线上的hadoop集群运维过程中,hadoop 的balance工具通常用于平衡hadoop集群中各datanode中的文件块分布,以避免出现部分datanode磁盘占用率高的问题(这问题也很有可能导致该节点CPU使用率较其他服务器高)。     1) hadoop balance工具的用法:To start:bin/start-balancer.sh [-threshold ]Ex

2012-07-12 19:04:13 26291 1

原创 hadoop运维之三datanode被迫的升级

由于最近集群xcievers错误频频发生,已经到了影响集群正常运营的地步,于是决定修改集群所有的datanode节点的配置,并重启datanode,欲添加的配置项如下: dfs.datanode.max.xcievers 256        修改完配置文件后,在重启datanode时发生了麻烦,datanode启动日志报出

2012-07-11 11:04:50 3791 1

原创 hive外部表使用分区partition

1)创建外部表create external table test(username String,work string) PARTITIONED BY(year String, month String, day String) ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' LOCATION '/tmp/test/';      2)修改表创建

2012-07-03 19:34:20 18409

原创 hadoop运维之jobtracker无故停止服务

今天下午同事在使用hive提交查询时,抛出执行错误:      于是打开jobtracker的管理页面,发现正在运行的job数目为零,tasktracker心跳正常,这一异常现象让我觉得jobtracker可能是停止服务了(一般很少出现集群的运行job数为零的情况),于是手动提交了一个mapred任务进行测试,运行错误信息如下:12/07/03 18:07:22 INFO hdfs

2012-07-03 18:48:22 5553 1

原创 hive查询优化总结

一、join优化Join查找操作的基本原则:应该将条目少的表/子查询放在 Join 操作符的左边。原因是在 Join 操作的 Reduce 阶段,位于 Join 操作符左边的表的内容会被加载进内存,将条目少的表放在左边,可以有效减少发生内存溢出错误的几率。Join查找操作中如果存在多个join,且所有参与join的表中其参与join的key都相同,则会将所有的join合并到一个mapred

2012-07-02 09:33:41 11414 2

原创 第四次easyhadoop聚会

第四次easyhadoop聚会 20120701 [hadoop相关应用与数据挖掘]时间: 2012年7月1日星期日 下午14:00-17:00网站: www.easyhadoop.com EasyHadoop 交流群:93086930主题:  1)hadoop集群运维杂记(蓝讯  张月)  2)hive使用和优化(暴风 赵修湘)  3)phphiveadmin 安

2012-06-27 18:51:29 1660 1

原创 线上hadoop集群重启jobtracker

由于业务需求需要添加新的队列,所以在修改了mapred-site.xml 和capacity-scheduler.xml配置文件后,重启jobtracker,重启后发现tasktracker重新注册到jobtracker总共花费了近十分钟,我还以为事tasktracker出了问题,不知道这种情况是否正常?

2012-06-27 10:10:18 2556

转载 linkedin高吞吐量分布式消息系统kafka使用手记

转载自五四陈科学院[http://www.54chen.com]本文链接: http://www.54chen.com/java-ee/linkedin-kafka-usage.htmlkafka是一种高吞吐量的分布式发布订阅消息系统,她有如下特性:通过O(1)的磁盘数据结构提供消息的持久化,这种结构对于即使数以TB的消息存储也能够保持长时间的稳定性能。高吞吐量:即

2012-06-15 11:51:54 6080

转载 kafka 介绍

1.Why we built this    asd(activity stream data)数据是任何网站的一部分,反映网站使用情况,如:那些内容被搜索、展示。通常,此部分数据被以log方式记录在文件,然后定期的整合和分析。od(operation data)是关于机器性能数据,和其它不同途径整合的操作数据。    在近几年,asd和od变成一个网站重要的一部分,更复杂的基础设施是必须

2012-06-14 18:17:00 6955 5

转载 消息系统Kafka介绍

作者:Dong |可以转载, 但必须以超链接形式标明文章原始出处和作者信息及版权声明网址:http://dongxicheng.org/search-engine/kafka/1、  概述Kafka是Linkedin于2010年12月份开源的消息系统,它主要用于处理活跃的流式数据。活跃的流式数据在web网站应用中非常常见,这些数据包括网站的pv、用户访问了什么内容,搜索了什么内

2012-06-14 18:01:55 2615

thriftTest java案例代码

windows上开发java thrift 的案例代码

2013-05-07

hadoop1.0.2 eclipse 插件

hadoop1.0.2 eclipse 插件

2012-10-12

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除