自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

原创 Spark内存迭代计算初探

本文转自个人原创blog: http://www.javali.org/document/dive-into-spark-rdd.html首先安装Spark集群前置条件,10.0.18.14-16 三台机器分别已安装好hadoop2,spark cluster机器规划 10.0.18.16为master ,10.0.18.14-16三个结点为slave,确保master到slave

2015-04-22 16:48:04 1911

原创 hadoop处理小文件问题

本文转自个人原创blog: http://www.javali.org/document/hadoop-handle-numerous-small-files.htmlHadoop带来了廉价的处理大数据的能力,可以这么理解,hadoop是为了解决大数据(大文件)计算而出现的分布式计算框架,不过对于小文件(指远小于block size,默认64M)却会存在各种问题,比如:过多的消

2015-04-22 16:45:44 620

原创 Hadoop2安装运行问题汇总

本文转自我的原创blog:  http://www.javali.org/document/hadoop2_related_problems_summary.htmlhadoop版本:cdh4.7.0操作系统: centos6 64bitCDH3安装文档请跳至:hadoop1分布式集群搭建1,hiveserver2 可以用localhost链接,但无法用

2015-04-22 16:35:19 521

原创 利用CombineFileInputFormat处理小文件

在之前的文章里hadoop处理小文件问题 使用hadoop archive files来解决海量小文件引起的资源及性能问题。该方案需人工进行维护,适用管理人员的操作,而且har文件一旦创建,Archives便不可改变,所以适合一次性写入大量小文件的场景。hadoop自带的还有另一种解决方案:CombineFileInputFormatCombineFileInputFormat是一

2015-04-22 16:35:00 1140

原创 Mysql中load data infile主从复制注意点

本文转自我的原创blog:http://www.javali.org/document/tips-on-replication-in-load-data-infile-in-mysql.html在mysql官方文档的描述里,load data infile加载数据要比普通的insert快20倍,可以说是插入数据最快的方式了,所以在很多场合都会用它来提升入库速度。那它在主

2015-04-22 16:21:51 1587

原创 Mysql大数据库迁移

本文转自我的原创blog:http://www.javali.org/document/mysql_migration_with_large_datas.html最近可真撞大运了,AB两个平台的从库同时故障。据OP反馈其中一台是电源问题,负载一上来就断电;另一台内存故障导致不间断重启。先说下DB架构情况,两平台都是一主一丛,业务系统通过dbproxy实现读写分离,所以庆幸的是从库d

2015-04-22 16:19:50 1654

原创 Storm滑动窗口实现批量计算

storm是一个流式处理框架,可以做到Spout产生一条数据,Bolt处理一条以达到实时计算。这种模式并不是实际的业务需要的,我们更多是需要 最近5分钟的PV UV ,最近10分钟的网络最大延迟,最近5分钟页面访问TOP10这类问题都可以抽象为:每隔M秒统计最近N秒内的数据,即我们需要一个滑动窗口(固定时间段)来控制数据流量因为storm 未提供api封装,滑动窗口只能自己来实现

2015-03-31 18:38:27 5370

原创 Mapreduce读取OrcFile格式的改造

本文转自我的原创blog: http://www.javali.org/document/mapreduce_read_orcfile_solution.htmlThe Optimized Row Columnar (ORC) file format provides a highly efficient way to store Hive data. It was designed to

2015-03-24 18:09:05 1974 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除