- 博客(8)
- 收藏
- 关注
原创 Spark内存迭代计算初探
本文转自个人原创blog: http://www.javali.org/document/dive-into-spark-rdd.html首先安装Spark集群前置条件,10.0.18.14-16 三台机器分别已安装好hadoop2,spark cluster机器规划 10.0.18.16为master ,10.0.18.14-16三个结点为slave,确保master到slave
2015-04-22 16:48:04 1911
原创 hadoop处理小文件问题
本文转自个人原创blog: http://www.javali.org/document/hadoop-handle-numerous-small-files.htmlHadoop带来了廉价的处理大数据的能力,可以这么理解,hadoop是为了解决大数据(大文件)计算而出现的分布式计算框架,不过对于小文件(指远小于block size,默认64M)却会存在各种问题,比如:过多的消
2015-04-22 16:45:44 620
原创 Hadoop2安装运行问题汇总
本文转自我的原创blog: http://www.javali.org/document/hadoop2_related_problems_summary.htmlhadoop版本:cdh4.7.0操作系统: centos6 64bitCDH3安装文档请跳至:hadoop1分布式集群搭建1,hiveserver2 可以用localhost链接,但无法用
2015-04-22 16:35:19 521
原创 利用CombineFileInputFormat处理小文件
在之前的文章里hadoop处理小文件问题 使用hadoop archive files来解决海量小文件引起的资源及性能问题。该方案需人工进行维护,适用管理人员的操作,而且har文件一旦创建,Archives便不可改变,所以适合一次性写入大量小文件的场景。hadoop自带的还有另一种解决方案:CombineFileInputFormatCombineFileInputFormat是一
2015-04-22 16:35:00 1140
原创 Mysql中load data infile主从复制注意点
本文转自我的原创blog:http://www.javali.org/document/tips-on-replication-in-load-data-infile-in-mysql.html在mysql官方文档的描述里,load data infile加载数据要比普通的insert快20倍,可以说是插入数据最快的方式了,所以在很多场合都会用它来提升入库速度。那它在主
2015-04-22 16:21:51 1587
原创 Mysql大数据库迁移
本文转自我的原创blog:http://www.javali.org/document/mysql_migration_with_large_datas.html最近可真撞大运了,AB两个平台的从库同时故障。据OP反馈其中一台是电源问题,负载一上来就断电;另一台内存故障导致不间断重启。先说下DB架构情况,两平台都是一主一丛,业务系统通过dbproxy实现读写分离,所以庆幸的是从库d
2015-04-22 16:19:50 1654
原创 Storm滑动窗口实现批量计算
storm是一个流式处理框架,可以做到Spout产生一条数据,Bolt处理一条以达到实时计算。这种模式并不是实际的业务需要的,我们更多是需要 最近5分钟的PV UV ,最近10分钟的网络最大延迟,最近5分钟页面访问TOP10这类问题都可以抽象为:每隔M秒统计最近N秒内的数据,即我们需要一个滑动窗口(固定时间段)来控制数据流量因为storm 未提供api封装,滑动窗口只能自己来实现
2015-03-31 18:38:27 5370
原创 Mapreduce读取OrcFile格式的改造
本文转自我的原创blog: http://www.javali.org/document/mapreduce_read_orcfile_solution.htmlThe Optimized Row Columnar (ORC) file format provides a highly efficient way to store Hive data. It was designed to
2015-03-24 18:09:05 1974 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人