sawen21-CSDN博客

原创 Spark内存迭代计算初探

本文转自个人原创blog: http://www.javali.org/document/dive-into-spark-rdd.html首先安装Spark集群前置条件，10.0.18.14-16 三台机器分别已安装好hadoop2，spark cluster机器规划 10.0.18.16为master ,10.0.18.14-16三个结点为slave,确保master到slave

2015-04-22 16:48:04 1911

原创 hadoop处理小文件问题

本文转自个人原创blog: http://www.javali.org/document/hadoop-handle-numerous-small-files.htmlHadoop带来了廉价的处理大数据的能力，可以这么理解，hadoop是为了解决大数据（大文件）计算而出现的分布式计算框架，不过对于小文件(指远小于block size，默认64M)却会存在各种问题，比如：过多的消

2015-04-22 16:45:44 620

原创 Hadoop2安装运行问题汇总

本文转自我的原创blog: http://www.javali.org/document/hadoop2_related_problems_summary.htmlhadoop版本：cdh4.7.0操作系统：　centos6 64bitCDH3安装文档请跳至：hadoop1分布式集群搭建1,hiveserver2 可以用localhost链接，但无法用

2015-04-22 16:35:19 521

原创利用CombineFileInputFormat处理小文件

在之前的文章里hadoop处理小文件问题使用hadoop archive files来解决海量小文件引起的资源及性能问题。该方案需人工进行维护，适用管理人员的操作，而且har文件一旦创建，Archives便不可改变，所以适合一次性写入大量小文件的场景。hadoop自带的还有另一种解决方案：CombineFileInputFormatCombineFileInputFormat是一

2015-04-22 16:35:00 1140

原创 Mysql中load data infile主从复制注意点

本文转自我的原创blog:http://www.javali.org/document/tips-on-replication-in-load-data-infile-in-mysql.html在mysql官方文档的描述里，load data infile加载数据要比普通的insert快20倍，可以说是插入数据最快的方式了，所以在很多场合都会用它来提升入库速度。那它在主

2015-04-22 16:21:51 1587

原创 Mysql大数据库迁移

本文转自我的原创blog:http://www.javali.org/document/mysql_migration_with_large_datas.html最近可真撞大运了，AB两个平台的从库同时故障。据OP反馈其中一台是电源问题，负载一上来就断电；另一台内存故障导致不间断重启。先说下DB架构情况，两平台都是一主一丛，业务系统通过dbproxy实现读写分离，所以庆幸的是从库d

2015-04-22 16:19:50 1654

原创 Storm滑动窗口实现批量计算

storm是一个流式处理框架，可以做到Spout产生一条数据，Bolt处理一条以达到实时计算。这种模式并不是实际的业务需要的，我们更多是需要最近5分钟的PV UV ,最近10分钟的网络最大延迟,最近5分钟页面访问TOP10这类问题都可以抽象为：每隔M秒统计最近N秒内的数据，即我们需要一个滑动窗口（固定时间段）来控制数据流量因为storm 未提供api封装，滑动窗口只能自己来实现

2015-03-31 18:38:27 5370

原创 Mapreduce读取OrcFile格式的改造

本文转自我的原创blog: http://www.javali.org/document/mapreduce_read_orcfile_solution.htmlThe Optimized Row Columnar (ORC) file format provides a highly efficient way to store Hive data. It was designed to

2015-03-24 18:09:05 1974 1

sawen21的专栏