zachary_OOM-CSDN博客

原创 ORM-HBASE 一个轻量级映射框架

基于hbase使用复杂原因，所以我有了想写一个类似于hibernate那种对象关系映射框架（ORM）的想法，像操作对象一样方便的操作HBase数据库，但是它要是轻量级的，无侵入的，只提供简单的CURD、分页、映射功能的一个基础功能。

2016-03-01 15:04:13 6526 2

原创 Spark MLlib系列(二):基于协同过滤的电影推荐系统

随着大数据时代的到来，数据当中挖取金子的工作越来越有吸引力。利用Spark在内存迭代运算、机器学习领域强悍性能的优势，使用spark处理数据挖掘问题就显得很有实际价值。这篇文章给大家分享一个spark MLlib 的推荐实战例子。我将会分享怎样用spark MLlib做一个电影评分的推荐系统。使用到的算法是user-based协同过滤。如果对Spark MLlib不太了解的，请阅读我的上一篇博客。

2015-02-13 16:36:00 33617 12

原创 Spark MLlib系列(一)：入门介绍

还在用mahout吗，matlab，R，你已经out了，快来拥抱真正的分布式机器学习神器--spark machine learning，体验它强大的并发式计算能力，卓越的内存式运算性能，支持众多的算法包，以及scala语言的简洁！

2015-02-12 15:11:26 52129 2

原创 Ambari系列（四）：基于Ambari做二次开发（DIY）

Ambari能够搭建、管理Hadoop集群，这是一件很酷的事情，让集群管理变的easy，但是有可能也有自己的一些需求，如果我想基于Ambari做二次开发DIY，修改一下界面，增加一些功能，添加一个模块等等，这些都是没问题，首先Ambari是基于ASF协议，其次，开发也很方便，唯一不足的是官网基于此的开发文档不多。

2015-01-17 10:00:31 10377 3

原创 Ambari系列（三）： Ambari架构详解

Hadoop集群的管控一直是一个热门的话题，对于这样的一个应用场景，我所知道国内很早就有人研究并且取得不错的成绩，这就是EasyHadoop。它的功能主要有集群安装，管理，监控等功能，有兴趣的朋友可以百度，这位作者的博客有很详细的介绍。今天，我所要重点介绍的Apache的顶级项目，现在是大数据新贵Hortonworks公司在推进的项目Ambari，这款软件具有集群自动化安装、中心化管理、集群监控、报警等功能，使得安装集群从几天的时间缩短在几小时以内，运维人员从数十人降低到几人以内，极大的提高集群管理的效率。

2015-01-17 09:07:37 13438

转载常用 Java 静态代码分析工具的分析与比较

引言在 Java 软件开发过程中，开发团队往往要花费大量的时间和精力发现并修改代码缺陷。Java 静态代码分析（static code analysis）工具能够在代码构建过程中帮助开发人员快速、有效的定位代码缺陷并及时纠正这些问题，从而极大地提高软件可靠性并节省软件开发和测试成本。目前市场上的 Java 静态代码分析工具种类繁多且各有千秋，因此本文将分别介绍现有 4 种主流 Java

2014-12-27 16:38:42 1010

原创 Ambari系列（二）：编译安装Ambari

Ambari是目前最优秀的hadoop集群管理工具，并且是ASF下的开源产品。基于Ambari搭建自己的企业集群，或者做二次开发是一个不错的解决思路。编译Ambari是实现您的hadoop集群方案的第一步。

2014-12-27 09:16:04 5776 4

原创 Ambari系列（一）：在离线环境中自动化安装Hadoop集群

在企业真实生产环境中，应该是没有外网链接的，或者做了外网隔离，因此在离线环境下搭建集群很有价值。在内网集群中搭建yum服务器，安装ambari和集群，是一种比较好的解决思路。使用ambari在自动化搭建大规模集群，使传统模式下搭建集群的时间又数天到数周缩短到几天或者几小时，彻底提高集群建设效率，有效避免人为错误，并且ambari是ASF开源软件，明显优于cloudera manager等商业软件，是集群搭建的不二选择。

2014-12-09 21:56:06 11782 2

原创 CDH使用秘籍（二）：cloudera Manager中监控数据的存储

上一篇文章分析了cloudera manager中监控数据、中心数据的存储方式，怎样配置外部表等。这一篇文章进一步分析监控数据的存储，配置，调优等。

2014-11-19 14:18:28 12869 2

原创 CDH使用秘籍（一）：Cloudera Manager和Managed Service的数据库

从业务发展需求，大数据平台需要使用spark作为机器学习、数据挖掘、实时计算等工作，所以决定使用Cloudera Manager5.2.0版本和CDH5。以前搭建过Cloudera Manager4.8.2和CDH4，在搭建Cloudera Manager5.2.0版本的时候，发现相应的Service Host Monitor 和 Service Monitor不能配置外部表，刚开是还以为是配置出错，后来才发现应该是新版本的Cloudera的存储改变方式了。查了很多文档，果然发现，新版本中Service

2014-11-14 10:51:15 4010 1

原创 Kafka简要介绍

将之前自己调研的kafka相关的资料分享给你大家，只是简单研究，作为技术选型的前期准备使用，不设计到很深入使用。

2014-11-05 10:15:01 1950

原创大数据平台监控（二）：Ganglia与Nagios的整合

Ganglia的优势在于实时监控集群中的机器的各项指标，比如cpu，内存，磁盘，温度等数据，汇总成成各种图形化界面，并提供接口可供调用数据。而在出现问题的时候报警提示功能，相对较弱。Nagios的优势在于出现问题之时可以提供强大的报警提示功能，但是在实时监控上，功能较弱，即使使用NRPE本地插件也不能提供强大的机器监控。两者结合能有效的解决各种场景.

2014-10-31 17:29:01 9067 2

原创大数据平台监控（一）：Ganglia在集群中快速安装方案

Ganglia是UC Berkeley发起的一个开源集群监视项目，设计用于测量数以千计的节点。Ganglia的核心包含gmond、gmetad以及一个Web前端。主要是用来监控系统性能，如：cpu、mem、硬盘利用率，I/O负载、网络流量情况等，通过曲线很容易见到每个节点的工作状态，对合理调整、分配系统资源，提高系统整体性能起到重要作用。利用ganglia监控整个大数据平台，可以显著的提高平台的运维效率。

2014-10-29 15:55:30 4757

原创自学大数据：CDH和Cloudera Express的介绍

ＣＤＨ和Cloudera Express的介绍CDH的介绍：CDH首先是100%开源，基于Apache协议。基于Apache Hadoop和相关projiect开发。可以做批量处理，交互式sql查询和及时查询，基于角色的权限控制。在企业中使用最广的Hadoop分发版本。官网链接：http://www.cloudera.co

2014-10-23 10:49:16 10989 1

原创自学大数据：用以生产环境的Hadoop版本比较

Hadoop版本的选择生产环境中，hadoop的版本选择是一个公司架构之时，很重要的一个考虑因素。这篇文章根据就谈谈现在主流的hadoop版本的比较。如果有不同意见，或者指正，希望大家能交流。

2014-10-22 14:31:45 4406 2

翻译强大的大数据全文索引解决方案-ClouderaSearch

介绍ClouderaSearch带来了全文索引，实时查询和针对CDH和你的企业级数据中心的扩展、灵活性的索引服务。由Apache Hadoop和Apache Solr提供，是企业级的开源搜索。Cloudera Search带来了扩展性和可靠性的新一代集成，多个工作任务的搜索。通过它与CDH独特的整合，Cloudera Search获得了同样的容错性，扩展性，可见性，安全性，以及灵活性的提供其他

2014-10-15 10:05:08 2573

原创安装solr在tomcat服务器下

在linux下以下三步是必须的：1、java1.7以上的版本2、在Solr 的lib/ext目录下的jar包（比如在/opt/solr/example/lib/ext）必须拷贝到$CATALINA_HOME/lib/目录下3、资源文件log4j.properties（比如在/opt/solr/example/resource）必须拷贝到$CATALINA_HOME/lib/目录下

2014-10-09 16:55:02 1209

原创自学大数据：基于Solr实现HBase的文本索引

使用目的：HBase目前只支持对rowkey的一级索引，对于二级索引还不支持，当然可以把所有要索引的字段都拼接到rowkey中，根据hbase的filter功能进行查询，但是这样操作数据会涉及到全表扫描，效率很低，速度慢，不利于后期扩展。并且，通过HBase自己的索引，实现数据量统计，分页，中文索引几乎不可能。所以，基于solr为HBase创建索引，就显得更有价值。

2014-10-09 13:47:32 3687

原创自学大数据：Hive基于搜狗搜索的用户日志行为分析

每天很多都听到很多关于wome

2014-08-29 14:58:06 6417 1

原创基于eclipse开发hadoop2中的MapReduce

开发在windows下开发，通过eclipse连接到hadoop集群，并且远程运行参考代码为wordcount代码调试直接运行，我测试MRunit测试开发异常解决1、Exception in thread "main" java.lang.UnsatisfiedL

2014-08-15 14:27:45 1009

转载 Hive实战之日志分析

http://www.csdn.net/article/2010-11-28/282620一、场景介绍本文主要讲述使用 hive 的实践，业务不是关键，简要介绍业务场景，本次的任务是对搜索日志数据进行统计分析。集团搜索刚上线不久，日志量并不大。这些日志分布在 5 台前端机，按小时保存，并以小时为周期定时将上一小时产生的数据同步到日志分析机，统计数据要求按小时更新。这些统计

2014-08-15 14:22:23 2171

转载 Hive学习的思维导图

觉得别人总结得很好就zhuai

2014-08-15 14:20:00 1972

转载 pig学习笔记

Pig是一种探索大规模数据集的脚本语言。pig是在HDFS和MapReduce之上的数据流处理语言，它将数据流处理翻译成多个map和reduce函数，提供更高层次的抽象将程序员从具体的编程中解放出来。 Pig包括两部分：用于描述数据流的语言，称为Pig Latin；和用于运行Pig Latin程序的执行环境。 Pig Latin程序有一系列的op

2014-08-15 14:16:42 3564

转载 scala语言学习笔记

简介可伸缩的语言是一种多范式的编程语言，一种类似java的编程，设计初衷是要集成面向对象编程和函数式编程的各种特性。 Scala是在JVM上运行。 Scala的特点* 面向对象风格* 函数式风格* 更高层的并发模型Scala把Erlang风格的基于actor的并发带进了JVM。开发者现在可以利用Scala的actor模型在JV

2014-08-15 14:13:10 1085

转载 Spark扫盲

Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架，Spark基于map reduce算法实现的分布式计算，拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是Job中间输出和结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的map reduce的算

2014-08-15 14:07:54 2398

原创 Flume学习的思维导图

自己整理的flume学习思维导图，由于时间jincu

2014-08-15 14:04:18 1434

原创 Flume学习笔记

参考资料中文资料，log资料格式化，sink自定义http://blog.csdn.net/rjhymApache User Guidehttps://flume.apache.org/FlumeUserGuide.html基于cloudera的安装https://www.cloudera.com/content/cloudera-conte

2014-08-15 14:03:22 1394

原创 Oozie的学习笔记

介绍在Hadoop中执行的任务有时候需要把多个Map/Reduce作业连接到一起，这样才能够达到目的。[1]在Hadoop生态圈中，有一种相对比较新的组件叫做Oozie[2]，它让我们可以把多个Map/Reduce作业组合到一个逻辑工作单元中，从而完成更大型的任务。本文中，我们会向你介绍Oozie以及使用它的一些方式。　　什么是Oozie?　　Oozie是一种Java W

2014-08-15 13:42:13 939

原创 hadoop中 Incompatible namespaceID for journal Storage Directory 异常的处理方法

异常1、org.apache.hadoop.hdfs.qjournal.client.QuorumException: Got too many exceptions to achieve quorum size 2/3. 3 exceptions thrown:192.168.7.13:8485: Incompatible namespaceID for journal Storag

2014-08-15 13:40:04 6758

转载 hadoop能用到的系统端口

hadoop系统部署时用到不少端口。有的是Web UI所使用的，有的是内部通信所使用的，有的是监控所使用的。实际系统中可能用于防火墙的端口设计。一些内部通信用的端口可能也需要外部能访问。如两个集群的数据对拷。1.系统8080，80 用于tomcat和apache的端口。22 ssh的端口2.Web UI用于访问和监控Hadoop系统运行状态Dae

2014-08-15 13:36:50 1635

原创 Maven环境的搭建

公司使用的是maven搭建的项目环境，所以maven接触的较多。避免以后忘了这方面的知识，所以记下来，也供大家参考。第一部分：安装maven1、下载。登陆maven官网 http://maven.apache.org/download.html 选择想要下载的版本，目

2011-09-19 15:43:58 629