自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

  • 博客(31)
  • 资源 (1)
  • 收藏
  • 关注

原创 ORM-HBASE 一个轻量级映射框架

基于hbase使用复杂原因,所以我有了想写一个类似于hibernate那种对象关系映射框架(ORM)的想法,像操作对象一样方便的操作HBase数据库,但是它要是轻量级的,无侵入的,只提供简单的CURD、分页、映射功能的一个基础功能。

2016-03-01 15:04:13 6526 2

原创 Spark MLlib系列(二):基于协同过滤的电影推荐系统

随着大数据时代的到来,数据当中挖取金子的工作越来越有吸引力。利用Spark在内存迭代运算、机器学习领域强悍性能的优势,使用spark处理数据挖掘问题就显得很有实际价值。这篇文章给大家分享一个spark MLlib 的推荐实战例子。我将会分享怎样用spark MLlib做一个电影评分的推荐系统。使用到的算法是user-based协同过滤。如果对Spark MLlib不太了解的,请阅读我的上一篇博客。

2015-02-13 16:36:00 33617 12

原创 Spark MLlib系列(一):入门介绍

还在用mahout吗,matlab,R,你已经out了,快来拥抱真正的分布式机器学习神器--spark machine learning,体验它强大的并发式计算能力,卓越的内存式运算性能,支持众多的算法包,以及scala语言的简洁!

2015-02-12 15:11:26 52129 2

原创 Ambari系列(四):基于Ambari做二次开发(DIY)

Ambari能够搭建、管理Hadoop集群,这是一件很酷的事情,让集群管理变的easy,但是有可能也有自己的一些需求,如果我想基于Ambari做二次开发DIY,修改一下界面,增加一些功能,添加一个模块等等,这些都是没问题,首先Ambari是基于ASF协议,其次,开发也很方便,唯一不足的是官网基于此的开发文档不多。

2015-01-17 10:00:31 10377 3

原创 Ambari系列(三): Ambari架构详解

Hadoop集群的管控一直是一个热门的话题,对于这样的一个应用场景,我所知道国内很早就有人研究并且取得不错的成绩,这就是EasyHadoop。它的功能主要有集群安装,管理,监控等功能,有兴趣的朋友可以百度,这位作者的博客有很详细的介绍。今天,我所要重点介绍的Apache的顶级项目,现在是大数据新贵Hortonworks公司在推进的项目Ambari,这款软件具有集群自动化安装、中心化管理、集群监控、报警等功能,使得安装集群从几天的时间缩短在几小时以内,运维人员从数十人降低到几人以内,极大的提高集群管理的效率。

2015-01-17 09:07:37 13438

转载 常用 Java 静态代码分析工具的分析与比较

引言在 Java 软件开发过程中,开发团队往往要花费大量的时间和精力发现并修改代码缺陷。Java 静态代码分析(static code analysis)工具能够在代码构建过程中帮助开发人员快速、有效的定位代码缺陷并及时纠正这些问题,从而极大地提高软件可靠性并节省软件开发和测试成 本。目前市场上的 Java 静态代码分析工具种类繁多且各有千秋,因此本文将分别介绍现有 4 种主流 Java

2014-12-27 16:38:42 1010

原创 Ambari系列(二):编译安装Ambari

Ambari是目前最优秀的hadoop集群管理工具,并且是ASF下的开源产品。基于Ambari搭建自己的企业集群,或者做二次开发是一个不错的解决思路。编译Ambari是实现您的hadoop集群方案的第一步。

2014-12-27 09:16:04 5776 4

原创 Ambari系列(一):在离线环境中自动化安装Hadoop集群

在企业真实生产环境中,应该是没有外网链接的,或者做了外网隔离,因此在离线环境下搭建集群很有价值。在内网集群中搭建yum服务器,安装ambari和集群,是一种比较好的解决思路。使用ambari在自动化搭建大规模集群,使传统模式下搭建集群的时间又数天到数周缩短到几天或者几小时,彻底提高集群建设效率,有效避免人为错误,并且ambari是ASF开源软件,明显优于cloudera manager等商业软件,是集群搭建的不二选择。

2014-12-09 21:56:06 11782 2

原创 CDH使用秘籍(二):cloudera Manager中监控数据的存储

上一篇文章分析了cloudera manager中监控数据、中心数据的存储方式,怎样配置外部表等。这一篇文章进一步分析监控数据的存储,配置,调优等。

2014-11-19 14:18:28 12869 2

原创 CDH使用秘籍(一):Cloudera Manager和Managed Service的数据库

从业务发展需求,大数据平台需要使用spark作为机器学习、数据挖掘、实时计算等工作,所以决定使用Cloudera Manager5.2.0版本和CDH5。以前搭建过Cloudera Manager4.8.2和CDH4,在搭建Cloudera Manager5.2.0版本的时候,发现相应的Service Host Monitor 和 Service Monitor不能配置外部表,刚开是还以为是配置出错,后来才发现应该是新版本的Cloudera的存储改变方式了。查了很多文档,果然发现,新版本中Service

2014-11-14 10:51:15 4010 1

原创 Kafka简要介绍

将之前自己调研的kafka相关的资料分享给你大家,只是简单研究,作为技术选型的前期准备使用,不设计到很深入使用。

2014-11-05 10:15:01 1950

原创 大数据平台监控(二):Ganglia与Nagios的整合

Ganglia的优势在于实时监控集群中的机器的各项指标,比如cpu,内存,磁盘,温度等数据,汇总成成各种图形化界面,并提供接口可供调用数据。而在出现问题的时候报警提示功能,相对较弱。Nagios的优势在于出现问题之时可以提供强大的报警提示功能,但是在实时监控上,功能较弱,即使使用NRPE本地插件也不能提供强大的机器监控。两者结合能有效的解决各种场景.

2014-10-31 17:29:01 9067 2

原创 大数据平台监控(一):Ganglia在集群中快速安装方案

Ganglia是UC Berkeley发起的一个开源集群监视项目,设计用于测量数以千计的节点。Ganglia的核心包含gmond、gmetad以及一个Web前端。主要是用来监控系统性能,如:cpu、mem、硬盘利用率,I/O负载、网络流量情况等,通过曲线很容易见到每个节点的工作状态,对合理调整、分配系统资源,提高系统整体性能起到重要作用。利用ganglia监控整个大数据平台,可以显著的提高平台的运维效率。

2014-10-29 15:55:30 4757

原创 自学大数据:CDH和Cloudera Express的介绍

CDH和Cloudera Express的介绍CDH的介绍:CDH首先是100%开源,基于Apache协议。基于Apache Hadoop和相关projiect开发。可以做批量处理,交互式sql查询和及时查询,基于角色的权限控制。在企业中使用最广的Hadoop分发版本。官网链接:http://www.cloudera.co

2014-10-23 10:49:16 10989 1

原创 自学大数据:用以生产环境的Hadoop版本比较

Hadoop版本的选择生产环境中,hadoop的版本选择是一个公司架构之时,很重要的一个考虑因素。这篇文章根据就谈谈现在主流的hadoop版本的比较。如果有不同意见,或者指正,希望大家能交流。

2014-10-22 14:31:45 4406 2

翻译 强大的大数据全文索引解决方案-ClouderaSearch

介绍ClouderaSearch带来了全文索引,实时查询和针对CDH和你的企业级数据中心的扩展、灵活性的索引服务。由Apache Hadoop和Apache Solr提供,是企业级的开源搜索。Cloudera Search带来了扩展性和可靠性的新一代集成,多个工作任务的搜索。通过它与CDH独特的整合,Cloudera Search获得了同样的容错性,扩展性,可见性,安全性,以及灵活性的提供其他

2014-10-15 10:05:08 2573

原创 安装solr在tomcat服务器下

在linux下以下三步是必须的:1、java1.7以上的版本2、在Solr 的lib/ext目录下的jar包(比如在/opt/solr/example/lib/ext)必须拷贝到$CATALINA_HOME/lib/目录下3、资源文件log4j.properties(比如在/opt/solr/example/resource)必须拷贝到$CATALINA_HOME/lib/目录下

2014-10-09 16:55:02 1209

原创 自学大数据:基于Solr实现HBase的文本索引

使用目的:HBase目前只支持对rowkey的一级索引,对于二级索引还不支持,当然可以把所有要索引的字段都拼接到rowkey中,根据hbase的filter功能进行查询,但是这样操作数据会涉及到全表扫描,效率很低,速度慢,不利于后期扩展。并且,通过HBase自己的索引,实现数据量统计,分页,中文索引几乎不可能。所以,基于solr为HBase创建索引,就显得更有价值。

2014-10-09 13:47:32 3687

原创 自学大数据:Hive基于搜狗搜索的用户日志行为分析

每天很多都听到很多关于wome

2014-08-29 14:58:06 6417 1

原创 基于eclipse开发hadoop2中的MapReduce

开发在windows下开发,通过eclipse连接到hadoop集群,并且远程运行 参考代码为wordcount代码调试       直接运行,我测试MRunit测试开发异常解决1、Exception in thread "main" java.lang.UnsatisfiedL

2014-08-15 14:27:45 1009

转载 Hive实战之日志分析

http://www.csdn.net/article/2010-11-28/282620一、场景介绍本文主要讲述使用 hive 的实践,业务不是关键,简要介绍业务场景,本次的任务是对搜索日志数据进行统计分析。集团搜索刚上线不久,日志量并不大 。这些日志分布在 5 台前端机,按小时保存,并以小时为周期定时将上一小时产生的数据同步到日志分析机,统计数据要求按小时更新。这些统计

2014-08-15 14:22:23 2171

转载 Hive学习的思维导图

觉得别人总结得很好就zhuai

2014-08-15 14:20:00 1972

转载 pig学习笔记

Pig是一种探索大规模数据集的脚本语言。pig是在HDFS和MapReduce之上的数据流处理语言,它将数据流处理翻译成多个map和reduce函数,提供更高层次的抽象将程序员从具体的编程中解放出来。 Pig包括两部分:用于描述数据流的语言,称为Pig Latin;和用于运行Pig Latin程序的执行环境。 Pig Latin程序有一系列的op

2014-08-15 14:16:42 3564

转载 scala语言学习笔记

简介       可伸缩的语言是一种多范式的编程语言,一种类似java的编程,设计初衷是要集成面向对象编程和函数式编程的各种特性。       Scala是在JVM上运行。  Scala的特点* 面向对象风格* 函数式风格* 更高层的并发模型Scala把Erlang风格的基于actor的并发带进了JVM。开发者现在可以利用Scala的actor模型在JV

2014-08-15 14:13:10 1085

转载 Spark扫盲

Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于map reduce算法实现的分布式计算,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出和结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的map reduce的算

2014-08-15 14:07:54 2398

原创 Flume学习的思维导图

自己整理的flume学习思维导图,由于时间jincu

2014-08-15 14:04:18 1434

原创 Flume学习笔记

参考资料中文资料,log资料格式化,sink自定义http://blog.csdn.net/rjhymApache User Guidehttps://flume.apache.org/FlumeUserGuide.html基于cloudera的安装https://www.cloudera.com/content/cloudera-conte

2014-08-15 14:03:22 1394

原创 Oozie的学习笔记

介绍       在Hadoop中执行的任务有时候需要把多个Map/Reduce作业连接到一起,这样才能够达到目的。[1]在Hadoop生态圈中,有一种相对比较新的组件叫做Oozie[2],它让我们可以把多个Map/Reduce作业组合到一个逻辑工作单元中,从而完成更大型的任务。本文中,我们会向你介绍Oozie以及使用它的一些方式。  什么是Oozie?  Oozie是一种Java W

2014-08-15 13:42:13 939

原创 hadoop中 Incompatible namespaceID for journal Storage Directory 异常的处理方法

异常1、org.apache.hadoop.hdfs.qjournal.client.QuorumException: Got too many exceptions to achieve quorum size 2/3. 3 exceptions thrown:192.168.7.13:8485: Incompatible namespaceID for journal Storag

2014-08-15 13:40:04 6758

转载 hadoop能用到的系统端口

hadoop系统部署时用到不少端口。有的是Web UI所使用的,有的是内部通信所使用的,有的是监控所使用的。实际系统中可能用于防火墙的端口设计。一些内部通信用的端口可能也需要外部能访问。如两个集群的数据对拷。1.系统8080,80 用于tomcat和apache的端口。22 ssh的端口2.Web UI用于访问和监控Hadoop系统运行状态Dae

2014-08-15 13:36:50 1635

原创 Maven环境的搭建

公司使用的是maven搭建的项目环境,所以maven接触的较多。避免以后忘了这方面的知识,所以记下来,也供大家参考。第一部分:安装maven1、下载。登陆maven官网 http://maven.apache.org/download.html 选择想要下载的版本,目

2011-09-19 15:43:58 629

Jquery学习文档

Jquery学习文档,便于理解jQuery中常用的方法,类,事件等。属于较基础内容。

2011-01-10

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除