自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(19)
  • 收藏
  • 关注

原创 Flume 与 kafka 配置和使用

1, 使用版本如下:flume-1.7.0kafka-2.11.0zookeeper-3. 4.92, 配置flume, 源数据基于 日志文件内容检测, sink为 kafka 的producer, 配置文件如下:a1.sources = r1a1.sinks = k1a1.channels = c1# Describe/configure the so

2016-11-30 17:20:58 696

原创 Zookeeper客户端不能启动问题

1, 安装完zookeeper后运行客户端:root@MASTER opt]# zkCli.sh -server SLAVE:2181Connecting to SLAVE:21812016-11-10 11:15:10,274 [myid:] - INFO  [main:Environment@100] - Client environment:zookeeper.versi

2016-11-10 14:39:34 21073

原创 HBASE 安装后 hbase shell 启动失败问题

1, 安装HBASE, 并且启动成功[root@MASTER opt]# jps21920 SecondaryNameNode2273 HMaster21441 NameNode5490 ResourceManager1844 QuorumPeerMain2501 HRegionServer21653 DataNode3532 Jps22236 No

2016-11-10 14:32:26 12320

原创 Hive2.1.0安装配置mysql

1. 设置Hive环境变量export JAVA_HOME=/usr/java/jdk1.8.0_111export JRE_HOME=/usr/java/jdk1.8.0_111/jreexport CLASSPATH=/usr/java/jdk1.8.0_111/libexport HADOOP_HOME=/root/cluster/opt/hadoop-2.6.0expo

2016-11-08 17:05:28 571

原创 hadoop 2.6 环境搭建

一、环境说明1、机器:一台物理机(MASTER)和一台虚拟机(SLAVE)2、集群节点:两个 MASTER(Master), SLAVE(Slave)MASTER 10.12.2.182SLAVE 10.12.2.903, 设置主机名称1)Vi /etc/sysconfig/networkNETWORKING=yesHOSTNAME=MASTER2) vi

2016-11-04 16:43:03 295

原创 如何解决误修改/etc/passwd 的root根目录,导致无法进入root根目录的问题

最近想修改root的默认根目录从/home/rli 到 /root,  打开/etc/passwd, 找到root用户行修改。但当用 su root 时, 却发现根目录有问题,导致crash, 现在无法使用root权限了:(经过查看相关的文档, 发现可以先把/etc/passwd 文档 copy到另外一台主机上(scp), 然后再修改回原先的根路径, 最后copy到当前主机

2016-11-03 10:33:52 5229

原创 ssh免密码登录问题分析

环境说明:一台linux虚拟机和一台linux PC1, 配置机器 虚拟机hostname#hostname  rli_vb查看:#hostnamerli_vb命名成功。2, 添加hosts:添加10.12.2.90 rli_vb10.12.2.182 rli_linux到 /etc/h

2016-11-02 17:46:57 272

转载 Hadoop时代的大数据架构

后Hadoop时代的大数据架构提到大数据分析平台,不得不说Hadoop系统,Hadoop到现在也超过10年的历史了,很多东西发生了变化,版本也从0.x进化到目前的2.6版本。我把2012年后定义成后Hadoop平台时代,这不是说不用Hadoop,而是像NoSQL (Not Only SQL)那样,有其他的选型补充。提到大数据分析平台,不得不说Hadoop系统,Had

2016-11-01 16:49:11 580

转载 Hadoop 生态系统

1. hadoop 生态概况Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。具有可靠、高效、可伸缩的特点。Hadoop的核心是YARN,HDFS和Mapreduce下图是hadoop生态系统,集成spark生态圈。在未来一段时间内,hadoop将于

2016-11-01 11:19:36 470

转载 hadoop1.x 与hadoop2.x 架构变化分析

Hadoop2相比较于Hadoop1.x来说,HDFS的架构与MapReduce的都有较大的变化,且速度上和可用性上都有了很大的提高,Hadoop2中有两个重要的变更:(1)HDFS的NameNode可以以集群的方式布署,增强了NameNodes的水平扩展能力和高可用性,分别是:HDFSFederation与HA;(2)MapReduce将JobTracker中的资源管理及任务生命周期管理

2016-11-01 10:15:11 3552

转载 Protocol Buffers, Avro, Thrift,MessagePack区别

Perhaps one of the first inescapable observations that a newGoogle developer (Noogler) makes once they dive into the code is that ProtocolBuffers (PB) is the "language of data" at Google. Put simply,P

2015-06-26 10:43:58 1116

原创 基于Yarn运行spark应用的进程分析

首先配置HADOOP_CONF_DIR或者YARN_CONF_DIR指向hadoop集群,从而可以调用Yarn的资源管理器。两种模式:1,Yarn-client:Spark driver运行在client进程中,只是利用AM(applicationMaster)向Yarn的资源管理模块申请资源。运行此种模式只需指定参数yarn-client即可,例如:[root@l

2015-06-05 15:58:11 1923

转载 关于dos-formatted/unix-formatted 文件转换

Convert DOS-Formatted Files to Unix-Format in Ubuntu and CentOSHave you ever seen a bunch of ^M characters in a text file? This odd character at the end of a line can also be represented as

2015-06-04 11:07:35 730

原创 sqoop入门实践

Sqoop是一款开源的工具,主要用于在hadoop与传统的数据库(mysql,oracle等)间进行数据的传递,可以将一个关系型数据库(MySQL ,Oracle 等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。测试环境:Hadoop + hive (linux) + mysql(windows) 测试用例1,  把mysql上user_

2015-06-03 21:10:41 482

翻译 spark与hadoop集成详解

我们经常被问到如何让spark集成到hadoop生态系统中,如何让spark在现有的hadoop集群中运行,本文的目的就是来回答上述问题。1,spark主要用于提高而不是取代hadoop栈,从一开始spark就被设计从hdfs中读取存储数据,类似于其他的存储系统,例如Hbase, Amazon S3等,因此,hadoop用户可以通过结合spark来提高hadoop MR, Hbase 及其他大

2015-06-03 15:08:02 5125 1

翻译 spark安装和试用入门

1, 下载spark版本:git clone git://github.com/apache/spark.git -b branch-1.32, 编译spark: mvn -DskipTests cleanpackage3,使用spark(python环境下)pyspark基于README.cmd 生成RDD:>>> textFile= sc.t

2015-06-02 16:00:41 627

翻译 Spark特性分析

Spark是快速轻量级大规模数据处理引擎优势:1, 与hadoop mapReduce相比,内存中处理速度100倍以上,磁盘中10倍以上。2, 简单易用,快速编写java,scala或者python应用来处理。3, 通用性强,可以把SQL,streaming和复杂分析结合起来使用。4, 应用广泛,能运行在hadoop,mesos或者云中,可以获取多样性的数据源,例如hdfs,C

2015-06-02 13:47:25 636

原创 Hive数据挖掘实战教程

Hive 提供类SQL接口处理HDFS上数据,同时提供基于hadoop数据库访问,从而降低程序员的工作强度,省去了map/reduce的编程时间,为快速大数据分析提供了很好手段,下面是基于Hive数据分析一个实例。1, 环境配置:Hadoop 2.6 + hive + mysql (linux)搭建步骤可参考相关文档,此处略去。2, 数据源文件获取(仅作参考):http

2015-05-27 21:27:50 3448

原创 基于mysql的hive表项存储实例分析

Hive存储是基于hadoop hdfs文件系统的,通过默认内嵌的Derby 数据库或外部数据库系统(如mysql)组织元数据访问,下面就通过实际案例描述其存储过程。 1, 在hive 中创建表,然后把外部csv文件导入其中(外部文件为Batting.csv, 内部表为temp_batting):hive>create table temp_batting (col_value STR

2015-05-27 20:30:51 496

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除