reylee911-CSDN博客

原创 Flume 与 kafka 配置和使用

1，使用版本如下：flume-1.7.0kafka-2.11.0zookeeper-3. 4.92, 配置flume, 源数据基于日志文件内容检测， sink为 kafka 的producer, 配置文件如下：a1.sources = r1a1.sinks = k1a1.channels = c1# Describe/configure the so

2016-11-30 17:20:58 696

原创 Zookeeper客户端不能启动问题

1，安装完zookeeper后运行客户端：root@MASTER opt]# zkCli.sh -server SLAVE:2181Connecting to SLAVE:21812016-11-10 11:15:10,274 [myid:] - INFO [main:Environment@100] - Client environment:zookeeper.versi

2016-11-10 14:39:34 21073

原创 HBASE 安装后 hbase shell 启动失败问题

1，安装HBASE，　并且启动成功[root@MASTER opt]# jps21920 SecondaryNameNode2273 HMaster21441 NameNode5490 ResourceManager1844 QuorumPeerMain2501 HRegionServer21653 DataNode3532 Jps22236 No

2016-11-10 14:32:26 12320

原创 Hive2.1.0安装配置mysql

1. 设置Hive环境变量export JAVA_HOME=/usr/java/jdk1.8.0_111export JRE_HOME=/usr/java/jdk1.8.0_111/jreexport CLASSPATH=/usr/java/jdk1.8.0_111/libexport HADOOP_HOME=/root/cluster/opt/hadoop-2.6.0expo

2016-11-08 17:05:28 571

原创 hadoop 2.6 环境搭建

一、环境说明1、机器：一台物理机(MASTER)和一台虚拟机(SLAVE)2、集群节点：两个 MASTER(Master）, SLAVE(Slave)MASTER 10.12.2.182SLAVE 10.12.2.903, 设置主机名称1)Vi /etc/sysconfig/networkNETWORKING=yesHOSTNAME=MASTER2) vi

2016-11-04 16:43:03 295

原创如何解决误修改/etc/passwd 的root根目录，导致无法进入root根目录的问题

最近想修改root的默认根目录从/home/rli 到 /root, 打开/etc/passwd，找到root用户行修改。但当用 su root 时，却发现根目录有问题，导致crash, 现在无法使用root权限了：（经过查看相关的文档，发现可以先把/etc/passwd 文档 copy到另外一台主机上(scp)，然后再修改回原先的根路径，最后copy到当前主机

2016-11-03 10:33:52 5229

原创 ssh免密码登录问题分析

环境说明：一台linux虚拟机和一台linux PC1，配置机器虚拟机hostname#hostname rli_vb查看：#hostnamerli_vb命名成功。2，添加hosts:添加10.12.2.90 rli_vb10.12.2.182 rli_linux到 /etc/h

2016-11-02 17:46:57 272

转载 Hadoop时代的大数据架构

后Hadoop时代的大数据架构提到大数据分析平台，不得不说Hadoop系统，Hadoop到现在也超过10年的历史了，很多东西发生了变化，版本也从0.x进化到目前的2.6版本。我把2012年后定义成后Hadoop平台时代，这不是说不用Hadoop，而是像NoSQL （Not Only SQL）那样，有其他的选型补充。提到大数据分析平台，不得不说Hadoop系统，Had

2016-11-01 16:49:11 580

转载 Hadoop 生态系统

1. hadoop 生态概况Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力进行高速运算和存储。具有可靠、高效、可伸缩的特点。Hadoop的核心是YARN,HDFS和Mapreduce下图是hadoop生态系统，集成spark生态圈。在未来一段时间内，hadoop将于

2016-11-01 11:19:36 470

转载 hadoop1.x 与hadoop2.x 架构变化分析

Hadoop2相比较于Hadoop1.x来说，HDFS的架构与MapReduce的都有较大的变化，且速度上和可用性上都有了很大的提高，Hadoop2中有两个重要的变更：（1）HDFS的NameNode可以以集群的方式布署，增强了NameNodes的水平扩展能力和高可用性，分别是:HDFSFederation与HA；（2）MapReduce将JobTracker中的资源管理及任务生命周期管理

2016-11-01 10:15:11 3552

转载 Protocol Buffers, Avro, Thrift，MessagePack区别

Perhaps one of the first inescapable observations that a newGoogle developer (Noogler) makes once they dive into the code is that ProtocolBuffers (PB) is the "language of data" at Google. Put simply,P

2015-06-26 10:43:58 1116

原创基于Yarn运行spark应用的进程分析

首先配置HADOOP_CONF_DIR或者YARN_CONF_DIR指向hadoop集群，从而可以调用Yarn的资源管理器。两种模式：1，Yarn-client：Spark driver运行在client进程中，只是利用AM(applicationMaster)向Yarn的资源管理模块申请资源。运行此种模式只需指定参数yarn-client即可，例如：[root@l

2015-06-05 15:58:11 1923

转载关于dos-formatted/unix-formatted 文件转换

Convert DOS-Formatted Files to Unix-Format in Ubuntu and CentOSHave you ever seen a bunch of ^M characters in a text file? This odd character at the end of a line can also be represented as

2015-06-04 11:07:35 730

原创 sqoop入门实践

Sqoop是一款开源的工具，主要用于在hadoop与传统的数据库(mysql,oracle等)间进行数据的传递，可以将一个关系型数据库（MySQL ,Oracle 等）中的数据导进到Hadoop的HDFS中，也可以将HDFS的数据导进到关系型数据库中。测试环境：Hadoop + hive (linux) + mysql(windows) 测试用例1，把mysql上user_

2015-06-03 21:10:41 482

翻译 spark与hadoop集成详解

我们经常被问到如何让spark集成到hadoop生态系统中，如何让spark在现有的hadoop集群中运行，本文的目的就是来回答上述问题。1，spark主要用于提高而不是取代hadoop栈，从一开始spark就被设计从hdfs中读取存储数据，类似于其他的存储系统，例如Hbase, Amazon S3等，因此，hadoop用户可以通过结合spark来提高hadoop MR, Hbase 及其他大

2015-06-03 15:08:02 5125 1

翻译 spark安装和试用入门

1, 下载spark版本:git clone git://github.com/apache/spark.git -b branch-1.32, 编译spark: mvn -DskipTests cleanpackage3，使用spark(python环境下）pyspark基于README.cmd 生成RDD:>>> textFile= sc.t

2015-06-02 16:00:41 627

翻译 Spark特性分析

Spark是快速轻量级大规模数据处理引擎优势：1，与hadoop mapReduce相比，内存中处理速度100倍以上，磁盘中10倍以上。2，简单易用，快速编写java,scala或者python应用来处理。3，通用性强，可以把SQL,streaming和复杂分析结合起来使用。4，应用广泛，能运行在hadoop，mesos或者云中，可以获取多样性的数据源，例如hdfs,C

2015-06-02 13:47:25 636

原创 Hive数据挖掘实战教程

Hive 提供类SQL接口处理HDFS上数据，同时提供基于hadoop数据库访问，从而降低程序员的工作强度，省去了map/reduce的编程时间，为快速大数据分析提供了很好手段，下面是基于Hive数据分析一个实例。1，环境配置：Hadoop 2.6 + hive + mysql (linux)搭建步骤可参考相关文档，此处略去。2，数据源文件获取（仅作参考）：http

2015-05-27 21:27:50 3448

原创基于mysql的hive表项存储实例分析

Hive存储是基于hadoop hdfs文件系统的，通过默认内嵌的Derby 数据库或外部数据库系统（如mysql)组织元数据访问，下面就通过实际案例描述其存储过程。 1，在hive 中创建表，然后把外部csv文件导入其中（外部文件为Batting.csv, 内部表为temp_batting):hive>create table temp_batting (col_value STR

2015-05-27 20:30:51 496

reylee的博客