2 hei bai ying

尚未进行身份认证

暂无相关描述

等级
TA的排名 3w+

Spark 系列(一)—— Spark简介

Spark简介一、简介Spark于2009年诞生于加州大学伯克利分校AMPLab,2013年被捐赠给Apache软件基金会,2014年2月成为Apache的顶级项目。相对于MapReduce的批处理计算,Spark可以带来上百倍的性能提升,因此它成为继MapReduce之后,最为广泛使用的分布式计算框架。二、特点ApacheSpark具有以下特点:使用先进的DAG调度程序,查询优化器...

2019-07-19 07:38:33

Spark 系列(三)—— 弹性式数据集RDDs

一、RDD简介RDD全称为ResilientDistributedDatasets,是Spark最基本的数据抽象,它是只读的、分区记录的集合,支持并行操作,可以由外部数据集或其他RDD转换而来,它具有以下特性:一个RDD由一个或者多个分区(Partitions)组成。对于RDD来说,每个分区会被一个计算任务所处理,用户可以在创建RDD时指定其分区个数,如果没有指定,则默认采用程序所分配到...

2019-07-19 07:37:49

Spark 系列(二)—— Spark开发环境搭建

一、安装Spark1.1下载并解压官方下载地址:http://spark.apache.org/downloads.html,选择Spark版本和对应的Hadoop版本后再下载:解压安装包:#tar-zxvfspark-2.2.3-bin-hadoop2.6.tgz1.2配置环境变量#vim/etc/profile添加环境变量:exportSPARK_...

2019-07-19 07:37:22

大数据学习路线

一、大数据处理流程上图是一个简化的大数据处理流程图,大数据处理的主要流程包括数据收集、数据存储、数据处理、数据应用等主要环节。下面我们逐一对各个环节所需要的技术栈进行讲解:1.1数据收集大数据处理的第一步是数据的收集。现在的中大型项目通常采用微服务架构进行分布式部署,所以数据的采集需要在多台服务器上进行,且采集过程不能影响正常业务的开展。基于这种需求,就衍生了多种日志收集工具,如Flu...

2019-07-05 07:22:08

Hive —— 安装部署

一、安装Hive1.1下载并解压下载所需版本的Hive,这里我下载版本为cdh5.15.2。下载地址:http://archive.cloudera.com/cdh5/cdh/5/#下载后进行解压tar-zxvfhive-1.1.0-cdh5.15.2.tar.gz1.2配置环境变量#vim/etc/profile添加环境变量:exportHIVE_HOME=...

2019-06-10 13:46:55

Kafka —— 基于 ZooKeeper 搭建 Kafka 高可用集群

一、Zookeeper集群搭建为保证集群高可用,Zookeeper集群的节点数最好是奇数,最少有三个节点,所以这里搭建一个三个节点的集群。1.1下载&解压下载对应版本Zookeeper,这里我下载的版本3.4.14。官方下载地址:https://archive.apache.org/dist/zookeeper/#下载wgethttps://archive.apache...

2019-06-10 13:30:48

ZooKeeper —— 单机环境和集群环境搭建

一、单机环境搭建1.1下载下载对应版本Zookeeper,这里我下载的版本3.4.14。官方下载地址:https://archive.apache.org/dist/zookeeper/#wgethttps://archive.apache.org/dist/zookeeper/zookeeper-3.4.14/zookeeper-3.4.14.tar.gz1.2解压#tar...

2019-06-10 13:30:39

Flume —— 安装部署

一、前置条件Flume需要依赖JDK1.8+,JDK安装方式见本仓库:Linux环境下JDK安装二、安装步骤2.1下载并解压下载所需版本的Flume,这里我下载的是CDH版本的Flume。下载地址为:http://archive.cloudera.com/cdh5/cdh/5/#下载后进行解压tar-zxvfflume-ng-1.6.0-cdh5.15.2.tar....

2019-06-10 13:30:26

Azkaban —— 编译及部署

一、Azkaban源码编译1.1下载并解压Azkaban在3.0版本之后就不提供对应的安装包,需要自己下载源码进行编译。下载所需版本的源码,Azkaban的源码托管在GitHub上,地址为https://github.com/azkaban/azkaban。可以使用gitclone的方式获取源码,也可以使用wget直接下载对应release版本的tar.gz文件,这里我采用第二种方...

2019-06-10 13:30:18

Spark —— 高可用集群搭建

一、集群规划这里搭建一个3节点的Spark集群,其中三台主机上均部署Worker服务。同时为了保证高可用,除了在hadoop001上部署主Master服务外,还在hadoop002和hadoop003上分别部署备用的Master服务,Master服务由Zookeeper集群进行协调管理,如果主Master不可用,则备用Master会成为新的主Master。二、前置条件搭建Spark集群...

2019-06-10 13:30:04

Storm —— 集群环境搭建

一、集群规划这里搭建一个3节点的Storm集群:三台主机上均部署Supervisor和LogViewer服务。同时为了保证高可用,除了在hadoop001上部署主Nimbus服务外,还在hadoop002上部署备用的Nimbus服务。Nimbus服务由Zookeeper集群进行协调管理,如果主Nimbus不可用,则备用Nimbus会成为新的主Nimbus。二、前置条件Storm运行依...

2019-06-10 13:29:51

Storm —— 单机环境搭建

1.安装环境要求youneedtoinstallStorm’sdependenciesonNimbusandtheworkermachines.Theseare:Java7+(ApacheStorm1.xistestedthroughtravisciagainstbothjava7andjava8JDKs)Python2.6...

2019-06-10 13:29:44

HBase —— 集群环境搭建

一、集群规划这里搭建一个3节点的HBase集群,其中三台主机上均为ReginServer。同时为了保证高可用,除了在hadoop001上部署主Master服务外,还在hadoop002上部署备用的Master服务。Master服务由Zookeeper集群进行协调管理,如果主Master不可用,则备用Master会成为新的主Master。二、前置条件HBase的运行需要依赖Hadoop...

2019-06-10 13:29:35

HBase —— 单机环境搭建

一、安装前置条件说明1.1JDK版本说明HBase需要依赖JDK环境,同时HBase2.0+以上版本不再支持JDK1.7,需要安装JDK1.8+。JDK安装方式见本仓库:Linux环境下JDK安装1.2Standalone模式和伪集群模式的区别在Standalone模式下,所有守护进程都运行在一个jvm进程/实例中;在伪分布模式下,HBase仍然在单个主机上运...

2019-06-10 13:29:27

基于 ZooKeeper 搭建 Hadoop 高可用集群

一、高可用简介Hadoop高可用(HighAvailability)分为HDFS高可用和YARN高可用,两者的实现基本类似,但HDFSNameNode对数据存储及其一致性的要求比YARNResourceManger高得多,所以它的实现也更加复杂,故下面先进行讲解:1.1高可用整体架构HDFS高可用架构如下:图片引用自:https://www.edur...

2019-06-10 13:29:05

Hadoop —— 集群环境搭建

一、集群规划这里搭建一个3节点的Hadoop集群,其中三台主机均部署DataNode和NodeManager服务,但只有hadoop001上部署NameNode和ResourceManager服务。二、前置条件Hadoop的运行依赖JDK,需要预先安装。其安装步骤单独整理至:Linux下JDK的安装三、配置免密登录3.1生成密匙在每台主机上使用ssh-keygen命令生成...

2019-06-10 13:28:52

Hadoop —— 单机环境搭建

一、前置条件Hadoop的运行依赖JDK,需要预先安装,安装步骤见:Linux下JDK的安装二、配置免密登录Hadoop组件之间需要基于SSH进行通讯。2.1配置映射配置ip地址和主机名映射:vim/etc/hosts#文件末尾增加192.168.43.202hadoop0012.2生成公私钥执行下面命令行生成公匙和私匙:ssh-keygen-trs...

2019-06-10 13:28:35

Scala 系列(十三)—— 隐式转换和隐式参数

一、隐式转换1.1使用隐式转换隐式转换指的是以implicit关键字声明带有单个参数的转换函数,它将值从一种类型转换为另一种类型,以便使用之前类型所没有的功能。示例如下://普通人classPerson(valname:String)//雷神classThor(valname:String){//正常情况下只有雷神才能举起雷神之锤defhammer...

2019-06-08 08:56:08

Scala 系列(十二)—— 类型参数

一、泛型Scala支持类型参数化,使得我们能够编写泛型程序。1.1泛型类Java中使用<>符号来包含定义的类型参数,Scala则使用[]。classPair[T,S](valfirst:T,valsecond:S){overridedeftoString:String=first+":"+second}objectScalaAp...

2019-06-08 08:56:04

Scala 系列(十一)—— 模式匹配

一、模式匹配Scala支持模式匹配机制,可以代替swith语句、执行类型检查、以及支持析构表达式等。1.1更好的swithScala不支持swith,可以使用模式匹配match...case语法代替。但是match语句与Java中的switch有以下三点不同:Scala中的case语句支持任何类型;而Java中case语句仅支持整型、枚举和字符串常量;Scala中每个分支语句后面不需...

2019-06-08 08:56:00

查看更多

勋章 我的勋章
  • 专栏达人
    专栏达人
    授予成功创建个人博客专栏的用户。专栏中添加五篇以上博文即可点亮!撰写博客专栏浓缩技术精华,专栏达人就是你!
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv4
    勤写标兵Lv4
    授予每个自然周发布9篇以上(包括9篇)原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。