自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Huidoo_Yang

博主博客园主页链接:http://www.cnblogs.com/yangp

  • 博客(11)
  • 收藏
  • 关注

原创 RDD概念、特性、缓存策略与容错

一、RDD概念与特性1. RDD的概念  RDD(Resilient Distributed Dataset),是指弹性分布式数据集。数据集:Spark中的编程是基于RDD的,将原始数据加载到内存变成RDD,RDD再经过若干次转化,仍为RDD。分布式:读数据一般都是从分布式系统中去读,如hdfs、kafka等,所以原始文件存在磁盘是分布式的,spark加载完数据的RD...

2018-04-01 15:45:41 974

原创 [ETL] Flume 理论与demo(Taildir Source & Hdfs Sink)

一、Flume简介1. Flume概述  Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。2. Flume系统功能日志收集  Flume最早是Cloudera提供的日志收集系统,目前是Apa...

2018-03-20 20:51:13 494

原创 Scala编程快速入门系列(二)

目    录一、Scala概述二、Scala数据类型三、Scala函数四、Scala集合五、Scala伴生对象六、Scala trait七、Actor八、隐式转换与隐式参数九、Scala JDBC由于整理的篇幅较长,所以文章计划分三次发布。第一部分的内容请转至系列(一)。四、Scala集合1. Scala集合概述  Scala对集合的操作就是...

2018-03-17 14:01:22 473

原创 Scala编程快速入门系列(一)

目    录一、Scala概述二、Scala数据类型三、Scala函数四、Scala集合五、Scala伴生对象六、Scala trait七、Actor八、隐式转换与隐式参数九、Scala JDBC由于整理的篇幅较长,所以文章计划分三次发布。一、Scala概述1. Scala简介  Scala是一种针对JVM将函数和面向对象技术组合在一起的编程...

2018-03-16 07:07:55 4547 1

原创 快速掌握Shell编程

本文旨在使读者能快速掌握Shell编程的基本技术,从Shell编程的概述,变量,输出重定向进行了详细的讲解。并且介绍了Shell脚本的编写方法,条件判断、算术运算符、文件与字符串测试和循环语句等。

2018-03-12 13:52:58 528

原创 Apache Hive 基本理论与安装指南

一、Hive的基本理论  Hive是在HDFS之上的架构,Hive中含有其自身的组件,解释器、编译器、执行器、优化器。解释器用于对脚本进行解释,编译器是对高级语言代码进行编译,执行器是对java代码的执行,优化器是在执行过程中进行优化。这里的代码就是Hadoop中的MapReduce,这里的MapReduce通过Hive往HDFS上执行、分析、查询数据。   上图展示hql的执行...

2018-03-11 23:30:58 361

原创 awk使用方法与案例介绍

一、awk简介  awk是一个强大的文本分析工具,相对于grep的查找,sed的编辑,awk在其对数据分析并生成报告时,显得尤为强大。简单来说awk就是把文件逐行的读入,以空格为默认分隔符将每行切片,切开的部分再进行各种分析处理。  awk有3个不同版本:awk、nawk和gawk,未作特别说明,一般指gawk,gawk 是 AWK 的 GNU 版本。  awk其名称得自于它的创始人 Alf...

2018-03-11 23:27:10 373

原创 使用阿里云主机离线部署CDH步骤详解

一、Linux文件系统准备1. 拍摄快照        登录阿里云控制台,拍摄快照,注意有几个关键点尽量拍摄快照,系统初始状态、CM环境准备完成、CM安装完成、CDH安装完成。2. 挂载设备         三个主机都执行。创建挂载目录$mkdir /data查看设备$df ...

2018-03-11 23:23:13 645

原创 yum源配置的三种方法

(一)yum源概述  yum需要一个yum库,也就是yum源。默认情况下,CentOS就有一个yum源。在/etc/yum.repos.d/目录下有一些默认的配置文件(可以将这些文件移到/opt下,或者直接在yum.repos.d/下重命名)。  首先要找一个yum库(源),然后确保本地有一个客户端(yum这个命令就是客户端),由yum程序去连接服务器。连接的方式是由配置文件决定的。通过编辑/...

2018-03-11 22:46:08 407

原创 Linux下用户和组管理

  用户与组之间的关系是,组下面有若干个用户,每个用户必须从属于唯一一个组。组可以理解为权限的集合。用户管理的命令有:useradd, userdel, usermod, passwd, chsh, chfn, finger, id, chage。组管理的命令有:groupadd, groupdel, groupmod, gpasswd。(一)linux系统下用户角色  在linux系统下用户...

2018-03-11 22:32:28 390

原创 Hive 编程之DDL、DML、UDF、Select总结

  Hive的基本理论与安装可参看作者上一篇博文《Apache Hive 基本理论与安装指南》。一、Hive命令行  所有的hive命令都可以通过hive命令行去执行,hive命令行中仍有许多选项。使用$hive -H查看:  -e 选项后面可以直接接一个hql语句,不用进入到hive命令行用户接口再输入hql语句。  -f 选项后面接一个hql语句的文件。  -i 选项在hql语句执...

2018-03-11 15:23:35 720

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除