自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(16)
  • 收藏
  • 关注

原创 Spark 算子 经典习题

数据:班级 ID 姓名 年龄 性别 科目 成绩12 张三 25 男 chinese 5012 张三 25 男 math 6012 张三 25 男 english 7012 李四 20 男 chinese 5012 李四 20 男 math 5012 李四 20 男 english 5012 王芳 19 女 chinese 7012 王芳 19 女 math 7012 王芳 19 女 english 7012 小蔡 19 女 chinese 7012 小蔡 19 女 math 100

2020-08-04 19:51:24 316

原创 Spark combineByKey算子详解

combineByKey:第一个传入的参数不再是初始值,意味着可以对数据的类型发生变化def combineByKey[C](createCombiner: V => C,mergeValue: (C, V) => C,mergeCombiners: (C, C) => C): RDD[(K, C)]createCombiner: 分区内,相同的key的value只执行一次,后续的value,执行mergeValue函数mergeValue:分区内操作函数,相同key的剩余的val

2020-08-02 16:32:58 180

原创 Spark aggregateByKey 算子详解

aggregateByKeydef aggregateByKey[U: ClassTag](zeroValue: U)(seqOp: (U, V) => U,combOp: (U, U) => U): RDD[(K, U)]zeroValue: 初始值,每个分区中,同一种key,只用一次初始值,第一个值和zeroValue的结果,用于对应key的剩余值计算seqOp: 区间内计算,每个分区中,同一种key的value进行操作combOp: 区间之间计算,各个分区得到的结果,与其他分区

2020-08-01 16:29:38 233

原创 Scala模式匹配、样例类

Scala的模式匹配类似于Java中的switch语法,关键字采用match1、case _ 相当于java中的default,如果其他case都不满足,会执行case _2、如果没有匹配到,也没有写case _ ,那么会抛出异常MathError3、=> 等价于java中的 :4、=> 到下一个case之间,作为一个整体执行,可以用{}扩起来,也可以不用5、match支持多个 case _ 但是如果不使用if,那么多个case _ 也没什么意义6、match

2020-07-23 14:14:55 137

原创 MapReduce工作机制

MapReduce工作流程1、InputFormat根据job提供的文件目录,对目录下面的文件进行遍历2、首先遍历第一个文件获取文件的大小获取切片大小       上面的源码就是切片大小的计算公式,blocksize为块的大小;如果job运行在本地,默认块大小是32M;如果job运行在yarn上,hadoop1.x 默认块大小是64M;hadoop2.x 默认块大小是128M。   

2020-07-05 16:35:56 155

原创 FsImage和Edits简单介绍

Fsimage:镜像文件Edits:编辑日志首先,当集群format之后,将在目录(/opt/hadoop/tmp/dfs/name/current)下产生如下内容:(1)Fsimage文件:HDFS文件系统元数据的一个永久性的检查点,其中包含HDFS文件系统的所有目录和文件inode的序列化信息(id、类型、目录、所属用户、用户权限、时间戳……)。(2)Edits文件:存放HDFS文件系统的所有更新操作的路径,文件系统客户端执行的所有写操作首先会被记录到edits文件中。(3)seen_txi

2020-06-29 20:16:58 2040

原创 HDFS读/写数据的流程

HDFS的写数据流程1、客户端Distributed FileSystem模块向NameNode发送请求,请求上传文件/user/atguigu/ss.avi2、NameNode检测是否有目录,文件是否存在;检查完毕后,响应客户端可以上传文件3、一个块是128M,上传的文件为200M;客户端向NameNode请求上传第一个block(0-128m),询问上传到哪个DataNode节点4、NameNode根据客户端和DataNode节点之间的距离和以及DataNode负载情况,返回DataNode节

2020-06-28 23:39:09 278

原创 Linux各个节点的时间同步

时间同步1(一)确认ntp的安装1)确认是否已安装ntp【命令】rpm –qa | grep ntp若只有ntpdate而未见ntp,则需删除原有ntpdate。如:ntpdate-4.2.6p5-22.el7_0.x86_64fontpackages-filesystem-1.44-8.el7.noarchpython-ntplib-0.3.2-1.el7.noarch2)删除已安装ntp【命令】yum –y remove ntpdate-4.2.6p5-22.el7.x86_643

2020-06-28 22:25:47 1707

原创 NameNode、SecondryNameNode和DataNode工作机制

这里先补充一下什么是元数据1、第一类是文件和目录自身的属性信息,例如文件名、目录名、父目录信息、文件大小、创建时间、修改时间等。2、第二类记录文件内容存储相关信息,例如文件块情况、副本个数、每个副本所在的Data Node 信息等。3、第三类用来记录HDFS中所有Data Node信息,用于Data Node管理。        首先,我们要思考的是namenode里面的元数据存放在哪里?答案是毋庸置疑的,肯定在是内存中

2020-06-28 13:14:29 411

原创 Hadoop完全分布式配置

1.安装centos7.01、安装步骤见文档:VmWare安装Linux(博客中有)2、安装完成后,对网卡进行配置vi /etc/sysconfig/network-scripts/ifcfg-ens33#ens33每个人可能不一样,要根据安装linux时候,系统分配的是什么3、配置完成,重启网络Systemctl restart network4、关闭防火墙并禁用(下次开机启动后防火墙服务不再启动)systemctl stop firewalld #关闭防火墙systemctl

2020-06-26 21:21:21 399

原创 ES的简单使用

ElasticSearch/ESElasticsearch(存储+检索+分析),简称ESES数据模型:Index:索引,由多个document组成;索引名必须为小写Type:索引类型,ES6中一个index只能有一个type,ES7中取消了type的概念Document:文档,由多个field组成Field:字段ES数据模型与Mysql相对比:Document(文档):示例:_index:索引为movie_index2,可以理解为库名是movie_index2_type:类型为m

2020-06-23 20:17:59 572

原创 Linux中Shell脚本的简单语法

变量定义变量的时候, A=2 等号前后不能有空格,这种是局部变量 ;export c=3 ,这种是全局变量撤销变量:unset 变量名readonly B=3 只读变量,不能被unset,虚拟机重启后,才可以消失bash中,变量默认是字符型,无法直接进行运算变量的值如果有空格,需要用双引号或单引号括起来B=i love you//有空格,不行,需要用双引号或单引号括起来 B='i love you ’把命令的结果返回给一个变量,可以用反引号,或者$()B=$(ls -al /opt)

2020-06-22 17:33:52 201

原创 ELK如何配置集群

**ELK集群的搭建**本文中提及的ELK文件夹都改过名,依次为:elasticsearch-6.2.2.tar 改为es622 ; elasticsearch-head-master 改为eshead一、复制虚拟机本文以VirtualBox为例:首先,我已经安装好了一个虚拟机,对ELK也完成了配置。下面复制两个虚拟机二、修改主机名和主机列表1.对复制的两个虚拟机进行网络配置(1)输入:vi /etc/sysconfig/network-scripts/ifcfg-enp0s3由于

2020-06-19 17:20:07 310

原创 ELK在linux上的安装和配置

安装ELK1、将安装包上传到linux中,本人新建了一个software文件夹,用于放安装包1、解压jdk,并放到opt文件夹中tar -zxvf jdk-8u221-linux-x64.tar.gz -C /opt3、解压elasticsearch-head-masterunzip elasticsearch-head-master.zip4、将elasticsearch-head-master放到opt文件夹中并改名为esheadmv elasticsearch-head-master

2020-06-18 19:47:09 179

原创 Linux下配置JDK、安装tomcat和mysql

查看进程:ps -aux 或 ps-ef查看tomcat的进程:ps -aux | grep “tomcat”停止进程:kill -9 进程号yum:搜索命令:yum search 命令名安装命令:yum install -y 应用名 //下载并安装卸 载:yum remove -y 应用名rpm:安装:rpm -ivh 安装包卸载:rpm -e 应用 [–nodeps] //当应用在运行,可能卸载不掉,这时候可以加 --nodeps 强制卸载查看:rpm -qa |

2020-06-17 17:14:35 161

原创 Linux基础

(这里写自定义目录标题)欢迎使用Markdown编辑器你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章,了解一下Markdown的基本语法知识。新的改变我们对Markdown编辑器进行了一些功能拓展与语法支持,除了标准的Markdown编辑器功能,我们增加了如下几点新功能,帮助你用它写博客:全新的界面设计 ,将会带来全新的写作体验;在创作中心设置你喜爱的代码高亮样式,Markdown 将代码片显示选择的高亮样式

2020-06-16 18:08:05 250

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除