TmisuCno-CSDN博客

原创 Spark 算子经典习题

数据：班级 ID 姓名年龄性别科目成绩12 张三 25 男 chinese 5012 张三 25 男 math 6012 张三 25 男 english 7012 李四 20 男 chinese 5012 李四 20 男 math 5012 李四 20 男 english 5012 王芳 19 女 chinese 7012 王芳 19 女 math 7012 王芳 19 女 english 7012 小蔡 19 女 chinese 7012 小蔡 19 女 math 100

2020-08-04 19:51:24 316

原创 Spark combineByKey算子详解

combineByKey:第一个传入的参数不再是初始值，意味着可以对数据的类型发生变化def combineByKey[C](createCombiner: V => C,mergeValue: (C, V) => C,mergeCombiners: (C, C) => C): RDD[(K, C)]createCombiner: 分区内，相同的key的value只执行一次，后续的value，执行mergeValue函数mergeValue:分区内操作函数，相同key的剩余的val

2020-08-02 16:32:58 180

原创 Spark aggregateByKey 算子详解

aggregateByKeydef aggregateByKey[U: ClassTag](zeroValue: U)(seqOp: (U, V) => U,combOp: (U, U) => U): RDD[(K, U)]zeroValue: 初始值，每个分区中，同一种key，只用一次初始值，第一个值和zeroValue的结果，用于对应key的剩余值计算seqOp: 区间内计算，每个分区中，同一种key的value进行操作combOp: 区间之间计算，各个分区得到的结果，与其他分区

2020-08-01 16:29:38 233

原创 Scala模式匹配、样例类

Scala的模式匹配类似于Java中的switch语法，关键字采用match1、case _ 相当于java中的default，如果其他case都不满足，会执行case _2、如果没有匹配到，也没有写case _ ，那么会抛出异常MathError3、=> 等价于java中的 :4、=> 到下一个case之间，作为一个整体执行，可以用{}扩起来，也可以不用5、match支持多个 case _ 但是如果不使用if，那么多个case _ 也没什么意义6、match

2020-07-23 14:14:55 137

原创 MapReduce工作机制

MapReduce工作流程1、InputFormat根据job提供的文件目录，对目录下面的文件进行遍历2、首先遍历第一个文件获取文件的大小获取切片大小上面的源码就是切片大小的计算公式，blocksize为块的大小；如果job运行在本地，默认块大小是32M；如果job运行在yarn上，hadoop1.x 默认块大小是64M；hadoop2.x 默认块大小是128M。

2020-07-05 16:35:56 155

原创 FsImage和Edits简单介绍

Fsimage：镜像文件Edits：编辑日志首先，当集群format之后，将在目录(/opt/hadoop/tmp/dfs/name/current)下产生如下内容：（1）Fsimage文件：HDFS文件系统元数据的一个永久性的检查点，其中包含HDFS文件系统的所有目录和文件inode的序列化信息（id、类型、目录、所属用户、用户权限、时间戳……）。（2）Edits文件：存放HDFS文件系统的所有更新操作的路径，文件系统客户端执行的所有写操作首先会被记录到edits文件中。（3）seen_txi

2020-06-29 20:16:58 2040

原创 HDFS读/写数据的流程

HDFS的写数据流程1、客户端Distributed FileSystem模块向NameNode发送请求，请求上传文件/user/atguigu/ss.avi2、NameNode检测是否有目录，文件是否存在；检查完毕后，响应客户端可以上传文件3、一个块是128M，上传的文件为200M；客户端向NameNode请求上传第一个block(0-128m)，询问上传到哪个DataNode节点4、NameNode根据客户端和DataNode节点之间的距离和以及DataNode负载情况，返回DataNode节

2020-06-28 23:39:09 278

原创 Linux各个节点的时间同步

时间同步1（一）确认ntp的安装1）确认是否已安装ntp【命令】rpm –qa | grep ntp若只有ntpdate而未见ntp，则需删除原有ntpdate。如：ntpdate-4.2.6p5-22.el7_0.x86_64fontpackages-filesystem-1.44-8.el7.noarchpython-ntplib-0.3.2-1.el7.noarch2）删除已安装ntp【命令】yum –y remove ntpdate-4.2.6p5-22.el7.x86_643

2020-06-28 22:25:47 1707

原创 NameNode、SecondryNameNode和DataNode工作机制

这里先补充一下什么是元数据1、第一类是文件和目录自身的属性信息，例如文件名、目录名、父目录信息、文件大小、创建时间、修改时间等。2、第二类记录文件内容存储相关信息，例如文件块情况、副本个数、每个副本所在的Data Node 信息等。3、第三类用来记录HDFS中所有Data Node信息，用于Data Node管理。首先，我们要思考的是namenode里面的元数据存放在哪里？答案是毋庸置疑的，肯定在是内存中

2020-06-28 13:14:29 411

原创 Hadoop完全分布式配置

1.安装centos7.01、安装步骤见文档:VmWare安装Linux（博客中有）2、安装完成后，对网卡进行配置vi /etc/sysconfig/network-scripts/ifcfg-ens33#ens33每个人可能不一样，要根据安装linux时候，系统分配的是什么3、配置完成，重启网络Systemctl restart network4、关闭防火墙并禁用（下次开机启动后防火墙服务不再启动）systemctl stop firewalld #关闭防火墙systemctl

2020-06-26 21:21:21 399

原创 ES的简单使用

ElasticSearch/ESElasticsearch（存储+检索+分析），简称ESES数据模型:Index:索引,由多个document组成;索引名必须为小写Type:索引类型，ES6中一个index只能有一个type,ES7中取消了type的概念Document:文档，由多个field组成Field:字段ES数据模型与Mysql相对比：Document(文档):示例：_index:索引为movie_index2，可以理解为库名是movie_index2_type:类型为m

2020-06-23 20:17:59 572

原创 Linux中Shell脚本的简单语法

变量定义变量的时候， A=2 等号前后不能有空格，这种是局部变量；export c=3 ，这种是全局变量撤销变量:unset 变量名readonly B=3 只读变量，不能被unset，虚拟机重启后，才可以消失bash中，变量默认是字符型，无法直接进行运算变量的值如果有空格，需要用双引号或单引号括起来B=i love you//有空格，不行，需要用双引号或单引号括起来 B='i love you ’把命令的结果返回给一个变量，可以用反引号，或者$()B=$(ls -al /opt)

2020-06-22 17:33:52 201

原创 ELK如何配置集群

**ELK集群的搭建**本文中提及的ELK文件夹都改过名，依次为：elasticsearch-6.2.2.tar 改为es622 ； elasticsearch-head-master 改为eshead一、复制虚拟机本文以VirtualBox为例:首先，我已经安装好了一个虚拟机，对ELK也完成了配置。下面复制两个虚拟机二、修改主机名和主机列表1．对复制的两个虚拟机进行网络配置(1)输入：vi /etc/sysconfig/network-scripts/ifcfg-enp0s3由于

2020-06-19 17:20:07 310

原创 ELK在linux上的安装和配置

安装ELK1、将安装包上传到linux中,本人新建了一个software文件夹，用于放安装包1、解压jdk,并放到opt文件夹中tar -zxvf jdk-8u221-linux-x64.tar.gz -C /opt3、解压elasticsearch-head-masterunzip elasticsearch-head-master.zip4、将elasticsearch-head-master放到opt文件夹中并改名为esheadmv elasticsearch-head-master

2020-06-18 19:47:09 179

原创 Linux下配置JDK、安装tomcat和mysql

查看进程:ps -aux 或 ps-ef查看tomcat的进程：ps -aux | grep “tomcat”停止进程：kill -9 进程号yum：搜索命令：yum search 命令名安装命令：yum install -y 应用名 //下载并安装卸载：yum remove -y 应用名rpm：安装：rpm -ivh 安装包卸载：rpm -e 应用 [–nodeps] //当应用在运行，可能卸载不掉，这时候可以加 --nodeps 强制卸载查看：rpm -qa |

2020-06-17 17:14:35 161

原创 Linux基础

(这里写自定义目录标题)欢迎使用Markdown编辑器你好！这是你第一次使用 Markdown编辑器所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章，了解一下Markdown的基本语法知识。新的改变我们对Markdown编辑器进行了一些功能拓展与语法支持，除了标准的Markdown编辑器功能，我们增加了如下几点新功能，帮助你用它写博客：全新的界面设计，将会带来全新的写作体验；在创作中心设置你喜爱的代码高亮样式，Markdown 将代码片显示选择的高亮样式

2020-06-16 18:08:05 250

Tiramisu