张--小涛涛-CSDN博客

原创 0002 - Hadoop集群搭建

本章介绍了如何从0开始搭建起HADOOP集群

2022-06-26 22:23:23 524 1

原创 0001 - Hadoop及其大数据生态圈

0001 - Hadoop及其大数据生态圈

2022-06-25 16:00:18 375

原创 Docker-0007(Dockerfile)

一、什么是Dockerfile Dockerfile是用来构建Docker镜像的构建文件，是由一系列命令和参数构成的脚本。二、Dockerfile构建过程（1）docker从基础镜像运行一个容器（2）执行一条指令并对容器作出修改（3）执行类似docker commit的操作提交一个新的镜像层（4）docker再基于刚提交的镜像运行一个新容器（5）执行dockerfile中的下一条指令直到...

2020-12-16 23:26:19 165 1

一、什么是数据卷容器命名的容器挂载数据卷，其它容器通过挂载这个(父容器)实现数据共享，挂载数据卷的容器，称之为数据卷容器说白了就是在有容器数据卷的容器中，通过--volumes-from来实现容器之间的数据共享二、实操执行下面命令启动一个父容器docker run -it --name dc01 my-self-centoscd dataVolumeContainer1touch dc01.txt ctrl+p+q退...

2020-12-10 22:52:31 142

原创 Docker-0005(Docker容器数据卷)

P18

2020-11-29 21:04:11 204

原创 Docker-0004(Docker镜像)

一、镜像原理1、什么是Diocker镜像镜像是一种轻量级、可执行的独立软件包，用来打包软件运行环境和基于运行环境开发的软件，它包含运行某个软件所需的所有内容，包括代码、运行时、库、环境变量和配置文件。 UnionFS（联合文件系统）：Union文件系统（UnionFS）是一种分层、轻量级并且高性能的文件系统，它支持对文件系统的修改作为一次提交来一层层的叠加，同时可以将不同目录挂载到同一个虚拟文件系统下(unite several directories into a ...

2020-11-29 20:59:24 213

原创 Docker-0003(Docker常用命令)

一、帮助命令1.docker version2.docker info3. docker help二、镜像命令1.docker images 各个选项说明: REPOSITORY：表示镜像的仓库源 TAG：镜像的标签 IMAGE ID：镜像ID CREATED：镜像创建时间 SIZE：镜像大小 ...

2020-11-29 13:02:07 187

原创 Docker-0002(安装Docker)

一、安装EPEL EPEL的全称叫 Extra Packages for Enterprise Linux 。EPEL是由 Fedora 社区打造，为 RHEL 及衍生发行版如 CentOS、Scientific Linux 等提供高质量软件包的项目。装上了 EPEL之后，就相当于添加了一个第三方源。执行下面命令安装EPELyum install -y epel-release二、安装其他软件yum install -y yum-utilsyum-config-mana...

2020-11-28 22:48:44 181

原创 Docker-0001(介绍Docker)

一、背景我们每一个开发人员都有这种体验，在开发环境开发自测好好的包，打到测试环境就出现一堆诡异的问题。在测试环境测试好好的包，打到现网环境就出现一堆诡异的问题。这是为什么呢，经验告诉我们，虽然我们的包时OK，但是开发，测试，生产环境时不可避免会有差异，因此包在不同环境下会产生“水土不服”。因此，人们提出一个概念，软件携带环境安装。也就是说，软件携带好自己的运行环境，无论到开发，测试，生产环境都是一模一样的环境，这就避免了软件“水土不服”导致的诡异的问题。Docke...

2020-11-14 14:03:33 174

原创 0007-Flink原理(Flink API--Flink API调用过程)

一、整体过程二、Environment 创建一个执行环境，表示当前执行程序的上下文。如果程序是独立调用的，则此方法返回本地执行环境；如果从命令行客户端调用程序以提交到集群，则此方法返回此集群的执行环境。也就是说，getExecutionEnvironment 会根据查询运行的方式决定返回什么样的运行环境，是最常用的一种创建执行环境的方式。createLocalEnvironment 返回本地执行环境，需要在调用时指定默认的并行度。c...

2020-10-08 23:12:00 318

原创 0006-Flink原理(Flink数据流 & 执行图)

一、程序与数据流转换（DataFlow） • 所有的Flink程序都是由三部分组成的： Source 、Transformation 和 Sink。 • Source 负责读取数据源，Transformation 利用各种算子进行处理加工，Sink 负责输出 • 在运行时，Flink上运行的程序会被映射成“逻辑数据流”（dataflows），它包含了这三部分 • 每一个dataflow以一个或多个sources开始以一个或多个sinks结束。dataflow类似于...

2020-09-22 22:56:21 912

转载 0005-Flink原理(Flink任务提交 & 调度 & 相关概念 & Solt分配)

一、Flink任务提交流程二、Flink任务提交流程(YARN) 图中的ResourceManager是YARN的ResourceManager，不是Flink的ResourceManager。Flink的ResourceManager在ApplicationMaster中。三、Flink任务调度原理1、输入Flink程序2、将Flink程序转化为流图(类似于Spark的DAG)3、将流图提交给JobManager，JobManager申请资源4、J...

2020-09-21 23:20:02 372

原创 0004-Flink原理(Flink组件介绍)

一、Flink运行时组件总览二、JobManager • 控制一个应用程序执行的主进程，也就是说，每个应用程序都会被一个不同的JobManager 所控制执行。 • JobManager 会先接收到要执行的应用程序，这个应用程序会包括：作业图（JobGraph）、逻辑数据流图（logical dataflow graph）和打包了所有的类、库和其它资源的JAR包。 • JobManager 会把JobGraph转换成一个物理层面的数据流图，这个图被叫做“执行图”（Exe...

2020-09-21 21:07:30 372

原创 0003-Flink运行helloWorld(Standlone模式)(后台命令提交)

一、将包上传至服务器我们将0002章节出的jar包上传至服务器/home/flink-1.10.1/myPackage路径下二、关闭之前的任务注：因为我们只有一个solt，不关闭之前的任务，新提交的任务获取不到资源。三、执行下方命令，提交任务./bin/flink run -c com.zjt.StreamWordCount /home/flink-1.10.1/myPackage/FlinkTurtorial-1.0-SNAPSHOT-jar...

2020-09-20 10:23:07 439

原创 0002-Flink运行helloWorld(Standlone模式)(Flink管理界面提交)

一、代码如下package com.zjtimport org.apache.flink.api.java.utils.ParameterToolimport org.apache.flink.streaming.api.scala._/** * Created by ZhangJintao on 2020/9/2. */object StreamWordCount { def main(args: Array[String]) { // 创建一个批处理的执行环境

2020-09-20 10:08:03 464 1

原创 0001-Flink安装---Flink安装(Standlone模式)

一、获取安装包，上传至服务器并解压在安装Flink之前，我们先要获取到flink-1.10.1-bin-scala_2.12.tgz.zip安装包。执行下方命令解压flink安装包cd /home/tar -zxvf flink-1.10.1-bin-scala_2.12.tgz 如下图所示，解压完成二、查看Flink配置文件执行下方命令前往flink配置目录cd /home/flink-1.10.1/...

2020-09-16 23:06:34 332

转载浅析红黑树（RBTree）原理及实现

2020-07-22 23:05:24 184

转载大数据（078）Spark【Spark 源码分析----划分Stage】

作者：博弈史密斯链接：https://www.jianshu.com/p/9f74e7f5e913来源：简书概要介绍Stage的定义，DAGScheduler划分Stage流程。Stage查看Stage定义Stage中有两个重要属性，rdd和parents，分别记录的是切分处的RDD和父Stage信息，这一点结合我后面的例子更好理解。Stage有两个子类，ShuffleMapStage、ResultStage，两者分别增加了一个重要属性信息，如下stage ..

2020-07-15 23:25:18 302

原创 011、状态模式

一、UML图二、代码示例package com.designPattern.State;/** * Created by ZhangJintao on 2020/7/9. */public class Car { private CarState carState = null; public Car() { this.carState = new CarStopState(); } public void start() {

2020-07-09 23:23:55 157

原创 011、抽象工厂模式

一、UML图二、实例package com.designPattern.abstractFactory.factory;import com.designPattern.abstractFactory.entity.DepartmentEntity;import com.designPattern.abstractFactory.entity.UserEntity;/** * Created by ZhangJintao on 2020/7/6. */public inte

2020-07-06 23:10:21 878

原创大数据（077）Spark【Spark Streaming之Spark Streaming窗口机制】

一、前言前面我们所了解的SparkStreaming程序是计算一个时间段内的数据，每个时间段内的数据不重复计算。那么还可能会有一种需求，我们需要每n秒计算出前x秒的数据结果，其中x>n。这就引入了SparkStreaming的window函数。如下图所示，滑动窗口宽度是3个时间单位，滑动时间是2两个单位。那么SparkStreaming会每隔两个时间单位，计算前三个时间单位数据的计算结果。二、代码示例package com.zjt.spark.st...

2020-05-24 23:01:14 315

原创大数据（076）Spark【Spark Streaming之Spark Streaming接收并处理Kafka数据】

一、启动Kafka 我们之前已经安装过Kafka，现在远程至三台服务器（node1、node2、node3），在每一台服务器上执行下面命令，启动Zookeeper。cd /home/kafka_2.10-0.8.2.1zkServer.sh start 然后按远程至每一台服务器，执行下面命令，启动Kafkacd /home/kafka_2.10-0.8.2.1bin/kafka-server-start.sh config/server.propertie...

2020-05-24 16:42:28 202

原创大数据（075）Spark【Spark Streaming介绍&WorldCount&HdfsWorldCount】

一、Spark Streaming架构如下图所示，DStream（Discretized Stream）是Spark Streaming的基础抽象，代表持续性的数据流和经过各种Spark原语操作后的结果数据流。DStream是一个抽象的概念，是一系列连续的RDD来表示。每个RDD含有一段时间间隔内的数据。在这一个时间间隔内进行RDD计算。二、WorldCount java代码如下：package com.zjt;import java.util.Ar...

2020-05-14 21:29:39 202

原创大数据（074）Spark【Spark on Yarn的HA搭建】

一、前言我们在第七十节的时候，已经搭建起了Spark On Yarn，现在我们基于此再搭建Spark的HA。二、步骤2.1、修改每台服务器的配置文件/home/spark-1.3.1-bin-hadoop2.4/conf/spark-env.sh 新增如下配置：export SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER -Dspark.deploy.zookeeper.url=n...

2020-05-08 21:55:39 342

原创大数据（073）Kafka【Kafka环境搭建】

一、上传Kafka安装包至环境我这里给node1至node3三台服务器的/home下上传了安装包二、在每一个服务器上执行下方命令，解压kafka安装包cd /home/unzip kafka_2.10-0.8.2.1.zip三、给Kafka安装目录下脚本赋予执行权限。在每一台服务器上执行下面命令cd kafka_2.10-0.8.2...

2020-05-06 22:46:18 166

原创大数据（072）Kafka【Kafka介绍】

一、什么是Kafka Kafka是最初由Linkedin公司开发，是一个分布式、分区的、多副本的、多订阅者，基于zookeeper协调的分布式日志系统（也可以当做MQ系统），常见可以用于web/nginx日志、访问日志，消息服务等等，Linkedin于2010年贡献给了Apache基金会并成为顶级开源项目。其主要应用场景是：日志收集系统和消息系统。二、Kafka架构...

2020-05-04 22:57:47 185

原创大数据（071）Spark【Spark内核_缓存策略】

一、Spark缓存类型 Spark缓存策略类是StorageLevel，其有如下几个变量 StorageLevel有如下几个对缓存策略的定义二、Spark算子下图是Spark算子列表...

2020-04-10 23:18:23 223

原创大数据（070）Spark【Spark内核_RDD&Spark安装运行】

一、RDD（Resilient Distributed Dataset）弹性分布式数据集 Spark 中最基本的数据抽象是RDD。二、RDD五大特点 • A list of partitions RDD由很多partition构成，在spark中，计算式，有多少partition就对应有多少个task来执行。如果从hdfs文件创建的RDD...

2020-03-30 23:53:53 200

原创大数据（069）Spark【Spark介绍】

一、什么是Spark• Apache Spark is an open source cluster computingsystem that aims to make data analytics fast. Apache Spark是一个专注于快速分析数据的开源集群计算系统。• both fast to run and fast to wrtie. 快速读写。二、Spa...

2020-03-30 08:23:06 184

原创大数据（068）Storm【Storm JAVA开发手册】

一、spout中提供的方法1、open方法当一个Task被初始化的时候会调用此open方法。一般都会在此方法中对发送Tuple的对象SpoutOutputCollector和配置对象TopologyContext初始化。2、nextTuple方法这是Spout类中最重要的一个方法。发射一个Tuple到Topology都是通过这个方法来实现的。...

2020-03-26 07:30:44 206

原创 010、观察者模式

一、UML图二、实例1、Observerpackage com.designPattern.observer;/** * Created by ZhangJintao on 2020/3/22. */public abstract class DataObserver { public abstract void updata();}2、Concrete...

2020-03-22 23:46:17 115

原创 009、建造者模式

一、UML图二、实例1、Productpackage com.designPattern.builder;/** * Created by ZhangJintao on 2020/3/12. */public class Automobile { private String window; private String whell; priva...

2020-03-16 00:12:19 112

原创 008、外观模式

一、UML图二、实例1、SubSystemNpackage com.designPattern.facade;/** * Created by ZhangJintao on 2020/3/12. */public class CollectionData { public void collectionData(){ System.out.pri...

2020-03-12 00:24:32 103

原创 007、模板方法模式

一、UML图二、实例1、AbstractClasspackage com.designPattern.templateMethod;/** * Created by ZhangJintao on 2020/3/11. */public abstract class BigDataDealInterface { // 数据采集 public abstrac...

2020-03-11 00:45:19 127

原创 006、原型模式

一、UML图二、实例1、Prototypepackage com.designPattern.prototype;/** * Created by ZhangJintao on 2020/3/10. */public abstract class HealthStatus implements Cloneable { // 体温是否大于37.3度 pri...

2020-03-10 01:13:31 128

原创 005、工厂方法模式

一、UML图二、实例1、Productpackage com.designPattern.factoryMethod;/** * Created by ZhangJintao on 2020/3/8. */public interface Phone { public void showPhone();}2、ConcreteProductpack...

2020-03-09 00:09:58 102

原创 004、代理模式

一、UML图二、实例1、Subjectpackage com.designPattern.proxy;/** * Created by ZhangJintao on 2020/3/8. */public interface ConnectionDb { public void connect();}2、RealSubjectpackage com...

2020-03-08 23:42:30 120

原创 003、装饰模式

一、UML图 Component：一个接口或是抽象类，就是定义我们最核心的对象，也就是最原始的对象。 ConretetComponent类：具体构件，通过继承实现Component抽象类中的抽象方法。是最核心、最原始、最基本的接口或抽象类的实现，我们要装饰的就是它。 Decorator：装饰类，其拥有一个指向Component的priva...

2020-03-08 13:56:37 96

原创 002、策略模式

一、UML图 Context：上下文角色，屏蔽上层模块对下层策略、算法的直接访问，封装算法的多变性。Strategy：抽象策略角色，对策略的抽象。ConcreteStrategy：具体策略类，算法的具体实现，继承或实现Strategy。二、实例1、Contextpackage com.designPattern.strateg...

2020-03-08 10:32:53 115