自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

肥猫64的博客

AI 大数据

  • 博客(99)
  • 收藏
  • 关注

原创 HDFS架构师 5 - NameNode bug分析及双缓冲机制

一、回顾HDFS 元数据 管理1、0 回顾HDFS 元数据 管理 流程35} 0:81.1 写元数据(journalnode)超时会导致namenode进程异常退出36} 0:251.2 解读等待写journalnode的结果的流程代码37} 0: 292、高并发下的gc导致NM失去响应2.0 FullGC 简单的 垃圾回收流程38} 0:15 完3、stopwatch 工...

2021-02-26 08:41:38 204 1

原创 kafka图解源码-2.0 服务端代码设计1-网络

31 )服务端代码设计-观察-kafka源码的包 31} 0:7重点代码包:broker:D:\Git_SRC\JavaProjects\kafka-0.10.1.0-nx-src\core\src\main\scala\kafka\controller消费者:D:\Git_SRC\JavaProjects\kafka-0.10.1.0-nx-src\core\src\main\...

2021-02-26 06:07:40 253 1

原创 kafka图解源码-3 消费者代码设计

67)消费者源码-coondinator原理刨析 -63}0:16原理图.png68)消费者源码-consumer初始化 -64}0:16入口↓▲★\kafka-0.10.1.0-nx-src\examples\src\main\java\kafka\examples\Consumer.javajava/org/apache/kafka/clients/consumer/K...

2021-02-25 13:06:56 269

原创 深入浅出kafka-broker相关原理

1 、 broker管理之leo hw 含义 41}leo : log and offset 每partion 收到1条消息都更新自己的 offsetleo = offset +1Hw :高水位 LEO 功能是更新hw ,如果follower和leader的 leo 同步了hw就可以更新hw 之前的消息对消费者可见,是commit的2、 leo更新 42}fo...

2021-01-31 21:20:46 149

原创 深入浅出kafka-消费者相关原理

1、 消费组概念 32} 0:72、偏移量工具 35} 0:15kafkaOffsetMonitor-assembly-0.3.03、感知消费异常 36} 0:14heartbeat.interval.ms 故障后通过心跳下发rebanlence指令session.timeout.ms kafka多长时间感知不到就认为故障,默认10smax.poll.inter...

2021-01-29 14:22:50 95

原创 深入浅出kafka-生产者相关原理

1 生产者如何提升吞吐量 26} 0: 10发送原理图1、buffer.memory 设置缓冲区 默认32M2、compression.type 默认none,可以设置为 lz4 ,会加大producer 发送端cpu开销3、batch.size 默认 16K ,可以到32k , 配合 linger.ms 加到 100 毫秒4、异步发送2 生产者异常处理 ...

2021-01-29 14:22:43 102

原创 多线程笔记

第1课:1、处理器内存模型2、JMM 共享内存通信3、原子操作指令4、先行发生原则 happen-beforethread( JVM——》os ——》 glibc )

2021-01-14 13:52:09 59

原创 HDFS架构师3.1-元数据管理流程2(日志同步及fsimage互传)

19} 20} 21} 22}元数据源码剖析.png1、内存里面的元数据刷盘image.png19}接上期——1.1 .1.1》 FSEditLog.logSync()——1.1 .1.1.1》 EditLogOutputStream.flush()▼//第一次:FileJouranlManager -> EditLogFileOutputStre...

2021-01-11 13:05:59 382 1

原创 HDFS架构师3.0-元数据管理流程1(主节点双缓冲写)

元数据写流程.png1、以创建目录的场景 为例贯穿整个流程自编客户端 FileTest 代码_>▲★▼FileSystem fileSystem=FileSystem.newInstance(configuration);//场景驱动的方式(元数据的更新流程)fileSystem.mkdirs(new Path("/usr/hive/warehouse/test/my...

2021-01-10 14:36:13 153

原创 HDFS架构师 2.2 - NameNode元数据双缓冲写入原理demo

(1)HDFS元数据管理、双缓冲 17 } 0:55双缓冲写元数据的方法——》 FSEditLog#logEdit()▼▼package com.nx.hadoop.lesson02;import java.util.LinkedList;/** * * HDFS:有个别地方源码写得不错的。 Hadoop2.3.0 * kafka Zookeeper *...

2021-01-10 14:36:10 162

原创 HDFS架构师 2-1 —DataNode启动流程-注册及心跳

1、 DataNode启动流程 19:00DataNode.png本节入口:DataNode类main方法/* DataNode类注释说明:TODO (1)DataNode存储hdfs上block文件块。在一个文件系统里面可以有多个dataNode每个DataNode周期性的跟NameNode进行通信,客户端也可以跟DataNode进行交互或者DataNode之间也...

2021-01-07 13:05:57 260

原创 HDFS架构师 2-0 — NameNode启动流程2

接上回——》NameNode #构造函数()——1 》NameNode # initialize▼rpcServer = createRpcServer(conf); //上节课部分讲完了1、 NameNode资源检查部分 18:00--------------- 下来是本节部分-----------------------//TODO 启动一些公共的服务。NameNo...

2021-01-07 13:02:52 105

原创 Flink源码5- task执行及state和checkpoint

一 、 task执行入口 0:15接 上期 回顾★ ——7 》 TaskExecutor#submitTask()第一个入口:Task 构造函数——》Task 构造函数()▼* 注释: 当前任务的 Task 信息*/this.taskInfo = new TaskInfo()......* 注释: 初始化 ResultPartition 和 ResultSubpar...

2020-12-27 19:02:17 188

原创 Flink源码4-Slot分配和Task执行

接上期:——》JobMaster#startJobExecution()resetAndStartScheduler();——》JobMaster#resetAndStartSchedulerschedulerAssignedFuture.thenRun(this::startScheduling);——》JobMaster#startScheduling()schedulerNG.st...

2020-12-20 15:52:44 562

原创 Flink源码2-Flink 的任务提交

1、 上期回顾 0:00:00 ~0:20:002、 TaskManager 的启动 0:20:00 ~ 1:39:00flink-daemon.sh 脚本 38行CLASS_TO_RUN=org.apache.flink.runtime.taskexecutor.TaskManagerRunnerTaskManager 的启动主类 TaskManagerRunner两种启动方...

2020-12-13 20:27:29 94

原创 Flink源码1-Flink 的集群启动

1、Flink RPC 详解 0:5:00 ~ 0:26:001、ActorSystem 是管理 Actor生命周期的组件, Actor是负责进行通信的组2、每个 Actor 都有一个 MailBox,别的 Actor 发送给它的消息都首先储存在 MailBox 中,通过这种 方式可以实现异步通信。3、每个 Actor 是单线程的处理方式,不断的从 MailBox 拉取消息执行处理,所以对...

2020-12-11 23:34:45 288

原创 flink架构师5-CEP、一致性、YARN

一 、 CEP 0:18~1:10二、一致性保证 1:10 ~2:25我们使用FlinkKafkaConumser,并且启用Checkpoint,偏移量会通过checkpoint保存到state里面,并且默认会写入到kafka的特殊主体中,也就是__consumer_offsetsetCommitOffsetsOnCheckpoints 默认会true,就是把偏移量写入特殊主题中...

2020-12-08 22:22:03 232

原创 nio 笔记

阻塞模型BIO.pngimage.pngimage.pngimage.pngimage.pngimage.png0.png1.png2.png3.pngimage.pngimage.png

2020-12-06 22:58:22 71

原创 flink架构师3-高级开发(window watermark)

一、 window 机制、 0;15~4、 window 机制介绍 2;15~4.1 windows类型介绍 2:15~session 会话窗口简介: 2:18 ~2:20各类窗口代码演示 2:20~2:29滑动滚动window操作 2:29~ 2:37单词计数案例简介(自定义window): 2:38~ 2:50实时计算单词出现的次数,但是并不是每次接受到单词以后就输出...

2020-11-07 20:54:27 81

原创 flink架构师3-高级开发实战

1.5 KeyedState 案例演示 0:3~ 0:29需求:将两个流中,订单号一样的数据合并在一起输出orderinfo1数据 topic商品平台123,拖把,30.0234,牙膏,20.0345,被子,114.4333,杯子,112.2444,Mac电脑,30000.0orderinfo2数据 topic123,2019-11-11 10:11:12,江苏234,2...

2020-11-07 20:54:20 126

原创 flink架构师2-进阶开发

一 、flink 进阶开发目标 0~ 1:52掌握常见的DataStream常见的source掌握常见的DataStream的transformation操作掌握常见的DataStream的sink操作1、Flink之数据源(DataStream)0:20~0:451 source简介source是程序的数据源输入,你可以通过StreamExecutionEnvironmen...

2020-10-28 10:29:44 91

原创 flink架构师1-开发基础

Flink 基础开发常用方式 0:00~1:18Flink 原理 TaskManager & slot & 并行度 & Task 关系 1:18 ~ 2:08Flink 数据传输策略 2:09~2:50数据传输策略forward strategy一个 task 的输出只发送给一个 task 作为输入如果两个 task 都在一个 JVM 中的话,...

2020-10-24 08:38:15 68

原创 Pyspark架构原理

原文地址 :https://mp.weixin.qq.com/s/qgfcqKMyTOC-AlQYGmk6VQSpark运行时架构首先我们先回顾下Spark的基本运行时架构,如下图所示,其中橙色部分表示为JVM,Spark应用程序运行时主要分为Driver和Executor,Driver负载总体调度及UI展示,Executor负责Task运行,Spark可以部署在多种资源管理系统中,例如Ya...

2020-10-23 12:58:05 588

原创 Spark架构师2-开发调优和资源调优

1 、数据倾斜 0:15:0010招调优1.1 mapreduce回顾image.png1.2 spark应用程序流程 ~0:42:00image.png1.2 避免数据倾斜1.2.1 HDFS倾斜image.png1.2.1 kafka倾斜image.pngimage.png1.2.3 定位...

2020-10-23 12:57:58 65

原创 Spark架构师3-源码

1、上次总结 0:18:00~ 0:41:001、Spark RPC(Endpoint:DriverEndpoint ClientEndpoint)2、利用 akka(endpoint类似于actor) 模拟实现 YARN(Flink 就是基于 akka实现的 RPC)3、Spark Standalone 集群启动脚本start-all.sh 分析4、Master 启动分析5、Wor...

2020-10-22 23:47:24 143

原创 Hbase架构师1、2-Hbase架构设计详解

1、hbase 2.0 新特性 0:21:00 ~ 0:35:00A new Region assignment managerOffheaping of Read/WriteIn-Memory CompactionNettyRpcServerAsync RPC ClientRegionServer GroupSupport for MOBS...

2020-09-23 06:49:16 114

原创 Hbase架构师2-架构原理和高级用法

1、架构原理 0:15:00 ~ 1:50:00image.pngimage.pngimage.pnghbase1.jpghbase2.jpghbase3.jpg2、建表高级操作 2:00:00~ 2:40:00image.pngimage.pngimage.png...

2020-09-23 06:49:11 82

原创 kafka架构师4-图解kafka源码2

1.1. 如何处理响应消息? 0;11:00 ~ 0;30:00上节内容NetworkClient.poll 方法response.request().callback().onComplete(response);Sender#completeBatch方法里面://TODO 核心代码 把异常的信息也给带过去了 //我们刚刚看的就是这儿的代码 //里面调...

2020-08-26 23:17:37 157

原创 kafka架构师3-图解kafka源码2

1. 掌握内存池设计 0:20:00 ~ 0:47:44目的: 减少fullgc 概率原理图:5. 内存池.pngSender#produceRequestonComplete 回调方法里面—》Sender#completeBatch—》RecordAccumulator#deallocate—》BufferPool#deallocate()方法2. 掌握生产...

2020-08-26 23:17:32 189

原创 MapReduce架构师2—MapReduce详解

1 MapReduce 流程回顾 00 ~ 0:23:00MapReduce 流程2 MapReduce Shuffle 过程详解 0:23:00 ~ 1:30 :22MapReduce Shuffle详解文章:https://blog.csdn.net/zhongqi2513/article/details/78321664shuffle流...

2020-08-24 08:44:40 224

原创 MapReduce架构师3—MapReduce详解2

3. 7. MapReduce的MapOutputBuffer内存环形缓冲区源码详解 0:13:00~2:44:00入口: MapTask#runNewMapper()▼output = new NewOutputCollector(taskContext, job, umbilical, reporter);NewOutputCollector构造函数里面collector =...

2020-08-23 11:43:43 169

原创 MapReduce架构师1- 机制和架构

1 MR 架构概述 0:33:00 ~ 1:20:001采用职责链设计模式数据源 InputFormat RecordReader 实现类 TextInputFormat LineRecordReader一阶段 Mapper二阶段 Partio ner Sorter Combiner三阶段 reduce输出 OutputFormat RecordWrtie...

2020-08-15 16:12:21 65

原创 架构师2-ZooKeeper实战场景

6. ZooKeeper API 使用 7. 基于ZooKeeper实现服务发布订阅 2:01:00 ~ 2:33:008. 基于ZooKeeper实现服务器动态上下线感知 2:33:00~ 2:55:00image.pngimage.png9. 基于ZooKeeper实现分布式锁分布式独占锁 2:55:00~ 3.10.00分布式顺序锁 3:...

2020-08-13 08:33:19 109

原创 架构师3- zk源码分析

3 ZooKeeper序列化和网络通信协议详解序列化机制 zookeeper. jute 包 0:23:00 0:33:004个类 (Record InputArchive OutputArchive Index)持久化机制 zookeeper.server.persistence 包 0:33:00 ~ 0:46:00zookeeper本身是一个 lead...

2020-08-13 07:22:26 192

原创 架构师3 zk源码分析

序列化jude包 0:20:00 0:33:00持久化机制 0:33:00

2020-08-11 08:33:59 44

原创 HDFS架构师 4- DataNode写数据详细分析

UNIT4image.png1. 创建INodeFile流程分析2步:FSDataOutputStream focus——》FileSystem.createfocus.write(bytes[])抽象类 FSDataOutputStream.create实现类 DistributedFileSystem.create——》DFSClient.create ...

2020-07-28 15:12:29 368

原创 kafka架构师2-图解kafka源码1发送者流程

架构Client生产发送流程Server:kafka 网络架构kafka 数据存储kafka 副本同步kafka 元数据管理发送流程image.png一个demoproducer核心流程(1)producer初始化过程1:00:00-1:18:12(2)元数据管理1:18:00一1:25:00(3)send方法深入代码:1:25:00—1:32:00...

2020-07-28 15:10:14 162 1

原创 kafka架构概述

生产者发送消息流程image.png元数据信息关系image.pngprocudure 核心流程image.png

2020-07-24 09:57:06 88

原创 HDFS 架构师—NameNode和DataNode

NameNode流程启动剖析image.pngdatanode启动注册流程main ——》 secureMain——》createDataNode——》 instantiateDataNode(重点)——》makeInstance ——》 DataNode(构造函数 重点)——》startDataNode1.32:00——》initDataXceiver——》 start...

2020-07-21 06:43:56 107

原创 2020-07-13

创建INodeFile流程分析 32.11添加契约流程分析DataStreamer启动流程分析启动文件续约流程分析契约扫描机制分析chunk写入DataQueue流程剖析Block申请流程剖析 2.10pipline数据管道流程建立分析 2.16管道建立容错处理 (retry ,排除问题机器) 2.45ResponseProcessor组件初...

2020-07-17 07:17:34 66

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除