pezynd-CSDN博客

原创目录 | Flink源码走读

Flink任务提交Flink源码篇 No.1-任务提交之入口及参数解析（per-job on yarn）Flink源码篇 No.2-任务提交之调用用户方法（per-job on yarn）Flink源码篇 No.3-任务提交之执行用户作业（per-job on yarn）Flink源码篇 No.4-任务提交之启动AppMaster（per-job on yarn）Flink源码篇 No.5-任务提交之启动JobManager（per-job on yarn）Flink源码篇 No.6

2021-10-07 22:37:12 227

原创目录 | 大数据探索文章

理论篇大数据理论篇 No.1-浅谈Flink中的数据传输大数据理论篇 No.2-聊聊Flink流计算中的Timestamp和Watermark大数据理论篇 No.3-看看Flink如何实现端到端的Exactly-once语义大数据理论篇 No.4-聊聊Flink的状态管理大数据理论篇 No.5-聊聊Flink中的Checkpoint和Savepoint大数据理论篇 No.6-理解一下HDFS数据读写流程大数据理论篇 No.7-从NameNode聊起，介绍一下HDFS元数据的Che

2021-02-09 15:02:55 319

原创记一次Netty堆外内存溢出OutOfDirectMemoryError

netty网络通讯项目，内存溢出问题排查

2022-09-25 14:49:41 5110 1

原创 Hive将csv数据导入parquet格式动态分区表

Hive数据导入

2022-04-05 16:33:52 2952

原创 Elasticsrarch修改字段类型和属性

如何修改ES索引中的字段类型和属性

2022-03-20 16:01:55 1373

原创基于Netty实现TCP服务和HTTP服务

基于netty实现tcp和http服务

2022-03-20 15:27:48 1618

原创 Flink Forward Asia 2021 资料整理-下

Flink Forward Asia 2021 大会资料整理

2022-01-16 15:23:00 1563

原创 Flink Forward Asia 2021 资料整理-上

Flink Forward Asia 2021 大会资料整理

2022-01-16 14:56:00 1072

原创 Flink状态后端RocksDBStateBackend的使用

介绍Flink中，RocksDBStateBackend的使用

2021-12-26 20:57:45 3407

原创 Flink源码篇 No.10-任务提交之调度并执行Task（per-job on yarn）

第1章简介经过前面几篇文章的介绍，TM已经申请到Slot，并且向JM提供了执行任务的Slot。本篇文章将继续走读源码，介绍JM向TM提交任务的流程。第2章具体步骤2.1 启动JM我们回到之前JM启动的代码：org.apache.flink.runtime.jobmaster.JobMaster#startJobExecutionprivate Acknowledge startJobExecution(JobMasterId newJobMasterId) throws E

2021-10-31 14:49:59 1443

原创 Flink源码篇 No.9-任务提交之注册Slot（per-job on yarn）

第1章

2021-10-31 14:13:32 4346

原创 Flink源码篇 No.8-任务提交之启动TaskManager（per-job on yarn）

第1章注册回调在上一篇文章中，启动nodeManagerClient的时候，注册了一个CallbackHandler回调yarnContainerEventHandlerorg.apache.flink.yarn.YarnResourceManagerDriver#initializeInternal@Overrideprotected void initializeInternal() throws Exception { final YarnContainerEventHandler

2021-10-10 15:04:34 632

原创 Flink源码篇 No.7-任务提交之JobManager申请资源（per-job on yarn）

第1章启动JobManager我们从jobManager启动的方法开始看org.apache.flink.runtime.jobmaster.JobMaster#startJobExecutionprivate Acknowledge startJobExecution(JobMasterId newJobMasterId) throws Exception { // 验证是否在主线程 validateRunsInMainThread(); checkNotNull(newJobM

2021-10-07 21:46:25 1120

原创 Flink源码篇 No.6-任务提交之启动ResourceManager（per-job on yarn）

第1章create创建并启动resourceManager回到最初创建resourceManager的地方：org.apache.flink.runtime.entrypoint.component.DefaultDispatcherResourceManagerComponentFactory#create@Overridepublic DispatcherResourceManagerComponent create( Configuration configuration, ..

2021-10-07 21:46:04 686

原创 Flink源码篇 No.5-任务提交之启动JobManager（per-job on yarn）

第7章启动JobManager

2021-10-07 21:45:41 488

原创 Flink源码篇 No.4-任务提交之启动AppMaster（per-job on yarn）

第5章启动AppMaster上面我们阅读到了org.apache.flink.client.deployment.executors.AbstractJobClusterExecutor#execute，下面看看在execute内部如何启动AppMaster。5.1createClusterDescriptor创建集群描述器createClusterDescriptor是接口内的方法，我们直接看Yarn相关的实现。org.apache.flink.yarn.YarnClusterCli..

2021-10-07 21:45:12 1404

原创 Flink源码篇 No.3-任务提交之执行用户作业（per-job on yarn）

第4章执行用户程序4.1env.execute()执行用户程序org.apache.flink.streaming.api.environment.StreamExecutionEnvironment#execute(java.lang.String)public JobExecutionResult execute(String jobName) throws Exception { Preconditions.checkNotNull(jobName, "Streaming Job .

2021-10-07 21:44:39 350

原创 Flink源码篇 No.2-任务提交之调用用户方法（per-job on yarn）

3.2run方法运行org.apache.flink.client.cli.CliFrontend#runprotected void run(String[] args) throws Exception { LOG.info("Running 'run' command."); //TODO 获取用户配置 final Options commandOptions = CliFrontendParser.getRunCommandOptions(); final CommandLi..

2021-10-07 21:44:17 401

原创 Flink源码篇 No.1-任务提交之入口及参数解析（per-job on yarn）

第1章简介本篇文章以一次任务提交为主线，介绍Flink源码中，任务是如何提交的。以下内容基于yarn以per-job模式为例。源码版本Apache Flink 1.12。第2章详细步骤2.1 flink run 提交作业我们已flink命令提交job为入口，开始了解源码。通常我们使用flink提交作业时，在命令行输入如下命令：bin/flink run -t yarn-per-job /.../***.jar ...查看flink脚本文件，此脚本文件最后exec就是作业提交

2021-10-07 21:43:45 1057

原创 Kafka源码篇 No.5-Producer消息发送

第一章简介

2021-09-01 09:41:40 592

原创 Kafka源码篇 No.4-Producer消息封装

第1章简介本篇文章从源码的角度，介绍Kafka生产者如何封装消息，细节详见代码中注释。第2章详细步骤2.1 消息大小的校验在封装前会先进行数据大小的校验org.apache.kafka.clients.producer.KafkaProducer#doSend//TODO 校验消息大小int serializedSize = AbstractRecords.estimateSizeInBytesUpperBound(apiVersions.maxUsableProduce

2021-08-30 16:39:00 425

原创大数据实操篇 No.18-Flink 处理函数介绍和使用（ProcessFunction）

第1章简介第2章处理函数类型Flink提供了8种不同的处理函数：ProcessFunction：处理函数KeyedProcessFunction：键值分区的处理函数CoProcessFunction：双流处理函数ProcessJoinFunction：多流join处理函数BroadcastProcessFunction：广播流处理函数KeyedBroadcastProcessFunction：键值分区的广播流处理函数ProcessWindowFunction：

2021-07-01 07:59:23 576

原创 Kafka源码篇 No.3-Producer分区分配规则

第1章简介Kafka生产这端分区分配规则，第2章根据qian元数据信息，确定数据发往哪个partition

2021-06-20 14:36:15 255

原创 Kafka源码篇 No.2-Producer如何获取元数据

第1章简介经过上一篇文章的讲解，大致了解了Producer发送消息的流程，本篇文章我们阅读以下Producer获取元数据的详细步骤。第2章详细步骤2.1 sender线程拉取元数据sender线程启动以后，会执行run()=>runOnce()=>client.poll()执行kafka client的网络请求开始执行如下代码。@Overridepublic List<ClientResponse> poll(long timeout, long now)

2021-04-24 16:59:09 423

原创 Kafka源码篇 No.1-Producer发送消息的流程设计

第1章简介Kafka为什么能被广泛使用？为什么吞吐量能这么大？他既能在OLTP场景系统中做消息队列，又能在OLAP系统中做大数据实时消息流的暂存。这个强大的一个框架，源码必须得学习学习！笔者Kafka源码文章使用Kafka版本v2.7.0进行编写，不妥之处欢迎留言指点，感激不尽！Kafka源码是Java和Scala语言编写，生产者部分主要是Java语言。下面我们先看看整体的流程，再一步一步剖析细节。第2章源码结构Kafka源码结构如下：生产者和消费者主要再clients下，而服.

2021-04-24 16:55:26 523

原创大数据实操篇 No.17-Flink State介绍和使用（Datastream API）

第1章 Flink State介绍Flink有两种基本类型的状态：Managed State（托管状态）、Raw State（原生状态）。Managed State是Flink Runtime托管，支持了常见的数据结构：ValueState、ListState、MapState等等；Raw State则是由用户自己管理，只支持字节数组的数据结构。任何上层的数据结构需要序列化为字节数组。使用时，需要用户进行序列化。以下完整代码请查阅github：https://github.com/zihao

2021-02-18 22:00:37 596

转载转载 | 年度盘点！Flink 社区全年的精华内容都在这里啦

转眼间，2020年悄然落幕。这一年，Flink 社区高速发展繁荣，我们发布了三个版本，举办了40+线上线下活动，推送了100+技术干货与最佳实践。新的一年开启之时，社区从年度最佳实践、核心技术解析、实时数仓实践、开源技术生态、机器学习应用等多个维度盘点了过去一年的成果，并向社区所有贡献者致敬。2021年，我们还将迎来哪些高光时刻，到达多远的远方，依旧期待您与我们共同前行！2020年度发版回顾官宣 | Apache Flink 1.10.0 重磅发布,年度最大规模版本升级！ ...

2021-02-10 14:30:57 129

原创大数据实操篇 No.16-记一次完整的Flink流计算案例（DataStream API）

第1章简介本篇文章采用Flink DataStream API完成一次端到端的完成流计算案例，将数据从Kafka抽取，写入Elasticsearch中，并且用kibana动态的展示出来。（客户端=>Web API服务=>Kafka=>Flink=>Elasticsearch=>Kibana）。第2章案例设计先定一个简单的需求（就根据当下的疫情情况来做吧）：统计各地区新冠疫情风险等级。我们假定每个地区确诊病例(0-10]例为低风险地区，(10-50]例为中风险地区，

2021-02-09 13:53:20 2079 3

原创大数据实操篇 No.15-Elasticsearch集群高可用部署（含Elasticsearch head+Kibana）

第1章 ELK简介ELK（Elasticsearch、Logstash、Kibana）提供了一整套日志分析解决方案，其中elasticsearch是开源分布式搜索引擎。Logstash是一个开源的日志采集工具。Kibana也是开源的数据分析可视化工具。三者结合，Logstash采集系统日志信息后，上传到Elasticsearch中，kibana在利用Elasticsearch分布式高效的检索引擎，将数据可视化的展示到Web界面上。对于一些中小型的系统，可以用ELK快速搭建一套日志分析系统。本篇文章为

2021-01-20 23:47:09 1751 6

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

windbg-x64 dump分析工具

ANTS Performance Profiler 8 安装包

.net memory profiler 4.0.114 内存分析工具

azkaban-3.86.0安装包

flink-sql-client.zip

flink-hive-jar.zip

实时计算在字节跳动的发展与展望.pdf

mysql-jdbc-connector-java-5.1.44

Flink1.11.0源码手动编译包

空空如也