xingchengdahai_999-CSDN博客

原创主线程等待线程池里所有线程执行完成之后再执行

CountDownLatch实现主线程等待线程池中所有线程执行完之后再执行

2022-05-12 15:51:43 3768 3

原创 flink-cdc1.13.6读取mysql-binlog写入kafka出现数据倾斜

一、flink-cdc读取数据写入kafka出现了数据倾斜

2022-02-24 11:32:24 1932

虚拟机启动报错系统繁忙当虚拟机出现上图情况时，无法关闭也无法重新启动。原因是在关闭虚拟机的时候没有正常关闭导致的。此时在虚拟机的目录下出现了下图中的前三个文件，是无法删除的 3. 此时需要使用如下window + R 输入： msconfig 然后确认4、然后点击【服务】-》选中【隐藏所有Microsoft服务】 =》【全部禁用】5、然后重启计算机。可以删除之前无法删除的三个文件。6、使用如下window + R 输入： msconfig 点击【服务】-》选中【隐藏所有Microsof

2022-02-12 10:37:59 4218 2

原创 Flink的Checkpoint和savepoint的区别和作用

Flink的Checkpoint和savepoint的区别和作用一、Flink的checkpointflink的checkpoint是异步的、分布式的、轻量级的，将同一时间点的task/operator的状态数据全局统一快照处理，包括用户自定义的keyed state和operator state 当未来程序出现问题，可以基于保存的快照容错。checkpoint的原理A：flink会在输入的数据集中，间隔的生成checkpoint barrier，通过barrier间隔时间段内的数据划分到相应的c

2020-12-31 07:28:40 1113

原创 Flink提交作业到yarn session集群main函数命令行参数传递

创建flink的yarn session集群yarn-session.sh -n 3 -s 3 -nm flink-sessiontest -d -qyarn-session选项：-n,–container ：在yarn中启动container的个数，实质就是TaskManager的个数-s,–slots ：每个TaskManager管理的Slot个数-nm,–name :给当前的yarn-session(Flink集群)起一个名字-d,–detached:后台独立模式启动，守护进程-tm,

2020-12-18 11:18:21 3010

原创使用dataX将HBase的数据导入到Oracle问题总结

1 、datax的安装，略，下载安装包开箱即用2 、开发可以参考官方的github非常全面datax的job配置指导3、操作中发现hbase的数据一直导出为空。job的配置文件如下：按照如上的配置使用命令调用： python datax.py …/job/hbase2oracle3.json发现数据没有读取出来。最后将job的json文件改成小写之后才成功了！数据成功读取并导入到了Oracle总结：大数据环境中有些场景下对大小写是敏感的，不像Oracle，大小写不明感（除了

2020-12-09 17:51:15 750

原创 Mysql的索引优化总结

Mysql的优化一、回表，索引覆盖，索引下推，最左匹配

2020-05-07 23:14:34 146

原创 Mysql的索引为什么使用B+Tree

Mysql的索引为什么使用B+Tree四个问题为什么要设计索引？如果是你，改如何设计索引？设计索引的时候使用什么数据结构？Mysql的索引是如何实现的？一、mysql的存储引擎show engines; 可以查看mysql所使用的的存储引擎，因为不同的索引是构建在不同的存储引擎之上的。1：如上图，用的最多的三种就是：InnoDB（B+树，支持自适应hash，没法人为的去改变）。...

2020-05-07 17:24:02 147

原创 Redis是多线程的吗

Redis是多线程的吗？很多面试官在面试的时候会问：redis在业务处理的时候是多线程还是单线程的？，仅仅回答是多线程或者是单线程都不是很恰当，所以在文章的后面总结出一个简洁的回答。本次总结是针对Redis5.X的，不是刚刚2020-05-02号上线的Redis6.X的版本，值得注意的是这次6.X版本中新增了I/O threads 。一、redis5.x的安装（centos6.x）1 ：m...

2020-05-05 00:52:45 803

原创 JVM垃圾回收算法

GC的基础知识初谈关于GC后面会持续更新，这次先简单的整体总结一下GC，才疏学浅，希望大家多多指教，共同和学习共同进步！一、如何定位垃圾1：引用计数法：对被引用的对象进行标记 +1，当标记为0时，就是需要回收的垃圾对象，但是这种方法只能标记出部分对象。但是对于循环引用的对象就无法标记了如下图这种对象就不能被回收：2：跟可达算法就是解决上述1中的循环引用不能垃圾回收的算法。当一个程序...

2020-04-15 00:07:05 287

原创 kafka如何实现无消息丢失

kafka如何实现无消息丢失1：kafka什么情况下才能保证消息不丢失了？kafka只对已提交的消息做有限度的持久化保存A:什么是已提交消息，kafka的broker成功的接收到一条消息并成功的写入到日志文件中后，会告诉生产者这条消息已提交成功，此时这条消息在kafka看来是已提交消息。至于要多少个broker告诉生产者，这个需要设置kafka的ACK机制了，0，1，-12：目前kafk...

2020-04-11 21:47:15 151

原创 kafka是如何将数据均匀分布到所有服务器上

kafka是如何将数据均匀分布到所有服务器上2019-06-24

2020-04-11 11:15:38 1685

原创生产中kafka集群最最重要的集群参数配置

最最重要的kafka集群参数配置一、Broker 端参数1：Broker是需要配置存储信息的，即Broker使用哪些磁盘，针对存储信息的参数如下：log.dirs：指定Broker需要使用的若干个文件目录，这个参数没有默认值，这个需要自己指定。log.dir：他是上一个参数的补充。所以只用设置log.dirs即可。2：一般线上的生产环境中都会给log.dirs指定多个路径，例如：/opt...

2020-04-09 23:20:27 288

原创生产中kafka集群需要规划多大的存储空间

生产中kafka集群需要规划多大的存储空间说明：kafka会把消息保存到磁盘中，这些消息默认保存一段时间之后就会被自动删除，多久删除是通过配置文件自己配置规划的。一、需要考虑一下几点问题：1：增量消息2：消息的留存时间3：消息副本数4：平均每条消息的大小5：是否使用消息压缩二、举例计算一下假如每天5亿条 1KB大小的消息，副本数是3个，保存一周的时间，那么总的空间大小就是：5亿...

2020-04-09 22:21:18 3841

原创 kafka的ACK机制

kafka的ACK机制介绍1）：0：producer不等broker的leader同步完成确认，继续发送下一条或者下一批消息。延迟最低，持久性最弱。服务器发生故障，很有可能丢失数据。也就是at most once2）：1：producer等到leader收到数据并得到确认，才发送下一条或者下一批消息，有较好的持久性和延迟性。也就是所说的消息的异步同步。3）：-1：producer等到所有的f...

2020-04-07 21:23:17 397

原创 MapReduce框架原理

MapReduce流程详解一、MapReduce流程图如上图所示，就是一个map，reduce的过程，其中包括了map过程，shuffle过程，reduce过程二、关于shuffle过程详解1：mapTask收集我们map方法输出的<k,v>，放入到内存缓冲区中。2：从缓冲区中以【80% * 缓冲区大小】的文件溢写到磁盘，可能是多个文件。3：多个溢写出的文件会被合并成大...

2020-04-06 23:36:45 132

原创 HDFS的文件读写流程剖析

HDFS的文件读写流程剖析一、HDFS文件写入流程1：客户端向集群中的NameNode发送文件上传的请求，NN进行一系列的校验（文件是否存在，权限是否存在，文件目录是否存在），当校验通过之后，NN会给客户端一个相应，通知客户端可以上传文件。2：客户端会第二次请求第一个文件的block要传到哪些datanode中，namenode就会返回对应的DN，分别为DN1，DN2，DN3。3：客户端请...

2020-04-04 23:42:57 217

原创加载hdfs的parquet文件到hive的分区表注意事项

加载hdfs的parquet文件到hive的分区表注意事项加载hdfs的parquet文件到hive的分区表中时，数据加载不进去问题场景描述1、使用spark将文件以parquet格式写入到HDFS中的指定路径下hdfs://myserver:8020/user/hive/warehouse/wechat，然后使用ALTER TABLE wechat SET LOCATION ‘hdfs...

2020-04-01 11:27:10 1459

weixin_43525585的博客

原创自定义带返回参数和没有返回参数的线程池

原创 java实现数据范围切片工具方法