_lizhiqiang-CSDN博客

原创 Spark 的 Shuffle 看不懂？多图解析！

大多数 Spark 作业的性能主要就是消耗在了 shuffle 环节，因为该环节包含了大量的磁盘 IO、序列化、网络数据传输等操作。因此，如果要让作业的性能更上一层楼，就有必要对 shuffle 过程进行调优。但是也必须提醒大家的是，影响一个 Spark 作业性能的因素，主要还是代码开发、资源参数以及数据倾斜，shuffle 调优只能在整个 Spark 的性能调优中占到一小部分而已。因此大家务必把握住调优的基本原则，千万不要舍本逐末。下面我们就给大家详细讲解 shuffle 的原理，以及相关参数的说明，同时

2020-07-09 13:08:23 299

原创 Kafka Range、RoundRobin、Sticky 三种分区分配策略区别

Kafka Range RoundRobin 和Sticky 三种分区分配策略一、Kafka默认分区分配策略1、1 consumer 订阅 1 topic ( 7 partition )按照Kafka默认的消费逻辑设定，一个分区只能被同一个消费组（ConsumerGroup）内的一个消费者消费。假设目前某消费组内只有一个消费者C0，订阅了一个topic，这个topic包含7个分区，也就是说这个消费者C0订阅了7个分区，参考下图。2、2 consumer 订阅 1 topic ( 7 parti

2020-05-22 00:43:14 5677 7

原创 Hudi Hadoop3 环境运行报错, 关于 HftpFileSystem问题

hadoop2.x 存在 org.apache.hadoop.hdfs.web.HftpFileSystem 类。hadoop3.x 没有 org.apache.hadoop.hdfs.web.HftpFileSystem 类。因此会导致 SPI 发现这个实现类的时候报错。

2024-01-20 15:01:51 409

原创 Spark SQL 每年的1月1日算当年的第一个自然周, 给出日期，计算是本年的第几周

按每年的1月1日算当年的第一个自然周(遇到跨年也不管，如果1月1日是周三，那么到1月5号（周日）算是本年的第一个自然周, 如果按周一是一周的第一天)计算是本年的第几周，那么 spark sql 如何写?

2023-11-13 18:15:57 1395

原创 IDEA 2023.2.2 使用 Scala 编译报错 No scalac found to compile scala sources

Incrementality Type 先变成 IDEA 类型。升级到 2023.2.4 以后版本。

2023-10-26 17:50:35 1207

原创 Hadoop 请求数据长度 Requested Data length 超过配置的最大值

Spark 任务速度变慢，也不失败。DataNode 内存足够 CPU 负载不高 GC 时间也不长。查看 DataNode 日志，发现有些日志出现很多 Netty RPC 超时。

2023-10-26 17:40:25 1376

原创 Mac OS 13.4.1 搜狗输入法导致的卡顿问题

mac os 搜狗输入法卡顿解决

2023-08-26 21:43:49 3304

原创大数据领域如何理解 Merge、Combine和Aggregate

例如，在MapReduce、Spark等大数据框架中，Shuffle过程中的Combiner可以将同一个节点上的中间结果组合起来，以减少数据在网络中的传输。在大数据领域，这通常涉及到将不同来源或分布式存储的数据整合在一起。例如，在SQL查询中的GROUP BY子句，以及Spark、Hadoop等大数据框架中的Reduce操作，都涉及到对数据进行聚合。总之，在大数据领域，Merge、Combine和Aggregate这三个词描述了数据处理过程中的不同操作，它们分别关注数据的整合、在分区中的优化和汇总。

2023-04-13 10:07:13 1694 1

原创 Flink minicluster 报错，因为 JDK 版本引起的错误

Flink minicluster报错，因为JDK版本引起的错误

2022-10-24 15:13:10 1171

原创 Hadoop 2.10.1 HDFS 透明加密原理 + 实战 + 验证

HDFS 透明加密在 Apache 集群上如何配置

2022-09-05 21:59:04 1915

原创 MacOS 环境编译 JVM 源码

MacOS 环境编译JVM源码

2022-09-03 21:36:43 734

原创四. 优化与源码

Netty 优化与源码

2022-08-01 20:11:02 180

原创三. Netty 进阶

Netty 进阶，粘包与半包

2022-07-20 11:33:34 147

原创二. Netty 入门

Netty 入门必会

2022-07-18 00:06:27 164

原创一. NIO 基础

netty

2022-07-17 16:25:56 126

原创 JetBrains IntelliJ IDEA 2022 插件市场无法找到插件问题

JetBrains IntelliJ IDEA2022 插件市场无法找到插件问题Marketplace 无法搜索到插件。

2022-06-24 11:41:55 1202

原创 flink1.14上传jar包源码

水一篇 flink 1.14 上传文件的源码流程为了方便查找，用 ⭐️⭐️⭐️ 标注了。上传文件核心源码就是 io 流的读写。1.10 和 1.14 大致相同，只有细微细节不同。从网上借个图。// YarnClusterDescriptor 类里面，有启动 startAppMaster 方法。private ApplicationReport startAppMaster( Configuration configuration, String appli

2021-12-27 21:09:35 800

原创杭州各学历&市内迁移落户信息

类别落户材料办理地址备注应届研究生及以上 / 往届研究生及…杭州各学历 & 市内迁移落户信息类别落户材料办理地址备注应届研究生及以上 / 往届研究生及以上1. 身份证杭州市翠苑街道派出所 0571-56729301（杭州市西湖区教工路 197 号）* 应届毕业生省外户口无户口迁移证的，需提供户口薄（或户籍证明）复印件。办结时限为 15 个工作日 * 应届毕业生有户口迁移证的，迁移证上面的迁入地址必须是杭州，如果是别的省份不可以，需要去学校所在地的派出所变更2.

2021-09-28 13:53:14 343

原创 MacOS bigsur 使用 brew 安装 jdk7

homebrew 已经取消了 cask 这条命令，比如原先我们的安装命令是：brew cask install java现在需要改成：brew install --cask javajdk 7 包被删除了。有一种方式可以替代，那就是 zulu7brew install --cask homebrew/cask-versions/zulu7YES!查看一下 brew 安装的 jdk/usr/libexec/java_home -V参考文章:https://blog.csdn

2021-07-26 17:20:20 1162

原创 Flink SQL 1.12.3 通过 sql-client 访问 hive 元数据。

前言我尽可能的会把使用的细节写的详细一点，为后来的小伙伴节约点时间。一、问题如果用 sql-client.sh 来提交无法保存元数据，每次创建的表都在一个 session 中，而这个 session 保存在内存中。我们每次重启 sql-client.sh 后，元数据都会丢失。每次重新创建非常麻烦，flink 提供了一种选择，让我们可以读取 hive 元数据。也就是我们 hive 中的表都可以通过 sql-client.sh 来读取。这对实现流批一体，和元数据的一致性也很有好处。二、原理解析

2021-05-14 10:35:45 2220 2

原创修改了 host Hive 历史表无法删除问题

一、问题：主机名 hostname 修改了，导致无法删除 hive 的元数据。异常信息：[ERROR] Could not execute SQL statement. Reason:org.apache.hadoop.hive.metastore.api.MetaException: java.lang.IllegalArgumentException: java.net.UnknownHostException: hadoop1二、解决方案：hostname的修改导致 hdfs 的路径改

2021-05-13 23:46:10 329

原创 Vim 插件 Report “YouCompleteMe unavailable: requires Vim compiled with Python 2.x support“ error

首先确认你的 python 版本如果你系统的 python版本大于提示的python版本。然后还是报错，就说明你编译时候可能没和系统的 python 关联。重新编译 Vim如果你是手动安装的 vim，就进入到你的 vim 目录。确保 configure 有执行权限，它会到 src 中去执行 configure ，确保这个文件也有执行权限。如果没有 x 那么就用 chmod +x configure 加上执行权限。然后运行这个命令./configure -- enable-pytho

2021-03-27 16:33:27 519 1

原创 Flink 内存管理

一、内存分布图部分配置文件 flink-conf.yamljobmanager.rpc.address: bigdata1# The RPC port where the JobManager is reachable.jobmanager.rpc.port: 6123# The total process memory size for the JobManager.## Note this accounts for all memory usage within the Job

2021-03-18 23:46:04 428 1

原创 macOS date 命令增减时间。

mac date 命令使用环境：系统 macOS Catalina 10.15.7macOS 的 date 命令使用和 Linux 使用有稍许不同。放上几个小例子做记录。macOS 增减日期命令。usage: date [-jnRu] [-d dst] [-r seconds] [-t west] [-v[+|-]val[ymwdHMS]] ... [-f fmt date | [[[mm]dd]HH]MM[[cc]yy][.ss]] [+format]date -v

2021-01-29 18:40:33 3078

原创 Kaffa 按照时间重置 Topic 的所有分区 offset，时区问题？重置命令无效？

Kaffa 按照时间重置 Topic 的所有分区 offset，时区问题？重置命令无效？一、问题原因本质是 Timestamp 转成 DateTime 会默认读取 JVM 的时区，导致我们指定参数的时间比实际 Kafka 重置 offset 时间早了 8 小时。例如：我们指定参数的时间是 08:00:00 ，但是 kafka 内部的时间会以 16:00:00 重置 offset 。如果我们指定的时间是 8 点，现在时间是 9点，还没有到16:00:00。这样就会导致一个问题，重置命令一直会吧 of

2021-01-28 14:29:35 1444

原创 Centos 7 安装 mysql 8.0.18 .

Centos 7 安装 mysql 8.一、安装环境1. 系统CentOS 7cat /proc/versionLinux version 3.10.0-1062.1.2.el7.x86_64 ([email protected]) (gcc version 4.8.5 20150623 (Red Hat 4.8.5-39) (GCC) ) #1 SMP Mon Sep 30 14:19:46 UTC 2019二、安装前置软件# 先安装一个包管理器。yu

2021-01-18 17:05:14 304

原创 Centos7 中安装最新版 maven 3.6.3

由于 yum 安装的版本比较老，有些项目不能打包，因此需要我们手动安装最新版。先查看当前是否有 mavenmvn --version如果有用 remove 移除掉老版本。yum remove maven下载新版本 maven 安装包我此处下载 3.6.3 安装包maven 下载地址wget https://mirrors.ocf.berkeley.edu/apache/maven/maven-3/3.6.3/binaries/apache-maven-3.6.3-bin.tar.gz

2021-01-18 11:53:59 4478 1

原创 Flink 一个依赖引起的错误 JobGraph。

错误如下 :Exception in thread "main" java.lang.NoSuchMethodError: org.apache.flink.optimizer.plantranslate.JobGraphGenerator.addUserArtifactEntries(Ljava/util/Collection;Lorg/apache/flink/runtime/jobgraph/JobGraph;)V at org.apache.flink.streaming.api.graph.S

2020-11-24 20:52:25 1348

原创 Flink 自定义addSource 后 SourceFunction 的 run 方法如何执行？源码分析。

正片文章分两个阶段来分析。第一阶段在 AbstractUdfStreamOperator 中将 userFunction 指向 UserDefineSource， env.addSource(new UserDefineSource) 为入口。第二阶段在 StreamSource 中通过 userFunction.run() 调用了 UserDefineSource 中的 run 方法。第一阶段用户自定义的类 def main(args: Array[String]): Unit =

2020-08-06 23:58:40 2184

原创 Mac 播放器 IINA 精确控制失效，调节了快捷键也会关键帧快进。

问题： IINA 播放器设置好了精确查找，快捷键也设置好了 → 向前跳转5秒，← 向后跳转 5秒。但是视频播放的时候还是会按关键帧跳转。解决办法：重新设置两个变量→设置为 : seek 5 relative+exact←设置为 : seek -5 relative+exact完美解决问题！！！IINA 加速就是1.1倍怎么办？只想加速 0.1 倍？附带一个速度解决方法。不想每次倍速1.1倍。那么这么设置命令C 就是加速 0.1 X 就是减速 0.1 和 movist

2020-08-03 11:26:30 5345 10

原创 mysql 主从复制延迟产生的原因有哪些？

在某些部署环境中，备库所在的机器性能要比主库所在的机器性能差。此时如果机器的资源不足的话就会影响备库同步的效率；备库充当了读库，一般情况下主要写的压力在于主库，那么备库会提供一部分读的压力，而如果备库的查询压力过大的话，备库的查询消耗了大量的CPU资源，那么必不可少的就会影响同步的速度大事务执行，如果主库的一个事务执行了5分钟，而binlog的写入必须要等待事务完成之后，才会传入备库，那么此时在开始执行的时候就已经延迟了5 分钟了主库的写操作是顺序写binlog，从库单线程去主库顺序读binlo.

2020-07-26 20:54:04 633

PowerPointViewer.exe

SpringMVC +Spring4.3.12+jackson+文件上传

hdu 5007 Post Robot

空空如也