自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

LizhiQiang

╰つ 情不知所起 一往情深゛

  • 博客(94)
  • 资源 (4)
  • 收藏
  • 关注

原创 Spark 的 Shuffle 看不懂?多图解析!

大多数 Spark 作业的性能主要就是消耗在了 shuffle 环节,因为该环节包含了大量的磁盘 IO、序列化、网络数据传输等操作。因此,如果要让作业的性能更上一层楼,就有必要对 shuffle 过程进行调优。但是也必须提醒大家的是,影响一个 Spark 作业性能的因素,主要还是代码开发、资源参数以及数据倾斜,shuffle 调优只能在整个 Spark 的性能调优中占到一小部分而已。因此大家务必把握住调优的基本原则,千万不要舍本逐末。下面我们就给大家详细讲解 shuffle 的原理,以及相关参数的说明,同时

2020-07-09 13:08:23 299

原创 Kafka Range、RoundRobin、Sticky 三种 分区分配策略区别

Kafka Range RoundRobin 和Sticky 三种 分区分配策略一、Kafka默认分区分配策略1、1 consumer 订阅 1 topic ( 7 partition )按照Kafka默认的消费逻辑设定,一个分区只能被同一个消费组(ConsumerGroup)内的一个消费者消费。假设目前某消费组内只有一个消费者C0,订阅了一个topic,这个topic包含7个分区,也就是说这个消费者C0订阅了7个分区,参考下图。2、2 consumer 订阅 1 topic ( 7 parti

2020-05-22 00:43:14 5677 7

原创 Hudi Hadoop3 环境运行报错, 关于 HftpFileSystem问题

hadoop2.x 存在 org.apache.hadoop.hdfs.web.HftpFileSystem 类。hadoop3.x 没有 org.apache.hadoop.hdfs.web.HftpFileSystem 类。因此会导致 SPI 发现这个实现类的时候报错。

2024-01-20 15:01:51 409

原创 Spark SQL 每年的1月1日算当年的第一个自然周, 给出日期,计算是本年的第几周

按每年的1月1日算当年的第一个自然周(遇到跨年也不管,如果1月1日是周三,那么到1月5号(周日)算是本年的第一个自然周, 如果按周一是一周的第一天)计算是本年的第几周,那么 spark sql 如何写?

2023-11-13 18:15:57 1395

原创 IDEA 2023.2.2 使用 Scala 编译报错 No scalac found to compile scala sources

Incrementality Type 先变成 IDEA 类型。升级到 2023.2.4 以后版本。

2023-10-26 17:50:35 1207

原创 Hadoop 请求数据长度 Requested Data length 超过配置的最大值

Spark 任务速度变慢,也不失败。DataNode 内存足够 CPU 负载不高 GC 时间也不长。查看 DataNode 日志,发现有些日志出现很多 Netty RPC 超时。

2023-10-26 17:40:25 1376

原创 Mac OS 13.4.1 搜狗输入法导致的卡顿问题

mac os 搜狗输入法卡顿解决

2023-08-26 21:43:49 3304

原创 大数据领域如何理解 Merge、Combine和Aggregate

例如,在MapReduce、Spark等大数据框架中,Shuffle过程中的Combiner可以将同一个节点上的中间结果组合起来,以减少数据在网络中的传输。在大数据领域,这通常涉及到将不同来源或分布式存储的数据整合在一起。例如,在SQL查询中的GROUP BY子句,以及Spark、Hadoop等大数据框架中的Reduce操作,都涉及到对数据进行聚合。总之,在大数据领域,Merge、Combine和Aggregate这三个词描述了数据处理过程中的不同操作,它们分别关注数据的整合、在分区中的优化和汇总。

2023-04-13 10:07:13 1694 1

原创 Flink minicluster 报错,因为 JDK 版本引起的错误

Flink minicluster报错,因为JDK版本引起的错误

2022-10-24 15:13:10 1171

原创 Hadoop 2.10.1 HDFS 透明加密原理 + 实战 + 验证

HDFS 透明加密在 Apache 集群上如何配置

2022-09-05 21:59:04 1915

原创 MacOS 环境编译 JVM 源码

MacOS 环境编译JVM源码

2022-09-03 21:36:43 734

原创 四. 优化与源码

Netty 优化与源码

2022-08-01 20:11:02 180

原创 三. Netty 进阶

Netty 进阶,粘包与半包

2022-07-20 11:33:34 147

原创 二. Netty 入门

Netty 入门必会

2022-07-18 00:06:27 164

原创 一. NIO 基础

netty

2022-07-17 16:25:56 126

原创 JetBrains IntelliJ IDEA 2022 插件市场无法找到插件问题

JetBrains IntelliJ IDEA2022 插件市场无法找到插件问题Marketplace 无法搜索到插件。

2022-06-24 11:41:55 1202

原创 flink1.14上传jar包源码

水一篇 flink 1.14 上传文件的源码流程为了方便查找,用 ⭐️⭐️⭐️ 标注了。上传文件核心源码就是 io 流的读写。1.10 和 1.14 大致相同,只有细微细节不同。从网上借个图。// YarnClusterDescriptor 类里面,有启动 startAppMaster 方法。private ApplicationReport startAppMaster( Configuration configuration, String appli

2021-12-27 21:09:35 800

原创 杭州各学历&市内迁移落户信息

类别落户材料办理地址备注应届研究生及以上 / 往届研究生及…杭州各学历 & 市内迁移落户信息类别落户材料办理地址备注应届研究生及以上 / 往届研究生及以上1. 身份证杭州市翠苑街道派出所 0571-56729301(杭州市西湖区教工路 197 号)* 应届毕业生省外户口无户口迁移证的,需提供户口薄(或户籍证明)复印件。办结时限为 15 个工作日   * 应届毕业生有户口迁移证的,迁移证上面的迁入地址必须是杭州,如果是别的省份不可以,需要去学校所在地的派出所变更2.

2021-09-28 13:53:14 343

原创 MacOS bigsur 使用 brew 安装 jdk7

homebrew 已经取消了 cask 这条命令,比如原先我们的安装命令是:brew cask install java现在需要改成:brew install --cask javajdk 7 包 被删除了。 有一种方式可以替代,那就是 zulu7brew install --cask homebrew/cask-versions/zulu7YES!查看一下 brew 安装的 jdk/usr/libexec/java_home -V参考文章:https://blog.csdn

2021-07-26 17:20:20 1162

原创 Flink SQL 1.12.3 通过 sql-client 访问 hive 元数据。

前言我尽可能的会把使用的细节写的详细一点,为后来的小伙伴节约点时间。一、问题如果用 sql-client.sh 来提交无法保存元数据,每次创建的表都在一个 session 中,而这个 session 保存在内存中。我们每次重启 sql-client.sh 后,元数据都会丢失。每次重新创建非常麻烦,flink 提供了一种选择, 让我们可以读取 hive 元数据。也就是我们 hive 中的表都可以通过 sql-client.sh 来读取。这对实现流批一体,和元数据的一致性也很有好处。二、原理解析

2021-05-14 10:35:45 2220 2

原创 修改了 host Hive 历史表无法删除问题

一、问题:主机名 hostname 修改了,导致无法删除 hive 的元数据。异常信息 :[ERROR] Could not execute SQL statement. Reason:org.apache.hadoop.hive.metastore.api.MetaException: java.lang.IllegalArgumentException: java.net.UnknownHostException: hadoop1二、解决方案:hostname的修改导致 hdfs 的路径改

2021-05-13 23:46:10 329

原创 Vim 插件 Report “YouCompleteMe unavailable: requires Vim compiled with Python 2.x support“ error

首先确认你的 python 版本如果你系统的 python版本大于提示的python版本。然后还是报错,就说明你编译时候可能没和系统的 python 关联。重新编译 Vim如果你是手动安装的 vim,就进入到你的 vim 目录。确保 configure 有执行权限,它会到 src 中去执行 configure ,确保这个文件也有执行权限。如果没有 x 那么就用 chmod +x configure 加上执行权限。然后 运行这个命令./configure -- enable-pytho

2021-03-27 16:33:27 519 1

原创 Flink 内存管理

一、内存分布图部分配置文件 flink-conf.yamljobmanager.rpc.address: bigdata1# The RPC port where the JobManager is reachable.jobmanager.rpc.port: 6123# The total process memory size for the JobManager.## Note this accounts for all memory usage within the Job

2021-03-18 23:46:04 428 1

原创 macOS date 命令增减时间。

mac date 命令使用环境:系统 macOS Catalina 10.15.7macOS 的 date 命令使用和 Linux 使用有稍许不同。放上几个小例子做记录。macOS 增减日期命令。usage: date [-jnRu] [-d dst] [-r seconds] [-t west] [-v[+|-]val[ymwdHMS]] ... [-f fmt date | [[[mm]dd]HH]MM[[cc]yy][.ss]] [+format]date -v

2021-01-29 18:40:33 3078

原创 Kaffa 按照时间重置 Topic 的所有分区 offset,时区问题?重置命令无效?

Kaffa 按照时间重置 Topic 的所有分区 offset,时区问题?重置命令无效?一、问题原因本质是 Timestamp 转成 DateTime 会默认读取 JVM 的时区,导致我们指定参数的时间比实际 Kafka 重置 offset 时间早了 8 小时。例如:我们指定参数的时间是 08:00:00 ,但是 kafka 内部的时间会以 16:00:00 重置 offset 。如果我们指定的时间是 8 点,现在时间是 9点,还没有到16:00:00。 这样就会导致一个问题,重置命令一直会吧 of

2021-01-28 14:29:35 1444

原创 Centos 7 安装 mysql 8.0.18 .

Centos 7 安装 mysql 8.一、安装环境1. 系统CentOS 7cat /proc/versionLinux version 3.10.0-1062.1.2.el7.x86_64 ([email protected]) (gcc version 4.8.5 20150623 (Red Hat 4.8.5-39) (GCC) ) #1 SMP Mon Sep 30 14:19:46 UTC 2019二、安装前置软件# 先安装一个包管理器。yu

2021-01-18 17:05:14 304

原创 Centos7 中安装最新版 maven 3.6.3

由于 yum 安装的版本比较老,有些项目不能打包,因此需要我们手动安装最新版。先查看当前是否有 mavenmvn --version如果有 用 remove 移除掉老版本。yum remove maven下载新版本 maven 安装包我此处下载 3.6.3 安装包maven 下载地址wget https://mirrors.ocf.berkeley.edu/apache/maven/maven-3/3.6.3/binaries/apache-maven-3.6.3-bin.tar.gz

2021-01-18 11:53:59 4478 1

原创 Flink 一个 依赖 引起的错误 JobGraph。

错误如下 :Exception in thread "main" java.lang.NoSuchMethodError: org.apache.flink.optimizer.plantranslate.JobGraphGenerator.addUserArtifactEntries(Ljava/util/Collection;Lorg/apache/flink/runtime/jobgraph/JobGraph;)V at org.apache.flink.streaming.api.graph.S

2020-11-24 20:52:25 1348

原创 Flink 自定义addSource 后 SourceFunction 的 run 方法如何执行?源码分析。

正片文章分两个阶段来分析。第一阶段在 AbstractUdfStreamOperator 中将 userFunction 指向 UserDefineSource, env.addSource(new UserDefineSource) 为入口。第二阶段在 StreamSource 中 通过 userFunction.run() 调用了 UserDefineSource 中的 run 方法。第一阶段用户自定义的类 def main(args: Array[String]): Unit =

2020-08-06 23:58:40 2184

原创 Mac 播放器 IINA 精确控制失效,调节了快捷键也会关键帧快进。

问题: IINA 播放器设置好了精确查找,快捷键也设置好了 → 向前跳转5秒,← 向后跳转 5秒。但是视频播放的时候还是会按关键帧跳转。解决办法:重新设置两个变量→设置为 : seek 5 relative+exact←设置为 : seek -5 relative+exact完美解决问题!!!IINA 加速就是1.1倍怎么办?只想加速 0.1 倍?附带一个速度解决方法。不想每次倍速1.1倍。 那么这么设置命令C 就是 加速 0.1 X 就是 减速 0.1 和 movist

2020-08-03 11:26:30 5345 10

原创 mysql 主从复制延迟产生的原因有哪些?

在某些部署环境中,备库所在的机器性能要比主库所在的机器性能差。此时如果机器的资源不足的话就会影响备库同步的效率;备库充当了读库,一般情况下主要写的压力在于主库,那么备库会提供一部分读的压力, 而如果备库的查询压力过大的话,备库的查询消耗了大量的CPU资源,那么必不可少的就会影响同步的速度大事务执行,如果主库的一个事务执行了5分钟,而binlog的写入必须要等待事务完成之后,才会传入备库,那么此时在开始执行的时候就已经延迟了5 分钟了主库的写操作是顺序写binlog, 从库单线程去主库顺序读binlo.

2020-07-26 20:54:04 633

原创 Spring 02 AOP、AspectJ、JdbcTemplate

spring 01 总结1.1编写流程(基于xml)1.导入jar包:4+1 --> beans/core/context/expression | commons-logging2.编写目标类:dao和service3.spring配置文件IoC:<bean id="" class="" >DI:<bean> <property name="" value="" | ref="">实例化方式: 默认构造 静态工厂:<bean id=

2020-07-26 16:50:06 146

原创 spring 01 :基础(IoC控制反转、DI依赖注入)、整合Junit、整合web

struts:web层,比较简单(ValueStack值栈,拦截器)hibernate:dao层,知识点杂spring:service层,重要,讲多少用多少 --> 【了解】spring day01:基础(IoC控制反转、DI依赖注入)、整合Junit、整合webspring day02:AOP切面编程、JdbcTemplatespring day03:事务管理、SSH整合1、spring框架概述1.1、什么是springSpring是一个开源框架,Spring是于2003 年兴

2020-07-22 12:51:36 144

原创 Phoenix 错误 client does not have phoenix.schema.isNamespaceMappingEnabled enabled

一、问题使用 Phoenix 客户端连接的时候 Phoenix 时候报错。错误如下:Inconsistent namespace mapping properties. Cannot initiate connection as SYSTEM:CATALOG is found but client does not have phoenix.schema.isNamespaceMappingEnabled enabled二、原因select * from SYSTEM."CATALOG";查

2020-07-21 15:58:00 2533

原创 phoenix 第三方客户端 查看所有表

phoenix shell 中查看表用 !table 或 !table, 那么在第三方客户端怎么查看所有表?

2020-07-21 14:38:59 2302

原创 Java内存管理之类似-Xms、-Xmx 这些参数的含义

一、Java 内存管理之类似 - Xms、-Xmx 这些参数的含义答:堆内存分配:-Xms JVM 初始分配的内存由 -Xms 指定,默认是物理内存的 1/64;-Xmx JVM 最大分配的内存由 -Xmx 指定,默认是物理内存的 1/4;默认空余堆内存小于 40% 时,JVM 就会增大堆直到 - Xmx 的最大限制;空余堆内存大于 70% 时,JVM 会减少堆直到 -Xms 的最小限制;因此服务器一般设置 - Xms、-Xmx 相等以避免在每次 GC 后调整堆的大小。对象的堆内存由

2020-07-09 11:40:17 1454

原创 DataGrip 连接 HiveServer2 报错

DataGrip 连接 HiveServer2 报错一、Heap memoryException in thread "main" java.lang.OutOfMemoryError: Java heap space因为 DataGrip 会开好几个 Session,我这里是 4 个 Session因此有时候如果执行的语句过大,会造成堆内存来不起回收。导致堆内存溢出,反应在 DataGrip 就是执行语句卡住没反应,等很久然后报错。这里有个超时时间,等很久就是超过这个超时时间后报错。我们可以

2020-07-03 20:38:30 1573

原创 动态规划入门 之 最大子序和 dp or 分治 (循序渐进)

最大子序和给定一个整数数组 nums ,找到一个具有最大和的连续子数组(子数组最少包含一个元素),返回其最大和。示例:输入: [-2,1,-3,4,-1,2,1,-5,4],输出: 6解释: 连续子数组 [4,-1,2,1] 的和最大,为 6。进阶:如果你已经实现复杂度为 O(n) 的解法,尝试使用更为精妙的分治法求解。方法一、暴力解法比较容易想到的是用“暴力解法”做,即穷举所有的子区间。思路虽然简单,但是写好暴力解法也不是一件容易的事情。使用双层循环,穷举所有的子区间;然后再对子区

2020-06-20 20:35:07 363

原创 5. Linux C 输入输出与文件

LINUX输入输出与文件1.基于文件指针的文件操作(缓冲)先来介绍 6 个概念:① linux的文件和文件描述符linux中对目录和设备的操作都是文件操作,文件分为普通文件,目录文件,链接文件和设备文件。② 普通文件:也称磁盘文件,并且能够进行随机的数据存储(能够自由seek定位到某一个位置);③ 管道:是一个从一端发送数据,另一端接收数据的数据通道;④ 目录:也称为目录文件,它包含了保存在目录中文件列表的简单文件。④ 设备:该类型的文件提供了大多数物理设备的接口。它又分为两种类型:字符型

2020-06-20 19:37:12 1148

原创 1. Linux 最最最基础的命令

Linux 常用命令Linux下有两种用户:超级用户(root)、普通用户。a)超级用户:可以再linux系统下做任何事情,不受限制。b)普通用户:在linux下做有限的事情。超级用户的命令提示符是“#”,普通用户的命令提示符是“$”。命令:su [用户名]功能:切换用户。例如,要从root用户切换到普通用户user,则使用 su user。要从普通用户user切换到root用户则使用 su root(root可以省略),此时系统会提示输入root用户的口令。添加用户。命令:us

2020-06-20 17:38:01 281

PowerPointViewer.exe

用于 Mac OS 安装 Consolas 字体。 网上给的通用的那个教程下载的不完整,解压会报错。 这个我使用没问题。

2020-03-20

SpringMVC +Spring4.3.12+jackson+文件上传

SpringMVC +Spring4.3.12+jackson+文件上传 所有Jar包

2017-11-14

hdu 5007 Post Robot

hdu 5007 Post Robot 字符串枚举。 暴力一下就可以了。

2014-09-21

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除