自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 收藏
  • 关注

原创 综述:hadoop /hive中的基础知识比如小文件,map task个数,mr 流程等

按理说一个文件是一个map task 个数,但是我们目前是在hive测试的(而hive 默认用的文件读取个数是set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat;那就是1个文件1个map task (但是我测试的是n+1 个,比如4个文件,是5个map task)

2024-04-19 15:20:27 57

原创 快排中的思路(快速排序)-912题目

3: 因为我们默认选取的排序的数据是target=left, 从left开始的,(也就是说 第一个洞其实是left), 所以我们需要从右边开始遍历找到数据填补left的, 所以第一个while 循环是从右边开始的。5:因为逻辑是右边的填充左边的洞,左边的填充右边的洞, 看起来是 偶数个,但是万一只有奇数个,因为推出循环的时候left=right, 所以target 直接放在left 或者right 位置都是可以的。这个其实是 “赋值的思想”, 赋值后,一方就是空的了,下一次就是给这个空的赋值了。

2023-05-12 09:54:59 65 1

原创 flinksql 构造倾斜、某个task 被压的数据案例

public static void main(String[] args) throws Exception { StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment(); StreamTableEnvironment tableEnvironment = StreamTableEnvironment.create(env); // ...

2021-08-28 21:20:55 143

原创 亿万级海量数据去重软方法,spark/hive/flink/mr通用

亿万级海量数据去重软方法,spark/hive/flink/mr通用https://blog.csdn.net/u013289115/article/details/105232115?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-1.control&dist_request_id=1328655.156.16158066438943727&depth_1-utm_sour

2021-08-22 21:35:30 328

原创 Apache Commons各个jar包的功能说明

https://www.cnblogs.com/myitnews/p/12285285.html比如Apache Commons CLI 库提供API,可以帮助程序去解析传递给程序的命令行参数。它也可以打印帮助信息,来说明可以运用于命令行的有效参数。

2021-08-22 21:35:19 136

原创 flink 中的日志的设置

https://blog.csdn.net/ifenggege/article/details/114434195

2021-06-20 00:47:35 349

原创 flinksql科普入门

方法才vhttps://alice.blog.csdn.net/article/details/112684177

2021-05-30 19:52:17 84

原创 flink实时数仓04:一条元数据表的建立

一条元数据的建立,其实对应一个表的产生(一个存储的映射),而且在建立这个表的时候要你指定表的分层,其实也表示了在某层中加了个表某个存储介质A,想要把他映射成一个表,在下图点击新建按钮就可以了,但是在新建前,提示你先选择一个库,为啥这样呢? 个人认为:因为我们要把A映射成表,而一般表都是属于库的(感觉这个理由不合适) 第二:为了用库进行标识 啊,可能部门1用介质A,部门2也是用介质A,他们都需要映射,把映射成的表放在不同的库中,所以加个库的分类, 第三:因为以后映射的表就是我们的数仓中的一个存储了,.

2021-05-13 20:29:41 229

原创 restcontrol 注解

首先这个注解是用在类上的, 表示类中的所有的方法都是rest风格的,方法的返回值都是json, (大部分是对的)SpringBoot仍然秉承MVC的架构,在注解命名方面遵循此类讲究,对于负责Restful API交互的功能模块,SpingBoot采用@RestController在修饰类@RestController = @Controller + @ResponseBody组成,等号右边两位同志简单介绍两句,就明白我们@RestController的意义了:@Control...

2021-04-21 19:15:49 1054

原创 数组中的元素,大部分都出现了2次,只要1个出现了1次,把这2个找出来

e02fdb54d7524710a7d664d082bb7811/*数组中的元素,大部分都出现了2次,只要1个出现了1次,把这2个找出来*/ // 解法1 : 用map, 主要是containsKey的方法的使用,不过要遍历两次 public static int shuzu(int[]a){HashMap<Integer,Integer> s= ...

2020-04-12 22:38:07 297

原创 用overhhead 调整spark 中yarn 的内存

https://blog.csdn.net/pearl8899/article/details/80368018https://www.jianshu.com/p/391f8776e66f

2020-02-21 13:22:00 96

原创 uninon all 的经典应用

https://www.w3school.com.cn/sql/sql_union.aspA union B 如果A中的一列和B中的一列完全一样,那就只选取一列A unionallB 如果A中的一列和B中的一列完全一样,那就选择所有列table C left join (select distinct learn_season, semester_id,...

2020-01-12 17:08:33 723

原创 G1

1、垃圾回收器需要做三件事: 分配内存:垃圾回收算法的设计往往制约了内存分配的方式; 确保存活对象不会被回收 回收垃圾对象(垃圾是指那些不再被使用的对象)2、对于垃圾回收器的回收来说,不管算法怎么样,基本思路都是基于以下流程:可达性分析法 扫描得到根节点——>从根节点扫描被引用存活对象——>删除不再应用到的对象一、G1垃圾回收器特点1、G...

2019-10-09 18:33:17 122

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除