java_bing-CSDN博客

原创综述:hadoop /hive中的基础知识比如小文件，map task个数，mr 流程等

按理说一个文件是一个map task 个数，但是我们目前是在hive测试的（而hive 默认用的文件读取个数是set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat;那就是1个文件1个map task (但是我测试的是n+1 个，比如4个文件，是5个map task)

2024-04-19 15:20:27 57

原创快排中的思路（快速排序）-912题目

3: 因为我们默认选取的排序的数据是target=left, 从left开始的，（也就是说第一个洞其实是left）, 所以我们需要从右边开始遍历找到数据填补left的，所以第一个while 循环是从右边开始的。５：因为逻辑是右边的填充左边的洞，左边的填充右边的洞，　看起来是　偶数个，但是万一只有奇数个，因为推出循环的时候ｌｅｆｔ＝ｒｉｇｈｔ，　所以ｔａｒｇｅｔ　直接放在ｌｅｆｔ　或者ｒｉｇｈｔ　位置都是可以的。这个其实是 “赋值的思想”，赋值后，一方就是空的了，下一次就是给这个空的赋值了。

2023-05-12 09:54:59 65 1

原创 flinksql 构造倾斜、某个task 被压的数据案例

public static void main(String[] args) throws Exception { StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment(); StreamTableEnvironment tableEnvironment = StreamTableEnvironment.create(env); // ...

2021-08-28 21:20:55 143

原创亿万级海量数据去重软方法，spark/hive/flink/mr通用

亿万级海量数据去重软方法，spark/hive/flink/mr通用https://blog.csdn.net/u013289115/article/details/105232115?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-1.control&dist_request_id=1328655.156.16158066438943727&depth_1-utm_sour

2021-08-22 21:35:30 328

原创 Apache Commons各个jar包的功能说明

https://www.cnblogs.com/myitnews/p/12285285.html比如Apache Commons CLI 库提供API，可以帮助程序去解析传递给程序的命令行参数。它也可以打印帮助信息，来说明可以运用于命令行的有效参数。

2021-08-22 21:35:19 136

原创 flink 中的日志的设置

https://blog.csdn.net/ifenggege/article/details/114434195

2021-06-20 00:47:35 349

原创 flinksql科普入门

方法才vhttps://alice.blog.csdn.net/article/details/112684177

2021-05-30 19:52:17 84

原创 flink实时数仓04：一条元数据表的建立

一条元数据的建立，其实对应一个表的产生（一个存储的映射），而且在建立这个表的时候要你指定表的分层，其实也表示了在某层中加了个表某个存储介质A,想要把他映射成一个表，在下图点击新建按钮就可以了，但是在新建前，提示你先选择一个库，为啥这样呢？个人认为：因为我们要把A映射成表，而一般表都是属于库的（感觉这个理由不合适）第二：为了用库进行标识啊，可能部门1用介质A，部门2也是用介质A,他们都需要映射，把映射成的表放在不同的库中，所以加个库的分类，第三：因为以后映射的表就是我们的数仓中的一个存储了，.

2021-05-13 20:29:41 229

原创 restcontrol 注解

首先这个注解是用在类上的，表示类中的所有的方法都是rest风格的，方法的返回值都是json, (大部分是对的)SpringBoot仍然秉承MVC的架构，在注解命名方面遵循此类讲究，对于负责Restful API交互的功能模块，SpingBoot采用@RestController在修饰类@RestController = @Controller + @ResponseBody组成，等号右边两位同志简单介绍两句，就明白我们@RestController的意义了：@Control...

2021-04-21 19:15:49 1054

原创数组中的元素，大部分都出现了2次，只要1个出现了1次，把这2个找出来

e02fdb54d7524710a7d664d082bb7811/*数组中的元素，大部分都出现了2次，只要1个出现了1次，把这2个找出来*/ // 解法1 ：用map, 主要是containsKey的方法的使用，不过要遍历两次 public static int shuzu(int[]a){HashMap<Integer,Integer> s= ...

2020-04-12 22:38:07 297

原创用overhhead 调整spark 中yarn 的内存

https://blog.csdn.net/pearl8899/article/details/80368018https://www.jianshu.com/p/391f8776e66f

2020-02-21 13:22:00 96

原创 uninon all 的经典应用

https://www.w3school.com.cn/sql/sql_union.aspA union B 如果A中的一列和B中的一列完全一样,那就只选取一列A unionallB 如果A中的一列和B中的一列完全一样,那就选择所有列table C left join (select distinct learn_season, semester_id,...

2020-01-12 17:08:33 723

原创 G1

1、垃圾回收器需要做三件事：分配内存：垃圾回收算法的设计往往制约了内存分配的方式；确保存活对象不会被回收回收垃圾对象（垃圾是指那些不再被使用的对象）2、对于垃圾回收器的回收来说，不管算法怎么样,基本思路都是基于以下流程：可达性分析法扫描得到根节点——>从根节点扫描被引用存活对象——>删除不再应用到的对象一、G1垃圾回收器特点1、G...

2019-10-09 18:33:17 122

java_bing的专栏