韩家小志-CSDN博客

原创 Spark--一文了解WebUI

日常工作中经常用到sparkui来排查一些问题，有些东西需要经常搜索，网上的文章有写的很棒的，也有写的一言难尽的，这里参考了其他大佬的文章，自己整体梳理了一下，方便自己使用，也希望能帮助到大家～

2024-01-16 22:32:57 1642 2

原创 Presto--常见语法

我们的查询引擎有hive、spark、presto，presto查询速度快，但是很多语法和sparksql不兼容，这里记录一下经常用的语法，方便自己使用，也供大家参考。

2024-01-16 18:07:37 504

原创 Hive--map个数过多超阈值被kill

【代码】Hive--map个数过多超阈值被kill。

2023-12-05 23:37:44 154

原创 Hive--java.io.IOException:Split metadata size exceeded 10000000

【代码】Hive--java.io.IOException:Split metadata size exceeded 10000000。

2023-12-05 23:31:47 140

原创 Spark--insert overwrite慢/读取orc表执行时间比较长解决

【代码】Spark--insert overwrite慢解决。

2023-12-05 23:27:49 401

如果您需要一个基于日历类概念(而不是基于SimpleTrigger的精确指定间隔)递归的作业触发计划，那么CronTrigger通常比SimpleTrigger更有用。支持日历相关的重复时间间隔（比如每月第一个周一执行），而不是简单的周期时间间隔使用CronTrigger，您可以指定休假时间表，如“每周五中午”或“每个工作日和上午9:30”，甚至“一月期间每周一、周三和周五上午9:00到10:00之间每5分钟”。

2023-12-05 23:27:10 150

原创 Hive--经典报错OOM集锦

【代码】Hive--经典报错OOM集锦。

2023-12-05 23:25:55 84

原创 java相关

java相关1.JVM内存管理的机制2.Java堆和栈的区别3.Java内存泄露和内存溢出4.Java类加载机制5.内存回收1.JVM内存管理的机制内存空间划分为：Sun JDK在实现时遵照JVM规范，将内存空间划分为堆、JVM方法栈、方法区、本地方法栈、PC寄存器。堆：堆用于存储对象实例及数组值，可以认为Java中所有通过new创建的对象的内存都在此分配，Heap中对象所占用的内存由GC进行回收，在32位操作系统上最大为2GB，在64位操作系统上则没有限制，其大小可通过-Xms和-Xmx来控制，

2023-12-03 19:36:38 36

原创 Doris--修改表和删除表

【代码】Doris--修改表和删除表。

2023-12-03 18:54:54 969

原创 Doris--物化视图

的操作，也就是说用户成功提交创建任务后，Doris 会在后台对存量的数据进行计算，直到创建成功。首先要根据查询语句的特点来决定创建一个什么样的物化视图。并不是说物化视图定义和某个查询语句一模一样就最好。

2023-12-03 18:32:54 355 1

原创 Doris--Rollup

上卷。

2023-12-03 17:38:11 43

原创 Doris--动态分区

【代码】Doris--动态分区。

2023-12-03 16:41:43 176

原创 Doris--数据表数据模型

为了得到正确的结果，我们必须同时读取 user_id 和 date 这两列的数据，再加上查询时聚合，才能返回 4 这个正确的结果。因此，当业务上有频繁的 count(*) 查询时，我们建议用户通过增加一个值恒为 1 的，聚合类型为 SUM 的列来模拟。因为数据模型在建表时就已经确定，且无法修改。所以，选择一个合适的数据模型非常重要。但是在 Doris 的聚合模型中，这种查询的开销非常大。上面的例子， count(*) 的正确结果应该为 4。在其他数据库中，这类查询都会很快的返回结果。

2023-12-03 15:51:04 56

原创 idea-mac下常用快捷代码&快捷键（如何调整&新增&使用）

换电脑+好长时间没有使用idea了，好多快捷代码和快捷键忘了，之前有过笔记，这里再整理一下，方便自己查看，大家有兴趣也可以自己记录一下参考了很多篇文章，以及自己测试，这里给大家推荐几个我认为写的不错的【史上最全面的 IntelliJ IDEA 教程】不要再找了，这篇博客就够了！史上最全的IDEA快捷键总结Idea 中最常用的10款插件，提高开发效率Eclipse 最牛逼的 10 组快捷键，提高开发效率史上最牛逼的 VSCode 插件，提高开发效率史上最全的 VsCode 快捷键，提高开发效率。

2023-11-08 20:35:11 181

原创 sparksql源码学习-环境安装

最近在思考想要学习一下spark源码，换了新的mac电脑，各种小问题，贼费时间，记录了一下，如果你有问题可以直接参考，省的浪费时间～～Mac–终端tab补全&不区分大小写Mac–终端ls报错Operation not permitted。

2023-11-04 23:59:27 72

原创 Mac--终端ls报错Operation not permitted

记录每次换新电脑的一堆无意义的报错解决

2023-10-31 22:58:02 2508 1

原创 Doris--数据表建表语法&数据划分（分区&分桶）

以 AGGREGATE KEY 数据模型为例进行说明。更多数据模型参阅 Doris 数据模型。列的基本类型，可以通过在 mysql-client 中执行查看。AGGREGATE KEY 数据模型中，所有没有指定聚合方式（SUM、REPLACE、MAX、MIN）的列视为 Key 列。而其余则为 Value 列。定义列时，可参照如下建议：Key 列必须在所有 Value 列之前。尽量选择整型类型。因为整型类型的计算和查找比较效率远高于字符串。对于不同长度的整型类型的选择原则，遵循够用即可。

2023-03-17 16:40:41 4359 1

原创 Doris--数据表基本概念和字段类型

doris表的基本概念，字段类型（特殊类型的使用场景），建表示例

2023-03-07 16:31:58 2384

原创 Doris--简介

系统了解doris

2023-03-06 11:38:24 619

原创 hive--执行计划

来聊一聊执行计划，如果掌握了MapReduce，且开发者有一定的经验积累可以反推Compiler将SQL转换的MapReduce执行算法，并借助explain来比对你构思的执行计划和实际生成的执行计划是否存在差异，并思考差异的原因是啥，慢慢就能够对生成的算法以及算法执行路径图是否合理给出一个自己的评判，同时也能提升自己对SQL的掌控

2023-02-27 22:59:34 2603 1

原创 hive--Map local work exhausted memory

hive报错

2022-12-02 18:24:28 637

原创 Hive-- not in + in的条数不等于总条数

问题记录～

2022-10-21 17:58:45 735

原创数仓-oltp和olap

了解olap

2022-06-28 17:23:11 602

原创 hive--如何保证concat_ws内部有序

SELECT m.city_id city_code ,m.class_id ct_class_id ,regexp_replace(concat_ws(',',sort_array(collect_set(concat_ws(':',cast(row_id AS string),tea_emp_nos)))),'\\d+\:','') cla_teacher_emp_nos ,regexp_replace(concat_ws(',',sort_array(

2022-02-07 14:35:08 4194 4

原创 hive--grouping sets相关报错

文章目录missing ) at ',' near ')'，同时其报错位置指向grouping sets 括号内部SemanticException 104:1 [Error 10213]: Grouping sets expression is not in GROUP BY key. Error encountered near token ...missing ) at ‘,’ near ‘)’，同时其报错位置指向grouping sets 括号内部报错sqlselect tab1.a

2022-02-07 14:24:20 1945 1

原创 hive/spark--left semi/anti join

文章目录简介特点图例简介LEFT SEMI JOIN （左半连接）是 IN/EXISTS 子查询的一种更高效的实现。只存在 left SEMI JOIN，不存在SEMI JOIN 和 right SEMI JOISemi Join，也叫半连接，是从分布式数据库中借鉴过来的方法。它的产生动机是：对于reduce side join，跨机器的数据传输量非常大，这成了join操作的一个瓶颈，如果能够在map端过滤掉不会参加join操作的数据，则可以大大节省网络IO，提升执行效率。实现方法很简单：选取

2021-12-14 09:43:17 2847 1

原创 mysql时间格式

概览mysql数据库时间上总共有五中表示方法：它们分别是 time、date、datetime、timestamp和year。类型名称日期格式日期范围存储需求YEARYYYY1901 ~ 21551 个字节TIMEHH:MM:SS-838:59:59 ~ 838:59:593 个字节DATEYYYY-MM-DD1000-01-01 ~ 9999-12-33 个字节DATETIMEYYYY-MM-DD HH:MM:SS1000-01-01

2021-11-16 13:06:50 6273

原创需求七-互相关注&可能认识的人

需求六:互相关注问题假设现在有一张表，叫table_relation里面只有两个字段，from_user，to_user, 代表关注关系从from指向to，即from_user关注了to_user。求互相关注解决方式一：自关联缺点：当用户量到了亿级别，关注关系到了百亿级别，join起来的效率就会很低。select a.from_user, a.to_user, if(b.from_user is not null, 1, 0) as is_friendfrom table

2021-10-22 20:05:22 404

原创正则表达式基本语法

文章目录普通字符非打印字符特殊字符限定符定位符选择普通字符普通字符包括没有显示指定为元字符的所有可打印和不可打印字符。这包括所有大写和小写字母，所有数字，所有标点符号和其他一些符号。非打印字符非打印字符也可以是正则表达式的组成部分。下面列出表示非打印字符的转义序列：字符描述\cx匹配由x指明的控制字符。例如， \cM 匹配一个 Control-M 或回车符。x 的值必须为 A-Z 或 a-z 之一。否则，将 c 视为一个原义的 ‘c’ 字符。\f匹配一个换页符

2021-10-21 20:28:15 99

原创多值维度及多值属性(交叉维度)

文章目录背景==事实表与维度表多对多(多值维度)====维表与维表多对多(交叉维度)==总结背景正常情况下，维表和事实表之间是一对多的关系，维表中的一行记录会连接事实表中的多行记录，事实表中的一行记录在维度表中只能关联上一条记录，不会发生数据发散的现象想法是美好的，但是事实总是不尽人意。因为现实中不但事实表和维度表之间存在多对多的关系，维度表和维度表之间也存在多对多的关系这两种情况本质是相同的，但事实表和维度表之间的多对多关系少了唯一描述事实和维度组的中间维度。对于这两种情况，一种称为桥接表的中

2021-10-19 15:16:23 1553

原创需求六-连续时间区间合并&间隔连续&日期交叉问题

tableA 存储了一所大学所有人的所有科目的考试成绩，共4列：学号（ stu_num ），考试科目（subject），考试成绩（ score ）等级（ level ）(共SABCD五个值)，考试时间（ time ），求：第一次考试的考试成绩等级为A，其它考试成绩等级都为B的学号。select stu_numfrom (select stu_num ,part_cnt ,sum(case when t.rank=1 and t.le.

2021-10-08 20:33:12 525

原创 hive--小文件问题

@TOC小文件如何产生hive的底层存储是HDFS，默认的块大小是128M，通常小于默认块大小，HDFS默认也算一个block, 所以产生小文件主要有以下几种：1、数据源本身就包含有大量的小文件。2、使用spark/flink实时写hive时，根据业务的时间窗口（10s，20s）落地hive表，产生很多小文件。3、采用动态分区也会产生很多小文件。4、reduce的个数输出。默认reduce个数和落地hive文件个数一样。小文件带来的影响1、从Hive的角度看，小文件会开很多map

2021-10-07 01:55:41 1445

原创 Hive--count(distinct)优化

前言使用count distinct计算两列联合去重时，若有任何一列为NULL，那么count计数时就会略过这一条。如：count(distinct a,b) 若a或者b中有一个是null，那么这一行就不会参与计数平台：hive、mysql都是如此idtoolsname1 hive a2 hive b3 hive NULL4 NULL m6 观察以下代码执行结果...

2021-09-30 22:07:25 3069

原创需求五：连续登录天数plus（含最大连续登录天数、当前连续登录天数、最大连续未登录天数问题）

DROP TABLE IF EXISTS py_tmpdb.hzy_0930_test;-- 用户、新增日期、活跃日期create table py_tmpdb.hzy_0930_test as select '张三' as name,'2021-01-01' as install_date, '2021-01-01' as active_dateunion allselect '张三' as name,'2021-01-01' as install_date, '2021-01-02' as a

2021-09-30 18:13:46 272

原创 hive--报错Shuffle error in shuffle in fetcher

文章目录报错信息解决原因MergeManager报错信息org.apache.hadoop.mapreduce.task.reduce.Shuffle error in shuffle in fetcherError: org.apache.hadoop.mapreduce.task.reduce.Shuffle$ShuffleError: error in shuffle in fetcher#3at org.apache.hadoop.mapreduce.task.reduce.Shuffl

2021-08-30 10:21:27 1137

原创 hive--hive runtime error while processing row

文章目录报错解决报错hive runtime error while processing row 。。。org.apache.hadoop.mapred.TaskAttemptListenerImpl: Diagnostics report from attempt_1625031122720_5833339_m_000146_0: Error: java.lang.RuntimeException: org.apache.hadoop.hive.ql.metadata.HiveExceptio

2021-08-12 11:45:24 5479 1

空空如也

空空如也