自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

石榴姐yyds

数据开发与数据挖掘

  • 博客(251)
  • 资源 (43)
  • 收藏
  • 关注

原创 GreenPlum如何查看表和数据库的数据量大小?

GreenPlum如何查看表和数据库的数据量大小?

2023-06-30 16:56:55 1719

原创 HiveSQL一天一个小技巧:如何统计当前时间点状态情况【辅助变量+累计变换思路】

本文总结了一种当前时间点状态统计的思路和方法,对于此类问题主要采用构造辅助计数变量及累加变换思路进行求解。常见的场景有:直播同时在线人数、服务器实时并发数、公家车当前时间段人数、某个仓库的货物积压数量,某一段时间内的同时处于服务过程中的最大订单量等

2023-04-04 17:14:51 2161 3

原创 HiveSql一天一个小技巧:利用array_contains()函数进行容器存在性计数问题分析

由于题意要求了不能使用join等关联形式求解,通过题意分析此题本质为存在性计数问题,类似于java中我们构建一个HashSet()我们往里面Put数据的时候,每次检查一次是否有该值,有就记为1,最终统计重复的个数有多少个,这类问题也就是我们经常说的容器变换问题,而对应到Hive中时候我们如何构建容器呢?可以通过collect_set()或collect_list()函数来构建,那检查容器中是否存在某个数,我们用array_contains()函数,那么这样一个经典的存在性计数问题就很容易得到解决,具体公式如

2023-03-19 20:11:05 2290 3

原创 HiveSQL一天一个小技巧:如何用倍数小表优化数据倾斜?

本文给出了一种利用倍数小表优化数据倾斜的一种通用方法,该方法适用场景为数据倾斜时不能用mapjoin的时候,也就是集群资源不足时候,通过该方法能够有效缓解数据倾斜,但不能根除数据倾斜。处理数据倾斜最好的方法还是采用分治思想,利用mapjoin一分为二的处理,倾斜key单独走mapjoin,非倾斜key走reduce join,最终将数据union all起来,采用mapjoin的方法切断了shuffle过程,也就没有数据倾斜这一说,缺点耗资源,前提是集群资源足够条件下,且满足mapjoin的条件。

2023-03-05 20:25:47 665 1

原创 HiveSQL一天一个小技巧:如何精准计算非连续日期累计值【闪电快车面试题】

本文给出了一种非连续日期准确求解累计值的通用方法。通过本文可以学习到:(1)连续日期的构造方法(2)非连续日期准确求解累计值的方法

2023-03-04 22:55:48 2117

原创 HiveSQL一天一个小技巧:清洗数据如何将同一组内稀疏字段用有值的数据填充完整?

本文通过实际需求中的案例,讲解了如何将分组内空值补充完整的技巧,通过开窗,min()/max() over(partition by 分组字段)来补充,注意点max()函数中根据实际情况写case when语句,或构造符合实际需求的条件,往往数据清晰中会用到这一技巧。

2023-03-01 15:49:46 1548

原创 HiveSql一天一个小技巧:如何巧用分布函数percent_rank()求去掉最大最小值的平均薪水问题

本文给出了一种利用percent_rank()求去掉最大最小值的平均薪水的方法,该方法更简洁高效,值得借鉴。通过本文需要掌握的姿势点如下:• PERCENT_RANK函数的作用、意义及使用场景是什么?• PERCENT_RANK函数的结果是如何计算?• PERCENT_RANK与cume_disk()函数的区别?• 如何利用PERCENT_RANK()函数的特性快速get最大、最小值?

2023-02-26 23:22:25 3757 2

原创 HiveSQL一天一个小技巧:如何设计一张1-180天注册、活跃留存表?

本文给出了一种1-180天注册活跃留存表计算模型,主要采用笛卡尔集的形式求解,这也是数据报表经常采用的方法,需要掌握。

2023-02-04 21:08:39 1597 3

原创 HiveSQL一天一个小技巧:如何准确求近30天指标?

本文讲解了一种求近30天消费金额的方法

2023-02-03 15:06:03 3094 3

原创 一种通过构建周期快照事实表优化用户回流、流失统计指标的方法

本文分析了一种通过数仓建模的形式来优化指标计算的方式,针对用户回流及流失这两个指标进行优化,通过对指标的分析,在DWS层构建周期快照事实表,维护用户历史至今末次登录时间周期快照表,简化了指标的计算,提升了性能。

2023-02-03 10:59:36 728 1

原创 HiveSQL高级进阶技巧,掌握这10个技巧,你的SQL水平将有一个质的提升!

HiveSQL高级进阶技巧,掌握这10个技巧,你的SQL水平将有一个质的提升!

2023-01-30 15:35:26 943 1

原创 SQL之推荐商品问题

本题主要考察对关联的认识,通过各种关联变换获取结果。通过本题可以获得认识:要获取表中数据之间的相互关系只能进行自关联获取;要想得到差集,需要通过left join+is null形式获取,hive中没有数组的交集、差集、并集的函数,因此只能采用关联得到结果。

2022-09-10 22:51:35 1628

原创 SQL面试题之区间合并问题

本题为区间合并问题,问题比较经典,判断的核心思路是构造条件:当前行的起始时间

2022-09-02 18:10:26 2131 8

原创 SQL面试题之按照指定顺序进行多行转一列

本文总结了一种按照指定顺序进行多行转一列的方法,本质上还是对窗口函数的应用。

2022-09-02 14:32:24 1318

原创 正则表达式元字符总结

正则元字符总结

2022-08-05 16:11:18 272

原创 Hive任务执行报错:FAILED: Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask

Hive任务执行报错:FAILED: Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask

2022-06-29 16:27:48 6913 2

原创 不要再使用Load方式加载数据到Hive了,这种方式很low,你造吗?

一般很多企业加载HDFS数据到hive时采用load命令,包括很多文章也推荐该命令形式,但是这种命令并不是一种很好的方式,因为他的本质是剪切数据到Hive里面,这样数据其实是不安全的,而且load的时候很耗时间。其实我们在加载数据的时候,还有更高效,更便捷的加载方式,本文重点对这几种方式进行总结对比分析。...

2022-06-25 23:22:06 1857 8

原创 SQL避坑:当in,not in遇上null这种坑你避过吗?

用in的时候一般问题不大,使用not in的时候需要特别主要,结合本文恰当使用,之所以造成如此大的差异原因是对NULL的判断上,NULL的判断本质上is null或is not null,in或not in的判断是等于(=),所以对NULL判断是无效的,需要谨记。.........

2022-06-23 16:59:53 5837 2

转载 hive msck repair table 报错return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask

hive msck repair table 报错return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask

2022-06-23 11:54:34 2430 1

原创 海豚调度器(DophineScheduler)如何杀掉僵尸任务?

海豚调度器(DophineScheduler)如何杀掉僵尸任务

2022-06-20 14:59:07 1872

原创 Hive中Left Join基于or形式匹配连接的一种优雅实现方式

Hive中对于模糊匹配关联是不支持的,如or 连接,基于like的模糊匹配连接,对于此类问题往往需要找新的方案,对于or连接网上给出了解决方案如union的实现形式,本文借助于locate()+concat_ws()函数进行优雅的实现。......

2022-06-04 22:21:19 3796 5

原创 Hive中Left join的不等连接如何改写?

本文总结了hive left join 时采用不等连接的实现方法,其归为两类一类是基于区间的不等连接,一类是基于or形式的匹配连接,两种连接采用不同的实现思路。基于区间的不等连接采用left join 的嵌套形式,目的是确保数据条数和主表一致,基于or形式的匹配连接,给出了两种思路,一种采用union的形式,一种采用locate()匹配形式,其中locate()的形式更优雅。...

2022-06-04 21:43:10 2042

原创 DophineSheduler上下游任务之间动态传参案例及易错点总结

本文总结了DophineSheduler上下游任务之间参数传递的方法,并对其中的易错点进行了梳理,同时给出了具体参数传递的案例,读者可自行进行摸索。

2022-06-03 21:32:44 4832 4

转载 sqoop的eval工具使用

eval是sqoop提供的连接数据库的客户端工具。使用eval来查询表sqoop eval \--connect jdbc:mysql://123.123.4.52:3306/linshi_1 \--username root \--password 1313134 \--query "select * from e_board"使用eval来插入删除数据sqoop eval \--connect jdbc:mysql://11.34.33.22:3306/linshi_1 \

2022-05-30 10:42:46 1868

原创 HiveSql常用的时间维度计算方法(月初、月末、周几)及时间维度 表生成

本文总结了关于Hive中时间函数的使用及时间维度表的生成方法,时间维度表及时间函数在数据开发中经常被用到,这块需要切实掌目前格式支持:MM(月)YYYY(年)Hive3.0后支持Q表示季度select trunc(current_date,'MM') --月初select trunc(current_date,'YY') --年初last_day()last_day(string date) — 返回该月最后一天的日期select last_day(current_d.

2022-05-30 10:32:27 19571 2

原创 HiveSql一天一个小技巧:如何不使用union all 进行列转行

本文给出一种不使用传统UNION ALL方法进行 行转列的方法,其中方法一采用了concat_ws+posexplode()方法,利用posexplode的位置索引实现key-value之间的一一对应,方法二采用explode()+case when的方法,利用case when 进行转换实现key-value之间的一一对应。

2022-05-28 18:13:37 960 1

原创 HiveSql面试题56:即时订单比例问题

HiveSql面试题56:即时订单比例问题

2022-05-22 19:19:00 925 2

原创 HQL面试题55:阿里最新面试题之地铁站用户行为轨迹分析

HQL面试题55:阿里最新面试题之地铁站用户行为轨迹分析

2022-05-21 17:22:15 1026 2

原创 HiveSql一天一个小技巧:高阶多维聚合函数应用

本文详细分析了Hive中高阶多维聚合函数的使用,由以上分析可以看出,高阶聚合函数实质上是对多维统计采用UNION ALL实现的一种优化,其性能也比UNION ALL实现性能要高,往往作为一种优化手段使用。......

2022-05-05 18:36:16 2099 1

原创 HiveSql一天一个小技巧:如何进行多容器的列转行

HiveSql一天一个小技巧:如何进行多容器的列转行2 小结欢迎关注石榴姐公众号"我的SQL呀",关注我不迷路0 需求表名:t表字段及内容:a b c001 A/B 1/3/5002 B/C/D 4/5问题:转多行输出结果如下所示:a d e001 type_b A001 type_b B001 type_c 1001 type_c 3001 type_c 5002 type_b B002 type_b C002 type...

2022-05-04 19:21:27 810 2

原创 HiveSql一天一个小技巧:如何成对提取字符串内容

本文给出了一种如何成对提取字符串内容技巧和方法,主要利用posexplode()函数进行求解,利用索引值相等提取出对应的字段内容。

2022-05-04 18:51:35 1499 1

原创 HiveSql面试题:连续签到领金币问题【百度-困难题-通用解法】

本文给出了一种连续签到领取金币的一种通用解法,通过窗口函数生成标签值进行辅助计算

2022-05-04 00:55:13 2356 5

原创 Sqoop同步数据数据中存在换行符导致两边数据条数不一致问题解决(AVRO格式应用)

本文讲解了Sqoop同步数据中存在特殊换行符导致两边数据不一致问题的解决方法,同时对AVRO对解决这一类问题进行了重点讲解,包括AVRO语法格式、Hive建表语法等。

2022-05-03 17:55:03 1409

原创 DolphinScheduler执行shell脚本方法总结

目录1 上传脚本到资源中心2 创建工作流3 修改脚本4 上线执行工作流5 小 结1 上传脚本到资源中心2 创建工作流注意:工作流创建完成保存时候所使用的的租户必须是linux可执行的用户,此处为root用户(也可以自己创建) 。租户在这里的概念就是linux中可使用的用户3 修改脚本4 上线执行工作流可以看到工作流执行成功5 小 结需要注意的问题点: 创建文件必须是DS调度器所支持的文件格式,......

2022-04-22 15:22:54 6632

原创 HIveSQL面试题52:近一个月发布的视频中热度最高的top3视频【抖音面试题,不得不去吐槽的一个题目】

这道题源自于牛客网,题目本身没什么难度,但在牛客中通过率极低,原因是题目本身但表达很模糊,很多定义没有直接给出,靠面试者猜,造成了误解,如果面试遇到这种题目90%挂,因为你不能准确理解题意,需要反复和面试官确认,即使做出来了,最终也是失败,而这题竟然出自抖音,面试出题也太随意了,无力吐槽,看来面试有时候真的靠缘分,哈哈哈。。。。

2022-04-17 13:15:03 1349

原创 HiveSql一天一个小技巧:如何在表的特定位置添加字段

hive表在某个特定的位置添加一个字段,在操作上是先在表的最后添加一个字段然后再将该字段移动到那个特定的位置第一步:先在最后一个位置增加字段alter table table_name add columns now_time string comment '当前时间';第二步:通过移动位置的指令移动到指定位置alter table table_name change now_time now_time string after id;Hive整体更改指令ALTER TAB.

2022-04-15 15:02:48 5352 1

原创 HiveSql一天一个小技巧:如何不借助其他任何外表,产生连续数值

0 需求描述输出结果如下所示:12345...1001 问题分析方法一:起始值(start)+步长(diff)=结束值(end)select split(space(5), ' ')+----------------------+| _c0 |+----------------------+| ["","","","","",""] |+----------------------+select posexplode(spl

2022-04-12 22:35:04 1427

原创 HiveSql一天一个小技巧:如何获取稀疏表字段中最新的值所对应的其他字段值

获取某最新日期所对应的其他值,此类问题往往利用first_value()函数来求解。如果表是稀疏的,各个字段存在NULL值,且NULL值分布也不均匀,此时要想一并取出,窗口中的排序需要加限定条件才可以,此类窗口为带有条件限制的动态窗口,动态窗口的控制往往是通过order by来限定的。另外需要注意:first_value()函数获取的是窗口内截止当前行所指定的字段第一条非null值的值,如果该字段中所有值都为null,那么只能返回NULL,也就是说他可以过滤NULL值,因而在获取字段值的时候也就没必要加ca

2022-04-10 18:37:23 1122

原创 HiveSql一天一个小技巧:一种字符串展开的技巧和方法

本文给出了一种字符串展开的技巧和方法,充分利用了posexplodde()函数的使用技巧。其核心方法为利用步长值生成索引,再利用起始值加索引值获取展开值,该方法在顺序拓展数据中经常使用,务必掌握。

2022-04-09 23:33:49 786 3

原创 HiveSql一天一个小技巧:数据清洗如何用距离空值记录最近的一条记录补全空值【稀疏表补全方法】

用户一个session中发生浏览点击事件时候,url往往在浏览事件时候给出而点击事件中往往没有给出,这种表格往往是稀疏的,如果此时想知道用户点击了某个按钮后当前页面是哪个,那么我们往往就需要利用这种方法补全数据来获取当前点击事件所对应的页面

2022-04-09 19:44:50 1007

身份6位速查表.zip

前6位于对应省份地区地址的关系速查表,做数据的同学可以借用一下。

2020-04-29

Drools规则引擎介绍.ppt

drools规则引擎,了解规则匹配,专家系统的可以学习一下,java的同学也可以学习一下,各大厂也在用哦

2020-04-29

大数据架构题目.pdf

大数据架构面试题包含了数据治理、数据仓库、数据架构、数据分析题目,是面试不可多得的资料,需要的赶快入手。

2020-04-08

hive建表操作案例.txt

hive分桶,分区操作案例实战。学习的好资料。hive分桶,分区操作案例实战。学习的好资料。hive分桶,分区操作案例实战。学习的好资料。

2019-12-25

启动zk的脚本.sh

集群启动zk的脚本,只需要改集群参数就可以了集群启动zk的脚本,只需要改集群参数就可以了集群启动zk的脚本,只需要改集群参数就可以了

2019-12-25

FingerLocFun.m

matlab室内定位算法程序,可运行,稍微改改参数就可以了。matlab室内定位算法程序,可运行,稍微改改参数就可以了。

2019-12-25

尚硅谷大数据之Oozie.pdf

dashuju 大数据oozie尚硅谷主讲,内容总结详细

2019-08-21

尚硅谷python-人工智能课程(1).pptx

尚硅谷python,人工智能课件精讲,内容丰富,学到很多

2019-08-21

数据仓库架构师笔试题.docx

数据仓库架构师面试题,里面包含了各家的面试题,难度比较大,欢迎下载

2019-08-13

Azkaban实战通过5个不同场景介绍原理.docx

Azkaban实战通过5个不同场景介绍原理,实战级别,非常好用的资源。

2019-05-22

企业IT架构转型之道 阿里巴巴中台战略思想与架构实战【高清+完整目录】(1).pdf

企业IT架构转型之道 阿里巴巴中台战略思想与架构实战【高清+完整目录】很多人想要的资料哦

2019-05-22

scala从入门到进阶

1、本文档主要讲述了scala从基础到进阶的内容。2、内容全面,例程到位,适合初学者学习。

2018-07-19

java9新特性视频讲解(源码+视频+工具+资料)

java9新特性视频讲解(源码+视频+工具+资料),尚硅谷。

2018-06-27

人工智能(深度学习)相关视频及资料

1、本下载地址包括了:人工智能的相关学习资料,如python机器学习、机器学习实战,金融大数据分析、深度学习等相关资料。2、视频内容包含了,人工智能数学类基础学习、深度神经网络算法之Python基础与数据分析、深度神经网络算法之算法与编程及深度学习。3、该资料是学习人工智能极好的资料,网上有卖的,我分享出来与大家共享,觉得好久点个赞吧,哈哈。

2018-06-26

STM32开发工具及相关资料包

各种常用的模块及工具,代码。如:ST-Link V2仿真器驱动、03.JLink仿真器驱动、11.USB转串口HL-340,FT232R驱动、14.字库提取软件、13.图片图标处理软件、16.TCP UDP协议测试工具等等,太多了我不想写了。。。。

2018-06-26

kafka细心原理与实战

1、对kafka基本概念及原理性进行探讨。2、对kafka配置文件进行总结和分析 3、详细介绍了kafkaAPI编程。4、kafka的存储原理进行分析。适合kafka入门级资料

2018-06-25

三套大数据实战项目集合(视频讲解+源代码+相关文档+相关软件资料)

1、大数据平台基础概述。2、驴妈妈大数据平台项目。3、某团购网大型电商离线数据分析平台。4、视频讲解+源代码+相关文档+相关软件资料

2018-06-22

hbase优化总结

本文档主要对hbase的优化进行了总结,对项目中使用hbase的调优具有一定的指导意义

2018-06-20

hive参数优化总结

本文档主要总结了hive的参数优化,对hive的理解具有一定的作用

2018-06-20

剩余漏电保护器通讯规约指令解析(简化版)

本文档是对剩余漏电保护器通信规约指令进行解析,方便程序员进行编程使用,该版本为国网通信规约简化版,方便代码的编写。

2018-02-06

greenplum的驱动

gP驱动包,可以应用在datagrip等,哈哈哈哈,非常好用

2023-05-19

Hive调优全方位指南.pdf

Hive调优全方位指南,总结了25条关于Hive调优的经验,对于大数据及hive工程师是不可多得的资源。

2020-12-28

硕士英语综合教程2_课后答案.doc

硕士英语综合教程2_课后答案.doc

2020-10-23

KafkaAdminClient:Kafka的运维利器.docx

KafkaAdminClient:Kafka的运维利器.docx

2020-10-23

第四章 矩阵的分解.ppt

第四章 矩阵的分解.ppt

2020-10-23

Git讲义 .pdf

Git讲义,深度讲解git的用法,里面列举了多个案例,是学习git不可或缺的资源。

2020-10-23

分析函数.xmind

分析函数.xmind

2020-10-23

left join 闭坑指南.pdf

left join 闭坑指南.pdf

2020-10-23

数仓深度数据模型设计.pdf

数仓深度数据模型设计.pdf

2020-10-14

Hive调优,数据工程师成神之路.pdf

Hive调优,数据工程师成神之路。

2020-10-14

hbase备份脚本,hbase备份脚本

hbase备份脚本

2020-10-14

hadoop-辅助工具-笔记.docx

hadoop-辅助工具-笔记

2020-05-13

矩阵论课件及考试题.rar

矩阵论课件及考试题.rar

2020-05-11

矩阵理论试题及其解答.doc

矩阵理论试题及其解答.doc

2020-05-11

最优控制(考试题)2015.doc

最优控制(考试题)2015.doc

2020-05-11

博士研究高等数值分析试题.doc

博士研究高等数值分析试题.doc

2020-05-11

大厂算法面试题库中高频出现的30道典型题.pdf

大厂算法面试题,高频出现的30题,面试绝对有用。如果你刷leetcode题目很多,为了面试不如看看高频题,这30到够用了,经常会被笔试到,资料很好。

2020-04-29

基于语义搜索+知识问答系统设计.pdf

基于ES的知识问答系统设计,文中给出了具体demo,是不可多得学习资料,文中系统的讲解设计方法及原理。

2020-04-29

知识图谱PPT汇总1000多页.pptx

学习知识图谱或有做知识图谱的小伙伴福利来了1000多页知识图谱PPT资料及素材,非常完美的学习资料。

2020-04-29

泡泡龙游戏JAVA版(带注释).zip

java版泡泡龙游戏,学习这个主要在提高你的java水平,用IDEA打开便可学习,是不可能多的资料,带注释。

2020-04-29

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除