5 风影楼前

尚未进行身份认证

无财作力,少有斗智,既饶争时

等级
TA的排名 2w+

Hive零基础从入门到实战 实战篇(一)数据仓库分层及命名规范

目录前言1.目的2.表命名规范2.1数据分层代码命名规范2.2周期标志代码命名约定2.3应用示例3.字段命名规范4.脚本规范前言本文是针对Hive数据仓库设计提出的一些简单规范,供大家参考。1.目的建立命名规范的目的是为表、列建立有意义的、清晰的、简明的和独特的名字。一个完善的命名标准可以提高数据仓库的逻辑和物理模型的...

2019-10-24 10:11:26

Hive零基础从入门到实战 进阶篇(二十) Hive常用调优

目录前言1.HiveQL实现流程优化1.1使用withas语法1.2分区剪裁与列剪裁1.3where条件中尽量不要加函数1.4函数不要嵌套太多层1.5在每一个子查询中使用groupby去重1.6join优化1.6.1小表放左边1.6.2key保持一致1.6.3Mapjoin1.6.4多用leftjoin1.7...

2019-10-11 14:22:03

Hive零基础从入门到实战 进阶篇(十九) HiveQL:随机抽样

目录前言1.什么是随机抽样2.Hive实现简单随机抽样(不放回)2.1语法2.2举例前言当数据量非常大的时候,对全体数据进行处理存在困难时,我们可能需要通过随机抽样其中的一部分数据,来代表总体进行分析。本文介绍如何使用Hive对数据集进行随机抽样。1.什么是随机抽样随机抽样就是调查对象总体中每个部分都有同等被抽中的可能,是一种完全依照...

2019-09-26 19:48:37

Hive零基础从入门到实战 进阶篇(十八) HiveQL:开窗函数(偏移关联)

目录前言1.偏移关联的开窗函数表2.函数功能演示2.1lag(col,n,default)2.2lead(col,n,default)2.3first_value(col)2.4last_value(col)前言本文接续上文介绍第四类开窗函数:用于偏移关联的开窗函数。共有4种,分别是:lag、lead、first_value、last_v...

2019-09-23 10:13:15

Hive零基础从入门到实战 进阶篇(十七) HiveQL:开窗函数(层次查询)

目录前言1.层次查询的开窗函数表2.函数功能演示2.1ntile(n)2.1.1举例2.1.2应用场景2.2cume_dist()前言本文接续上文介绍第三类开窗函数:用于层次查询的开窗函数。共有三种,分别是:ntile()、cume_dist()、percent_rank()。第一个最常用,第二个很少用到,第三个完全没有见过应用场景。所以本文主...

2019-09-12 18:13:35

Hive零基础从入门到实战 进阶篇(十六) HiveQL:开窗函数(组内排序)

目录前言1.组内排序的开窗函数表2.函数功能演示2.1row_number()2.1.1应用场景1:生成排序后的唯一序号2.1.2应用场景2:取topn2.1.3应用场景3:每个分组内取出n个随机值2.2rank()2.3dense_rank()前言上篇博客介绍了Hive中用于累计统计的开窗函数,本文接续上文介绍第二种:用于...

2019-09-10 09:16:10

Hive零基础从入门到实战 进阶篇(十五) HiveQL:开窗函数(累计统计)

目录前言1.什么是开窗函数2.开窗函数语法3.开窗函数分类4.组内累计统计开窗函数4.1累计求和sum(xx)over4.2累计求平均值avg(xx)over4.3累计求最大值max(xx)over4.4累计求最小值min(xx)over前言从本文开始介绍Hive中开窗函数系列。这类函数叫法很多,包括分析函数、...

2019-09-05 15:05:46

Hive零基础从入门到实战 进阶篇(十四) HiveQL:高级聚合函数 grouping sets、cube、rollup

目录前言1.指定维度组合进行聚合groupingsets2.所有维度组合进行聚合cube3.最左侧的维度为主进行层级聚合rollup前言本文介绍Hive中的三种高级聚合函数,分别是groupingsets、cube、rollup。1.指定维度组合进行聚合groupingsetsgroupingsets用于在一个group...

2019-09-03 23:20:58

Hive零基础从入门到实战 进阶篇(十三) HiveQL:集合函数

目录前言1.集合函数表2.可以处理array格式的函数3.最终返回array格式的函数4.集合函数功能演示4.1size(Array)4.2array_contains(Array,value)4.3sort_array(Array)前言Hive中的集合函数是一些专门为array、map等数据格式的数据设计的函数。本文除了介绍集合...

2019-08-28 12:15:23

Hive零基础从入门到实战 进阶篇(十二) HiveQL:表生成函数(行转列)

目录前言1.表生成函数表2.函数功能演示2.1explode(ARRAY)2.2explode(MAP)2.3posexplode(ARRAY)2.4stack(INTn,v_1,v_2,...,v_k)2.5json_tuple(jsonStr,k1,k2,...)2.6parse_url_tuple(url,p1,p...

2019-08-22 09:10:05

Hive零基础从入门到实战 进阶篇(十一) HiveQL:列转行函数

目录前言1.什么是列转行2.涉及函数2.1concat_ws(stringSEP,array)2.2collect_set(col)2.3collect_list(col)3.列转行举例3.1去重列转行3.2不去重列转行前言本文来介绍,在Hive中如何实现列转行的操作。1.什么是列转行假设Hive表中有两列...

2019-08-07 09:06:20

Hive零基础从入门到实战 进阶篇(十) HiveQL:分位数(中位数)函数

目录前言1.什么是分位数2.分位数函数表3.函数功能演示3.1分位数函数:percentile3.1.1percentile(BIGINTcol,p)3.1.2percentile(BIGINTcol,array(p1[,p2]…))3.2近似分位数函数:percentile_approx3.2.1percentile_...

2019-08-01 20:09:07

Hive零基础从入门到实战 进阶篇(九) HiveQL:相关系数函数

目录前言1.什么是相关系数1.1定义1.2性质1.3适用范围1.4缺点2.相关系数函数2.1函数功能2.2举例前言本文来介绍相关系数的含义以及Hive中如何使用计算相关系数的函数。1.什么是相关系数1.1定义相关系数(Correlationcoefficient)是最早由统计学家卡尔·皮尔逊设计的统计指...

2019-08-01 09:30:42

Hive零基础从入门到实战 进阶篇(八) HiveQL:方差、协方差函数

目录前言1.方差、协方差函数表2.名词解释2.1方差、标准差2.2无偏样本方差、无偏样本标准差2.3总体协方差、样本协方差3.函数功能演示3.1方差与无偏方差3.2总体协方差与样本协方差前言在入门篇(十五)中我们已经介绍过常用的简单聚合函数,后续几篇博文我们会逐一介绍其他功能更加强大的聚合函数。本文来介绍Hive中的方差、标准...

2019-07-26 09:16:51

Hive零基础从入门到实战 进阶篇(七) HiveQL:条件函数

目录前言1.条件函数表2.函数功能演示2.1空值判断函数2.1.1nvl(Tvalue,Tdefault_value)2.1.2isnull(a)2.1.3isnotnull(a)2.1.4coalesce(Tv1,Tv2,...)2.2条件判断函数2.2.1if函数2.2.2CASEWHENTH...

2019-07-18 09:21:51

《Hive零基础从入门到实战》连载目录

前言本文是Hive零基础从入门到实战系列的传送门,会持续更新直至本系列完结~(一)入门篇01.环境搭建02.Linux系统简单操作(上)03.Linux系统简单操作(中)04.Linux系统简单操作(下)05.Hive常用数据类型06.HiveQL:数据库操作07.HiveQL:表操作(上)08.HiveQL:表操作(下)09.如...

2019-07-14 21:14:51

Python安装教程(Anaconda)

目录1.什么是python2.什么是Anaconda3.如何安装Anaconda4.测试是否安装成功1.什么是pythonpython是一门解释性语言,语法简单,有大量的扩展包,比如处理图像,爬取网页等等。我们需要安装python的解释器,有了这个解释器,我们才可以开始进行python的编程。2.什么是AnacondaAna...

2019-07-14 09:43:50

Hive零基础从入门到实战 进阶篇(六) HiveQL:日期函数

目录前言1.日期函数表2.函数功能演示2.1时间戳函数unix_timestamp2.2秒时间戳转换为可读时间字符串from_unixtime2.3返回秒值时间戳的日期to_date2.4时间戳字符串的年、月、日、时、分、秒2.5日期在当年的第几周weekofyear2.6开始时间到结束时间相差的天数datediff2.7日...

2019-07-13 14:22:39

Hive零基础从入门到实战 进阶篇(五) HiveQL:正则抽取、替换字符串函数

目录前言1.正则表达式简介1.1定义1.2字符构成1.3速记指南2.正则抽取字符串函数regexp_extract3.正则替换字符串函数regexp_replace4.不同运行环境下的转义处理前言本文我们来详细介绍一下正则表达式,以及在Hive中通过正则匹配抽取、替换字符串的函数:1.regexp_extract2....

2019-07-11 21:13:35

Hive零基础从入门到实战 进阶篇(四) HiveQL:URL解析函数

目录前言1.什么是URL2.解析URL单个元素的函数:parse_url3.同时解析URL多个元素的函数:parse_url_tuple前言在工作中,我们除了JSON格式还会经常遇到URL格式的日志数据,本文来详细介绍在Hive中解析URL的函数:1.parse_url2.parse_url_tuple1.什么是URL在WWW网页...

2019-07-10 21:09:38

查看更多

CSDN身份
  • 博客专家
勋章 我的勋章
  • 脉脉勋章
    脉脉勋章
    绑定脉脉第三方账户获取
  • 签到新秀
    签到新秀
    累计签到获取,不积跬步,无以至千里,继续坚持!
  • 专栏达人
    专栏达人
    授予成功创建个人博客专栏的用户。专栏中添加五篇以上博文即可点亮!撰写博客专栏浓缩技术精华,专栏达人就是你!
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 1024勋章
    1024勋章
    #1024程序员节#活动勋章,当日发布原创博客即可获得
  • 勤写标兵Lv1
    勤写标兵Lv1
    授予每个自然周发布1篇到3篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。