6 风影楼前

尚未进行身份认证

无财作力,少有斗智,既饶争时

等级
TA的排名 1w+

各类图表使用指北

目录前言1. 成分对比-饼图2. 项目对比-条形图3. 时间序列-柱状图/折线图4. 频数分布-柱状图/折线图5. 相关性比较-散点图前言本文承接上一篇博客《如何选择适当的图表》,依旧为《用图表说话》的读书笔记,介绍5种常用的基本图表的使用注意事项。1. 成分对比-饼图饼图适用于成分对比,也只适合表达部分占总体的比例,要想用好饼图,需要注意以...

2020-04-19 14:57:29

数据分析报告中如何选择适当的图表

目录前言1.明确主题 (从数据到主题)2.决定手法(从主题到对比)2.1成分对比2.2 项目对比2.3 时间序列2.4 频数分布2.5 相关性3.选出图的类型(从对比到图)前言本文为《用图表说话》的读书笔记(强烈安利数据分析师的同行们阅读此书)。在工作中,我们常用的基本图表只有5种,分别是饼图、条形图、柱状图、折线图、散点图:...

2020-04-06 20:29:36

Hive零基础从入门到实战 实战篇(八)例行化报表前置依赖检查

目录前言1. 前置依赖表检查脚本2. 进行前置依赖检查的例行化脚本前言如果你所在的公司没有一套数据调度管理系统的话,那么你的例行化脚本大概率会经常因为脚本中的表数据生成延时,而导致报表数据错误。此时就需要大量的时间进行数据回溯,下面本文就介绍一套hql脚本前置依赖表检查的流程来解决这个问题。1. 前置依赖表检查脚本1) 建立一个partition_table.tx...

2020-01-21 13:38:26

Hive零基础从入门到实战 实战篇(七)构建自动更新的例行化BI报表

目录前言1. 新建表格2. 编写shell脚本3. 设置crontab4. 使用可视化工具连接mysql中的表前言互联网公司的数据分析师一般都兼任着临时取数和构建例行化BI报表的职责。临时取数不必多说,但是有一些数据是需要每日产出的,逻辑不变,只是时间改一下,这种数据就最好制作成自动更新的例行化BI报表,以节约人力。本文就介绍一下构建一张例行化BI报表的整个流程。...

2020-01-16 21:15:19

Hive零基础从入门到实战 实战篇(六)计算用户流失周期

目录前言1. 如何定义用户流失周期2. 计算每天的回访率3. 计算每周的回访率前言每个APP都会有一个用户流失周期,如果能够算出一个较为科学的流失周期长度,那么就可以更有针对性的对即将流失的或者已经流失的高价值用户进行运营,从而提升整个APP的留存率,进而提高APP的DAU。本文介绍一下使用hql如何计算用户流失周期。1. 如何定义用户流失周期流失周期是指用户...

2020-01-14 21:12:12

Hive零基础从入门到实战 实战篇(五)计算连续登陆用户数

目录前言1. 取出每个用户在1月的连续登陆天数2. 计算1月至少连续登陆过7天的用户数前言日常需求中我们经常会碰到需要取出连续N天进行某种操作的用户,本文介绍一个套路处理此类需求。下文用到的日活表字段含义见实战篇(二)。1. 取出每个用户在1月的连续登陆天数WITH activeAS (--每天的活跃用户,去重 SELECT day ...

2020-01-09 20:00:21

Hive零基础从入门到实战 实战篇(四)计算用户分布

目录前言1. DAU中的新老用户分布2. 各平台用户分布3. 各渠道用户分布4. 各年龄段用户分布5. 用户性别分布6. 购买次数的用户分布前言在日常提数中,经常会需要各类用户的分布,比如:DAU(日活跃用户)中的新老用户分布 各平台用户分布 各渠道用户分布 各年龄段用户分布 用户性别分布 某种行为的用户分布(购买1次的有多少人,2次的有多少...

2020-01-08 20:11:09

Hive零基础从入门到实战 实战篇(三)计算留存率

目录前言1. 提数版2. 例行化报表版前言在互联网公司中留存率是一个被普遍应用的指标,各种用户群体都可以计算他的留存率,比如新增用户留存率、活跃用户留存率、使用了某个APP功能的用户留存率等等。留存用户:使用网站或App,经过一段时间后,仍然在使用的用户,即有多少用户留下来(这里的使用可以是访问网站,也可以是打开App)用户留存率:留存用户数占当时新增用户数...

2019-12-31 17:49:34

Hive零基础从入门到实战 实战篇(二)互联网公司常用业务表

目录1. 新增用户表2. 用户登录表3. 用户属性表4. 商品属性表5.行为表(用户使用app的行为埋点记录表)6.订单流水表本文会介绍6张互联网公司的常用业务表,同时在虚拟机中建好表格,制作若干条数据插入表中。这6张表分别是新增用户表,用户登录表,用户属性表,商品属性表,行为表(用户使用app的行为埋点记录表),订单流水表。在入门篇已经建过其中的新增用户表和...

2019-11-29 21:15:31

Hive零基础从入门到实战 实战篇(一)数据仓库分层及命名规范

目录前言1. 目的2. 表命名规范2.1 数据分层代码命名规范2.2 周期标志代码命名约定2.3 应用示例3. 字段命名规范4. 脚本规范前言本文是针对Hive数据仓库设计提出的一些简单规范,供大家参考。1. 目的建立命名规范的目的是为表、列建立有意义的、清晰的、简明的和独特的名字。一个完善的命名标准可以提高数据仓库的逻辑和物理模型的...

2019-10-24 10:11:26

Hive零基础从入门到实战 进阶篇(二十) Hive常用调优

目录前言1. HiveQL实现流程优化1.1 使用with as语法1.2 分区剪裁与列剪裁1.3 where条件中尽量不要加函数1.4 函数不要嵌套太多层1.5在每一个子查询中使用group by去重1.6 join优化1.6.1 小表放左边1.6.2key保持一致1.6.3Map join1.6.4 多用left join1.7 ...

2019-10-11 14:22:03

Hive零基础从入门到实战 进阶篇(十九) HiveQL:随机抽样

目录前言1. 什么是随机抽样2. Hive实现简单随机抽样(不放回)2.1 语法2.2 举例前言当数据量非常大的时候,对全体数据进行处理存在困难时,我们可能需要通过随机抽样其中的一部分数据,来代表总体进行分析。本文介绍如何使用Hive对数据集进行随机抽样。1. 什么是随机抽样随机抽样就是调查对象总体中每个部分都有同等被抽中的可能,是一种完全依照...

2019-09-26 19:48:37

Hive零基础从入门到实战 进阶篇(十八) HiveQL:开窗函数(偏移关联)

目录前言1.偏移关联的开窗函数表2. 函数功能演示2.1lag(col,n,default)2.2 lead(col,n,default)2.3 first_value(col)2.4 last_value(col)前言本文接续上文介绍第四类开窗函数:用于偏移关联的开窗函数。共有4种,分别是:lag、lead、first_value、last_v...

2019-09-23 10:13:15

Hive零基础从入门到实战 进阶篇(十七) HiveQL:开窗函数(层次查询)

目录前言1.层次查询的开窗函数表2. 函数功能演示2.1ntile(n)2.1.1 举例2.1.2 应用场景2.2cume_dist()前言本文接续上文介绍第三类开窗函数:用于层次查询的开窗函数。共有三种,分别是:ntile()、cume_dist()、percent_rank()。第一个最常用,第二个很少用到,第三个完全没有见过应用场景。所以本文主...

2019-09-12 18:13:35

Hive零基础从入门到实战 进阶篇(十六) HiveQL:开窗函数(组内排序)

目录前言1.组内排序的开窗函数表2. 函数功能演示2.1row_number()2.1.1 应用场景1:生成排序后的唯一序号2.1.2 应用场景2:取top n2.1.3 应用场景3:每个分组内取出n个随机值2.2rank()2.3dense_rank()前言上篇博客介绍了Hive中用于累计统计的开窗函数,本文接续上文介绍第二种:用于...

2019-09-10 09:16:10

Hive零基础从入门到实战 进阶篇(十五) HiveQL:开窗函数(累计统计)

目录前言1. 什么是开窗函数2. 开窗函数语法3. 开窗函数分类4. 组内累计统计开窗函数4.1 累计求和 sum(xx) over4.2 累计求平均值 avg(xx) over4.3 累计求最大值 max(xx) over4.4 累计求最小值 min(xx) over前言从本文开始介绍Hive中开窗函数系列。这类函数叫法很多,包括分析函数、...

2019-09-05 15:05:46

Hive零基础从入门到实战 进阶篇(十四) HiveQL:高级聚合函数 grouping sets、cube、rollup

目录前言1. 指定维度组合进行聚合 grouping sets2. 所有维度组合进行聚合 cube3. 最左侧的维度为主进行层级聚合 rollup前言本文介绍Hive中的三种高级聚合函数,分别是grouping sets、cube、rollup。1. 指定维度组合进行聚合 grouping setsgrouping sets用于在一个 group ...

2019-09-03 23:20:58

Hive零基础从入门到实战 进阶篇(十三) HiveQL:集合函数

目录前言1. 集合函数表2. 可以处理array格式的函数3. 最终返回array格式的函数4. 集合函数功能演示4.1size(Array)4.2array_contains(Array, value)4.3sort_array(Array)前言Hive中的集合函数是一些专门为array、map等数据格式的数据设计的函数。本文除了介绍集合...

2019-08-28 12:15:23

Hive零基础从入门到实战 进阶篇(十二) HiveQL:表生成函数(行转列)

前言1. 表生成函数表2. 函数功能演示2.1 explode(ARRAY)2.2 explode(MAP)2.3 posexplode(ARRAY)2.4 stack(INT n, v_1, v_2, ..., v_k)2.5 json_tuple(jsonStr, k1, k2, ...)2.6 parse_url_tuple(url, p1, p2, ...)...

2019-08-22 09:10:05

Hive零基础从入门到实战 进阶篇(十一) HiveQL:列转行函数

目录前言1. 什么是列转行2. 涉及函数2.1 concat_ws(string SEP, array)2.2collect_set(col)2.3collect_list(col)3. 列转行举例3.1 去重列转行3.2 不去重列转行前言本文来介绍,在Hive中如何实现列转行的操作。1. 什么是列转行假设Hive表中有两列...

2019-08-07 09:06:20

查看更多

CSDN身份
  • 博客专家
勋章 我的勋章
  • 脉脉勋章
    脉脉勋章
    绑定脉脉第三方账户获得
  • 签到新秀
    签到新秀
    累计签到获取,不积跬步,无以至千里,继续坚持!
  • 技术圈认证(专家版)
    技术圈认证(专家版)
    博客专家完成年度认证,即可获得
  • 专栏达人
    专栏达人
    授予成功创建个人博客专栏的用户。专栏中添加五篇以上博文即可点亮!撰写博客专栏浓缩技术精华,专栏达人就是你!
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 1024勋章
    1024勋章
    #1024程序员节#活动勋章,当日发布原创博客即可获得
  • 勤写标兵Lv1
    勤写标兵Lv1
    授予每个自然周发布1篇到3篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。
  • 学习力
    学习力
    《原力计划【第二季】》第一期主题勋章 ,第一期活动已经结束啦,小伙伴们可以去参加第二期打卡挑战活动获取更多勋章哦。
  • 博客之星-入围
    博客之星-入围
    授予每年博客之星评选结果第21-200名的用户