shuizimuzhongling-CSDN博客

原创一种hive的模型设计思路，解决频繁增加指标字段的问题

1场景描述：有一张由多个维度（维度1、维度2、维度3、……）和多个指标（指标1、指标2、指标3、……）字段构成的表(schema.tablename1)，由于业务频繁变化，经常需要增加指标，按照这种模型设计结构每次增加指标都需要修改表结构，并修改业务逻辑代码。样例：字段名字段描述字段类型 dim1 维度1 string dim2 .

2020-12-08 20:47:47 443

原创 hive带分区的外部表改名

现有一个带分区字段的外部表schema.tablename，分区为month_id需要将其改名为schema.tablename_rename方法一：1.改名alter table schema.tablename rename to schema.tablename_rename;hadoop fs -mv /user/dw/schema.db/table_name /use...

2019-12-11 17:10:53 1753 1

原创工作中常用的hive行列转换方法

一、列转行1. 测试数据准备：表dev.dev_three_kingdoms中存放三国武将各项属性案列存放的数据。 drop table dev.dev_three_kingdoms; CREATE TABLE IF NOT EXISTS dev.dev_three_kingdoms ( kingdom string com...

2019-12-06 14:32:50 191

案例说明：表a为一张事实表，含多个维度字段和多个指标字段，记录数为2万，表b为一张分摊比例表，记录数为1亿5000万。刚开始直接关联时sql跑了10个小时未出结果，reduce阶段一直停留在99%的进度，最终报错退出。经核查原因，发现b表中关联字段col1，存在很多值的记录数在10万以上，怀疑在reduce阶段key值分布不均导致记录数10万以上的key集中分布到了一个节点上执行。后来经过不断...

2019-12-05 19:01:33 1675

原创 Hive高级聚合函数——group by扩展

目录Grouping Sets 指定多种聚合的维度、层次，对多个group by + union all进行替换、简化With Rollup 可实现从右到左递减多级的统计，显示统计某一层次结构的聚合With cube 可以实现多个任意维度的查询，会统计所选列中值的所有组合的聚合Grouping__id 按照一定规则给统计的各维度组合打标，并返回标识值...

2019-12-05 18:21:45 1090

原创 python3实现文件内容按key进行groupby功能

1. 输入文件为text格式，包含两列，device（电话号码），jw（经度和纬度，用_分隔），样例如下：文件名：addr.txtdevice,jw18111111111,121.48_31.2218111111111,121.24_31.418111111111,102.73_25.0418111111112,103.82_25.6218111111113,102.91_24...

2019-12-05 16:33:20 371