- 博客(6)
- 资源 (183)
- 收藏
- 关注
原创 一种hive的模型设计思路,解决频繁增加指标字段的问题
1场景描述:有一张由多个维度(维度1、维度2、维度3、……)和多个指标(指标1、指标2、指标3、……)字段构成的表(schema.tablename1),由于业务频繁变化,经常需要增加指标,按照这种模型设计结构每次增加指标都需要修改表结构,并修改业务逻辑代码。样例: 字段名 字段描述 字段类型 dim1 维度1 string dim2 .
2020-12-08 20:47:47 443
原创 hive带分区的外部表改名
现有一个带分区字段的外部表schema.tablename,分区为month_id需要将其改名为schema.tablename_rename方法一:1.改名alter table schema.tablename rename to schema.tablename_rename;hadoop fs -mv /user/dw/schema.db/table_name /use...
2019-12-11 17:10:53 1753 1
原创 工作中常用的hive行列转换方法
一、列转行1. 测试数据准备:表dev.dev_three_kingdoms中存放三国武将各项属性案列存放的数据。 drop table dev.dev_three_kingdoms; CREATE TABLE IF NOT EXISTS dev.dev_three_kingdoms ( kingdom string com...
2019-12-06 14:32:50 191
原创 hive大表关联产生数据倾斜的处理方法
案例说明:表a为一张事实表,含多个维度字段和多个指标字段,记录数为2万,表b为一张分摊比例表,记录数为1亿5000万。刚开始直接关联时sql跑了10个小时未出结果,reduce阶段一直停留在99%的进度,最终报错退出。经核查原因,发现b表中关联字段col1,存在很多值的记录数在10万以上,怀疑在reduce阶段key值分布不均导致记录数10万以上的key集中分布到了一个节点上执行。后来经过不断...
2019-12-05 19:01:33 1675
原创 Hive高级聚合函数——group by扩展
目录Grouping Sets 指定多种聚合的维度、层次,对多个group by + union all进行替换、简化With Rollup 可实现从右到左递减多级的统计,显示统计某一层次结构的聚合With cube 可以实现多个任意维度的查询,会统计所选列中值的所有组合的聚合Grouping__id 按照一定规则给统计的各维度组合打标,并返回标识值...
2019-12-05 18:21:45 1090
原创 python3实现文件内容按key进行groupby功能
1. 输入文件为text格式,包含两列,device(电话号码),jw(经度和纬度,用_分隔),样例如下:文件名:addr.txtdevice,jw18111111111,121.48_31.2218111111111,121.24_31.418111111111,102.73_25.0418111111112,103.82_25.6218111111113,102.91_24...
2019-12-05 16:33:20 371
excel函数大全.xls
2019-12-05
Manning - Web Development with JavaServer Pages, 2nd Ed.pdf
2008-05-24
Manning - Web Development with Apache and Perl.pdf
2008-05-24
Manning - JUnit Recipes - Manning - 2005.pdf
2008-05-24
Manning - Jakarta Commons Online Bookshelf.pdf
2008-05-24
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人