章鱼哥TuNan&Z-CSDN博客

原创 hive 修改分区表的字段类型采坑

hive修改分区表的字段类型采坑

2023-03-26 23:46:41 1450

原创 SQL 中去掉字段中字符串左边的0

SQL 中去掉字段中字符串左边的0

2023-02-20 09:42:46 2758

原创 SQL中替换某个字段中的多个字符为一个字符串，或则SQL中将某个字段的多个字符去掉

SQL中替换某个字段中的多个字符为一个字符串，或则SQL中将某个字段的多个字符去掉

2023-01-05 20:00:26 1572

原创 Linux高级笔记

包含linux的基础指令，awk命令

2022-08-29 09:11:00 298

原创 hive中实现merge into的功能（hive中低版本中无直接使用merge into的情况）

hive中实现merge into的功能（hive中低版本中无直接使用merge into的情况）

2022-06-27 00:00:51 1531

hive的一些重要参数SET hive.tez.container.size=8096;SET hive.tez.java.opts=-Xmx13384m;set hive.execution.engine=tez;set hive.tez.container.size=10240;set dfs.client.use.datanode.hostname=true;set hive.enforce.bucketing=true;set hive.exec.dynamic.partition=t

2022-05-18 17:50:25 402

原创 hive建表字段的数据类型确定：

hive建表字段的数据类型确定：涉及到交易笔数一般用：bigint设计到金额的一般用：decimal(38,2)其他的数据一般用string（是否…\分类…）

2022-05-12 08:53:44 946

转载如何利用Github搭建自己的免费图床？

如何利用Github搭建自己的免费图床？https://wenku.baidu.com/view/717b897e3f1ec5da50e2524de518964bcf84d2cb.html

2022-05-10 22:58:05 386

原创侯圣文大数据体验课笔记,大数据基础，离线数仓，实时计算

侯圣文大数据体验课笔记一、玩转大数据和互联网大厂大数据解析大数据职位有广袤的海洋：未来比较吃香的ABCA:AI人工智能B：Big Date大数据C：云计算人工智能算逛吃看买肉眼检索数据库查询智能推荐存脑袋海报数据库DB大数据BD客户买东西的演进过程：超市买物品，寻找商品只能靠人走看买，有哪些商品在大脑里存储海报：寻找商品在海报上肉眼检索，物品在海报上记录比较先进：自己家附近3公里内，有点像早期的外卖，买什么在在线购

2022-05-10 15:37:39 1124

原创大数据平台设置表数据量的监控任务（阈值）

侯圣文大数据体验课笔记一、玩转大数据和互联网大厂大数据解析大数据职位有广袤的海洋：[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-R6aNWQ9r-1652164317262)(C:\Users\MSI-NB\AppData\Roaming\Typora\typora-user-images\image-20220508163847484.png?lastModify=1652142610)]未来比较吃香的ABCA:AI人工智能B：Big Date大数据C：云计算

2022-05-10 14:35:20 678

原创大数据平台设置表数据量的监控任务（阈值）

大数据平台设置表数据量的监控任务#------------#本脚本为通用脚本#编写目的：监控玄武平台部分表的数据量，设置阈值，超过设置阈值会报错，发送短信提醒#-----------DB_NAME=${dbname} #DB_NAME：库名TABLE_NAME=${tablename} #TABLE_NAME：表名NORMAL_COUNT=${normalcount} #NORMAL_COUNT：最小阈值MAX_COUNT=${maxcount} #MAX_COUNT：最大阈值P_DATE

2022-05-10 14:12:27 492

原创 Hive监控表的数据量，使用analyze

Hive监控表的数据量，使用analyze1、使用方式analyze TABLE td.pt_pmart_ceo_FIN_TRSF_CTR_SITE_MAP partition (dt) COMPUTE STATISTICS noscan工作中用到的统计一个表的数据量# table_counts 查询出传入日期的表的数据量table_counts=$(hive -e "analyze table ${DB_NAME}.${TABLE_NAME} partition(pt='${P_DATE}'

2022-05-10 14:09:24 1606

原创 Bucket Join：分桶Join

Bucket Join：分桶Join场景：大表join大表，多次join实现step1：将两张大表的数据构建分桶数据按照分桶的规则拆分到不同的文件中分桶规则=MapReduce分区的规则=key的hash取余key=分桶的字段step2：只要实现桶与桶的join，减少了比较次数分桶本质：低层MapReduce的分区，桶的个数=Reduce个数=文件个数分类Bucket Map Join ：普通的分桶Join桶内的没一条数据要与对方桶的每一条数据进行joi

2022-05-07 09:47:15 1139

原创可视化报表选择

可视化实现2.0 可视化报表实现方式方式一：成本低、简单易用：使用开源的报表工具Superset、Cboard、DashBoard优点使用比较简单，只要了解基本的开发，可以快速的上手免费缺点支持的图表比较少图标构建比较的简陋存在一些bug，支持的数据源也比较少[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-nFVHGhtF-1651717643566)(https://gitee.com/TuNan86/mapdeport2/raw/

2022-05-05 10:28:41 140

原创 Sqoop从数仓导出数据到Mysql

动态分区配置、hive压缩、写入时压缩生效--动态分区配置set hive.exec.dynamic.partition=true;set hive.exec.max.dynamic.partitions=2000;set hive.exec.dynamic.partition.mode=nonstrict;set hive.exec.max.dynamic.partitions.pernode=10000;set hive.exec.max.dynamic.partitions=100000;

2022-05-05 08:44:03 1167

原创数据分析-指标(PV)

数据分析-指标(PV)常见的一些指标中只有页面访问数不需要去重；UV:count(distinct sid)PV：count(landing_page_url)Session：count(distinct session_id)IP：count(disinct ip)

2022-04-21 14:26:04 765

原创数据治理-数仓过程思考

数据治理-数仓过程思考数仓分层建设可以隔离原始数据，使加工逻辑很清晰，有利于中间层的复用，但是对数据治理来说标准化的过程又因为层级太多链路太长导致数据治理变得很麻烦，目前想到最好的办法就是建表，创建的时候符合公司的标准，提前理清楚标准，开发按照该标准进行工作的开展。...

2022-04-19 23:17:31 196

原创 hive中修改字段的中文注释，表的中文注释

hive中修改字段的中文注释，表的中文注释修改表的字段的中文注释alter table 数据库名.表名 change column 英文字段名英文字段名 string comment '新的中文注释名称';修改表的中文注释ALTER TABLE 数据库名.表名 SET TBLPROPERTIES('comment' = '新的表备注');...

2022-04-18 15:39:45 4072 2

原创 Hive注释中文乱码

一、修改元数据表注解为UTF8alter table COLUMNS_V2 modify column COMMENT varchar(256) character set utf8;alter table TABLE_PARAMS modify column PARAM_VALUE varchar(4000) character set utf8;alter table PARTITION_PARAMS modify column PARAM_VALUE varchar(4000) characte

2022-04-17 21:31:21 2147

原创 Hive 连续N天登录的问题

##Hive 连续N天登录的问题首先选中登录时间列将该列加上N天tommorrow，使用时间窗口，排序后下移固定天数nextLogin，select userid, logindate, date_add(logindate,2) as tommorrow,--登录日期的第三天 lead(logindate,2,0） over (partition by userid order by logindate) as nextLoginfrom table;userid lo

2022-04-17 16:49:51 1677

原创 hive 常用运算

*hive 常用运算**第一部分：关系运算*Hive支持的关系运算符•常见的关系运算符•等值比较: =•不等值比较: <>•小于比较: <•小于等于比较: <=•大于比较: >•大于等于比较: >=•空值判断: IS NULL•非空判断: IS NOT NULL•LIKE比较: LIKE•JAVA的LIKE操作: RLIKE•REGEXP操作: REGEXP•等值比较: =语法：A=B操作类型：所有基本类型描述: 如果表达式A与表达式B

2022-04-16 23:38:11 748

原创 hive的数据存储格式

hive的数据存储格式 Hive支持的存储的格式主要有：TEXTFILE(行式存储)、SEQUENCEFILE(行式存储)、ORC(列式存储)、PARQUET(列式存储)。1.1. 列式存储和行式存储[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-kD7DATTZ-1649748470312)(C:\Users\MSI-NB\AppData\Roaming\Typora\typora-user-images\image-20220412150642605.png)]

2022-04-12 15:28:11 3899

原创 hive的数据压缩

hive的数据压缩在实际工作当中，hive当中处理数据，一般都需要经过压缩，前期我们在学习hadoop的时候，已经配置过hadoop的压缩，我们这里的hive也是一样的可以使用压缩来节省我们的MR处理的网络带宽MR支持的压缩编码压缩格式工具算法文件扩展名是否可切分DEFAULT无DEFAULT.deflate否GzipgzipDEFAULT.gz否bzip2bzip2bzip2.bz2是LZOlzopLZO.lzo否

2022-04-12 14:57:35 973

原创 Hive自定义函数

1.1. Hive自定义函数1.1.1. 概述Hive 自带了一些函数，比如：max/min等，但是数量有限，自己可以通过自定义UDF来方便的扩展。当Hive提供的内置函数无法满足你的业务处理需要时，此时就可以考虑使用用户自定义函数（UDF：user-defined function）。根据用户自定义函数类别分为以下三种： 1、UDF（User-Defined-Function）一进一出 2、UDAF（User-Defined Aggregation Function）聚集函

2022-04-10 23:14:59 227

原创 Hive分析窗口函数(3)LAG,LEAD,FIRST_VALUE,LAST_VALUE

Hive分析窗口函数(3) LAG,LEAD,FIRST_VALUE,LAST_VALUE准备数据cookie1,2018-04-10 10:00:02,url2cookie1,2018-04-10 10:00:00,url1cookie1,2018-04-10 10:03:04,1url3cookie1,2018-04-10 10:50:05,url6cookie1,2018-04-10 11:00:00,url7cookie1,2018-04-10 10:10:00,url4cookie

2022-04-10 21:06:21 244

原创 SUM（结果和ORDER BY相关,默认为升序）

SUM（结果和ORDER BY相关,默认为升序）select cookieid,createtime,pv,sum(pv) over(partition by cookieid order by createtime) as pv1 from itcast_t1;select cookieid,createtime,pv,sum(pv) over(partition by cookieid order by createtime rows between unbounded preceding

2022-04-10 20:53:14 680

原创 hive 表中加载数据、hive表中的数据导出

hive 表中加载数据、hive表中的数据导出直接向分区表中插入数据通过insert into方式加载数据create table score3 like score;insert into table score3 partition(month='202007') values ('001','002','100');通过查询方式加载数据create table score4 like score;insert overwrite table score4 partition(month

2022-04-09 23:15:59 1674

原创外部分区表综合练习

外部分区表综合练习需求描述：现在有一个文件score.txt文件，存放在集群的这个目录下/scoredatas/month=202006，这个文件每天都会生成，存放到对应的日期文件夹下面去，文件别人也需要公用，不能移动。需求，创建hive对应的表，并将数据加载到表中，进行数据统计分析，且删除表之后，数据不能删除。1、数据准备：hadoop fs -mkdir -p /scoredatas/month=202006hadoop fs -put score.txt/scoredatas/month=20

2022-04-09 17:28:07 965

原创 Hive分区表

分区表创建分区表语法create table score(s_id string,c_id string,s_score int) partitioned by (month string) row format delimited fields terminated by '\t';创建一个表带多个分区create table score(s_id string,c_id string,s_score int) partitioned by (year string,month string,d

2022-04-09 16:38:21 70

空空如也

空空如也