自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(23)
  • 收藏
  • 关注

原创 日切表转拉链表初始化,分组排序

日切表转拉链表初始化,分组排序

2023-07-28 11:15:52 107

原创 python通过url获取json并解析

【代码】python通过url获取json并解析。

2023-07-04 14:53:03 232

原创 crontab 每月第二个周日

注: weekday 和 day 这两栏很容易造成混淆, 假如两栏同时都被指定时, 只需满足其中一栏就算符合,即会在每月1日和15日运行,每个星期五也会运行。如:每月第二个周六 指定周六,判断日期为日历中周六。3.指定星期,运行语句结合cal日历和awk获取指定位置日期判断。man 5 crontab # 找到下述解释。1.指定日期,运行语句加上星期判断。2.指定星期,运行语句加上日期判断。

2023-01-17 12:12:01 664

原创 hive 空文件 空数据文件 小文件

hive 空文件 空数据文件 小文件

2022-12-29 17:28:04 518

原创 hive parquet 修改字段名 查询为空

1.在Hive的当前会话设置parquet.column.index.access=true属性(临时)Parquet格式的表,在重命名表的列名后,查询重名的列数据时显示当前列所有值为NULL。hive默认的读取parquet文件是按照名称读取的(orc默认是按序列号读取的),这个参数的功能是使hive读取parquet文件时使用序列号读取。...

2022-08-11 17:57:11 1146

原创 gp表压缩

gp数据表压缩

2022-06-23 17:33:08 1004

原创 sparksql regexp_replace()匹配隐藏字符 匹配反斜杠

sparksql regexp_replace()匹配隐藏字符 匹配反斜杠

2022-06-17 11:07:02 1308

原创 Cloudera Manager(简称CM)管理大数据平台CDH,CM提供web可视化界面和RESTful API

API列表可以访问:http://localhost:7180/static/apidocs/rest.htmlhttps://github.com/cloudera/cm_api使用方式参考:1、访问集群概要信息# curl -u admin:your_password 'http://localhost:7180/api/v19/clusters/'2、获取集群内服务状态信息# curl -u admin:your_password 'http://localhost:7

2021-12-27 10:06:54 1267

原创 当月最后一天转换

hive-- HIVEselect last_day( from_unixtime( unix_timestamp('${bizdate}', 'yyyyMMdd') ) ), 'yyyy-MM-dd');-- PostgreSQLselect (date_trunc('month', '${bizdate}'::date) + interval '1 month' - interval '1 day')::d.

2021-11-08 17:46:49 1323

原创 获得元数据信息

oraclepostgresql/gppostgresql比较特殊一点,因为postgresql使用了namespace的概念,可能同一个库中不同的namesespace有两个表明一样的表:参考:postgresql文档:PostgreSQL: Documentation: 10: PostgreSQL 10.19 Documentation...

2021-07-28 11:37:17 358

原创 mysql到hive数据类型转换

2021-07-22 09:57:02 518

原创 decimal(m,n)

Hive的decimal类型类似Oracle,decimal(m,n)表示数字总长度为m位,小数位为n位,那么整数位就只有m-n位。MySql的decimal类型,decimal(m,n)表示整数位为m位,小数位为n位。如果你在Hive中使用的时候发现字段长度不够,Hive在处理数值字段的时候会直接置该字段值为NULL,不会将它截去。...

2021-07-13 10:31:01 1414

原创 sparksql java.lang.OutOfMemoryError: GC overhead limit exceeded

问题分析:查看yarn 任务详情Tracking URL:ApplicationMaster 界面,观察数据分配,发现tasks 的 suffer size分布不均匀。判断为 大表 left jion 小表 left join 大表的关联方式 ,产生了数据倾斜,造成内存溢出。解决方案:方案1:设置Spark-SQL adaptive 自适应框架参数需要在插入语句末尾添加分布键语句,distribute by 。SET spark.sql.adaptive.enabled=tr...

2021-05-26 10:42:05 947

原创 sql 正则替换

保留数字regexp_replace(mobiles,"[^0-9-]","")去除换行符regexp_replace(name, '\n|\t|\r', '')

2021-04-25 16:46:40 2061

原创 python2 读取csv 中文乱码

解决方法:使用codecs,指定读取编码文件内容:原代码:# -*- coding: utf-8 -*-import datetimeimport csvimport sysimport osreload(sys) sys.setdefaultencoding('utf8') # 设置编码# 读取配置文件def get_task_config(path): task_config = [] # 配置列表 每一个元素为一行配置 f = open(pat

2021-04-21 15:08:16 302 1

原创 hive 日期格式转换

方法1: from_unixtime+ unix_timestamp--20210303转成2021-03-03from_unixtime(unix_timestamp('20210303','yyyymmdd'),'yyyy-mm-dd')--2021-03-03转成20210303from_unixtime(unix_timestamp('2021-03-03','yyyy-mm-dd'),'yyyymmdd')--UTC时间from_unixtime( ( unix_times.

2021-03-04 15:51:51 1875 1

原创 sparksql压缩小文件

SET spark.sql.shuffle.partitions=2;SET spark.sql.adaptive.enabled=true;SET spark.sql.adaptive.shuffle.targetPostShuffleInputSize=268435456;insert overwrite table table_name partition(stat_dt) select * from source_table_name where stat_dt='20160701' dis.

2021-03-03 09:51:11 751

原创 Hive动态分区参数配置

Caused by: org.apache.hadoop.hive.ql.metadata.HiveFatalException: [Error 20004]: Fatal error occurred when node tried to create too many dynamic partitions. The maximum number of dynamic partitions is controlled by hive.exec.max.dynamic.partitions and hiv.

2021-01-04 16:11:07 295

原创 HDFS空间维护操作

删除临时目录:kinit -kt /etc/security/keytabs/xxx.keytab xxx #改为自己的用户hdfs dfs -du -h /user/hive/warehouse/icl_prd.db/ | grep '_temp_'hdfs dfs -rm -r $path_name压缩datax采集的数据:进入代理机:20.0.40.222hdfs dfs -ls -R /user/hive/warehouse/icl_prd.db/ | grep ..

2020-12-23 11:09:56 98

原创 1.4.2 IO流

第十七章 IO流17.1 IO流的概念 IO就是Input和Output的简写,也就是输入和输出的含义。 IO流就是指读写数据时像流水一样从一端流到另外一端,因此得名为“流"。17.2 基本分类 按照读写数据的基本单位不同,分为字节流和字符流。 其中字节流主要指以字节为单位进行数据读写的流,可以读写任意类型的文件。 其中字符流主要指以字符(2个字节)为单位进行数据读写的流,只能读写文本文件。 按照读写数据的方向不同,分为输入流和输出流(站在程序...

2020-12-07 23:56:25 109

原创 1.4.1 异常机制和File类

目录第十六章 异常机制和File类 16.1 异常机制(重点)16.1.1 基本概念16.1.2 异常的分类代码: 异常的分类, 测试16.1.3 异常的避免代码: 异常的避免 if 语句16.1.4 异常的捕获代码: 异常的捕获16.1.5 异常的抛出代码: 异常的抛出, 重写规则,16.1.6 自定义异常代码: 自定义异常16.2 File类(重点)16.2.1 基本概念16.2.2 常用的方法代码: File 类...

2020-12-06 18:08:01 86

原创 zoj2812

C++/*******************wrong answer***********************************/#include#includeusing namespace std;int main(){ string s; int sum; int i; while (getline(cin,s,'#')){  su

2015-06-03 21:41:03 420

原创 zoj1001

//C++#includeusing namespace std;int main(){ int a, b; while (cin >> a >> b) {  cout    //endl刷新流的缓冲区(stream's buffer)。 } return 0;}/*****************************************

2015-06-03 11:23:21 601

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除