自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(31)
  • 收藏
  • 关注

原创 PG数据库表及表注释查询语句

PG数据库表及表注释查询语句

2022-08-15 16:54:16 2417 1

原创 hive grouping sets聚合函数

函数说明:grouping sets在一个 group by 查询中,根据不同的维度组合进行聚合,等价于将不同维度的 group by 结果集进行 union allcube根据 group by 的维度的所有组合进行聚合rollup是 cube 的子集,以最左侧的维度为主,从该维度进行层级聚合。(1)grouping sets select order_id, departure_date, count(*) as cnt fr

2022-03-22 13:16:56 2770

原创 mysql 数据截取第二个双引号之间的字符串

fraud_method{"ptl":"博彩网站诈骗","xjfwl":"招嫖诈骗","community":null}{"mcsfl":"冒充单位领导","community":"九里工贸园区"}{"mcsfl":"冒充军人采购","community":"大滩社区"}{"mcsfl":"冒充乡镇、党政领导","community":"尚巷村"}##先截取:"后面的内容select substring('{"ptl":"博彩网站诈骗"}',locate(':"','{"ptl":"博

2021-11-10 17:10:55 1708

原创 jupyter notebook中matplotlib绘图包的中文乱码问题

#中文字体乱码的时候可以通过修改指定默认字体也可以通过修改配置文件指定字体(见CSDN收藏中文乱码解决方法)from pylab import mplmpl.rcParams['font.sans-serif']=['FangSong']#指定默认字体

2021-08-23 16:23:17 270

原创 mysql数据库表联合更新

UPDATE info1 t1 JOIN info2 t2ON t1.name = t2.nameSET t1.age = t2.age, t1.class = t2.class;update ads_yhfz_blxx_v1 a join code_town bon b.name=a.xzdzjdset a.xzdz_code=b.code,a.xzdzsf_code=b.province,a.xzdzcs_code=b.city,a.xzdzqx_code=b.area,a.xz.

2021-08-02 14:29:47 150

原创 ES 查看版本问题

如何查看已安装elasticsearch版本:curl -XGET localhost:9200查看elasticsearch版本的方法:1、elasticsearch已经启动的情况下使用curl -XGET localhost:9200命令查看:"version" : {"number" : "1.7.2", ------版本号"build_hash" : "e43676b1385b8125d647f593f7202acbd816e8ec","build_times..

2021-07-23 09:33:09 6580

原创 LINUX下创建mysql数据库与用户并绑定

Linux下输入命令:mysql -uroot -proot123456进入mysql后输入:查看目前有哪些数据库存在:mysql> SHOW DATABASES;创建数据库:create schema [数据库名称] default character set utf8 collate utf8_general_ci;例子:mysql> create schema estuntest default character set utf8 collate utf8_g.

2020-08-26 17:06:51 481

原创 使用PG数据库联合更新数据

使用PG数据库联合更新数据时较麻烦,需要注意以下问题:正确联合更新数据模板:update appset app_mc=b.app_name from test1 as bwhere app_yybm=b.package_name and shr_sjsb_imei=b.imei and app.app_ly='2';要更新的表app不能起别名,set后应用到此表也直接用字...

2019-12-06 18:02:06 1704

原创 15位和18位身份证号码验证的正则表达式总结

身份证编码结构介绍:xxxxxx yyyy MM dd 375 0 十八位xxxxxx yy MM dd 75 0 十五位地区: [1-9]\d{5}年的前两位: (18|19|([23]\d)) 1800-2399年的后两位: \d{2}月份: ((0[1-9])|(10|11|12))天数: (([0-2][1-9])...

2019-11-18 16:03:42 4485

原创 用Python发送邮件

代码格式:# smtplib 用于邮件的发信动作import smtplibfrom email.mime.text import MIMETextfrom email.header import Header# email 用于构建邮件内容# 发信方的信息:发信邮箱,QQ 邮箱授权码#为了保护隐私最好设置成输入格式输入邮箱和授权码#from_addr = input('请输...

2019-10-12 17:34:02 651

原创 完整版身份证前6位判断归属地

code name110000 北京市110100 北京市市辖区110101 北京市东城区110102 北京市西城区110103 北京市崇文区110104 北京市宣武区110105 北京市朝阳区110106 北京市丰台区110107 北京市石景山区110108 北京市海淀区110109 北京市门头沟区110111 北京市房山区110112 北京市通州区110113 北京...

2019-09-10 16:33:23 23031

原创 wget: unable to resolve host address的解决方法

wget:无法解析主机地址。这就能看出是DNS解析的问题。解决办法:(1)登入root(2)进入/etc/resolv.conf(3)修改内容为下nameserver 8.8.8.8 #google域名服务器nameserver 8.8.4.4 #google域名服务器...

2019-06-18 09:44:04 3711 2

原创 ORACLE学习汇总

1.查看所有用户select * from all_users;select * from dba_users;select * from user_users;2.查看用户或角色系统权限select * from user_sys_privs;(当前用户的权限)select * from role_sys_privs;(登陆用户所拥有的角色)select * fr...

2019-06-12 10:26:57 415

原创 HIVE优化

一,join优化 join查找操作的基本原则:应该将条目少的表/子查询放在join操作符的左边。原因是在join操作的reduce阶段,位于jion操作符左边表的内容会被加载进内存,将条目少的表放在左边,可以有效减少发生内存溢出错误的几率。 join查找操作中如果存在多个join,且所有参与join的表中其参与join的key都相同,则会将所有的join合并到一个m...

2019-06-12 10:26:29 267

原创 正则表达式的学习分享

一、 正则表达式正则表达式(Regular Expression)是一种文本模式,包括普通字符(例如,a 到 z 之间的字母)和特殊字符(称为"元字符")。正则表达式使用单个字符串来描述、匹配一系列匹配某个句法规则的字符串。正则表达式是烦琐的,但它是强大的,学会之后的应用会让你除了提高效率外,会给你带来绝对的成就感。只要认真阅读本教程,加上应用的时候进行一定的参考,掌握正则表达式不是...

2019-06-12 10:23:32 655

原创 排序比较row_number(顺序排序),rank(跳跃排序),dense_rank(连续排序)

(1).row_number的用途非常广泛,排序最好用它,它会为查询出来的每一行记录生成一个序号,依次排序且不会重复,注意使用row_number函数时必须要用over子句选择对某一列进行排序才能生成序号。(2).rank函数用于返回结果集的分区内每行的排名,行的排名是相关行之前的排名数加一。简单来说rank函数就是对查询出来的记录进行排名,与row_number函数不同的是,rank函数考虑...

2019-05-07 13:51:17 6063 1

原创 mysql怎么查看表占用空间大小

1、进去指定schema 数据库(存放了其他的数据库的信息)use information_schema2、查询所有数据的大小select concat(round(sum(DATA_LENGTH/1024/1024),2),'MB') as data from TABLES3、查看指定数据库的大小比如说 数据库zibaoselect concat(round(sum(DATA_LEN...

2019-04-22 08:43:50 3079 1

原创 LINUX学习笔记

1.命令连接符和命令替换符(1)命令1:  ";"   使用方式:命令1 ;命令2 , 用;的各命令按顺序依次执行,命令之间没有逻辑联系(2)命令2:  "&&"   逻辑与关机  使用方式:命令1 && 命令2  ,命令1执行成功后,命令2才被执行,命令1失败,则命令2不执行。实例:mkdir test && echo "aaa...

2019-02-26 14:15:12 282

原创 HDFS 常用命令

第一部分:hdfs文件系统命令第一类:文件路径增删改查系列:hdfs dfs -mkdir dir  创建文件夹hdfs dfs -rmr dir  删除文件夹dirhdfs dfs -ls  查看目录文件信息hdfs dfs -lsr  递归查看文件目录信息hdfs dfs -stat path 返回指定路径的信息第二类:空间大小查看系列命令:hdfs dfs -du -h di...

2019-02-25 19:32:00 1416

原创 LINUX Shell常用命令

Linux Shell常用shell命令一、文件、目录操作命令1、ls命令功能:显示文件和目录的信息ls 以默认方式显示当前目录文件列表ls -a 显示所有文件包括隐藏文件ls -l 显示文件属性,包括大小,日期,符号连接,是否可读写及是否可执行ls -lh 显示文件的大小,以容易理解的格式印出文件大小 (例如 1K 234M2G)ls -lt 显示文件,按照修改时...

2019-02-24 00:40:48 125522 2

原创 HIVE优化的四种方法

1、Hive整体架构优化2、在MR阶段进行优化3、Hive在SQL中优化4、Hive框架平台优化1.hive整体架构优化:现在hive的整体框架如下,计算引擎不仅仅支持Map/Reduce,并且还支持Tez、Spark等。根据不同的计算引擎又可以使用不同的资源调度和存储系统。整体架构优化点:1、根据不同业务需求进行日期分区,并执行类型动态分区。相关参数设置:0.14中默...

2018-10-19 15:31:46 2937

原创 oracle运维相关语句

--空间不足解决办法:--(1)select t.table_name,max(num_rows * avg_row_len/1024/1024)from user_tables  t   group by t.table_name  order by max(num_rows * avg_row_len/1024/1024) desc--(2)查询表有哪些账期的数据SELECT DI...

2018-10-15 16:26:52 308

原创 Oracle日期函数

to char 是把日期或数字转换为字符串 to date 是把字符串转换为数据库中得日期类型  转换函数  TO_CHAR 使用TO_CHAR函数处理数字 TO_CHAR(number, '格式') TO_CHAR(salary,’$99,999.99’); 使用TO_CHAR函数处理日期 TO_CHAR(date,’格式’);  TO_NUMBER 使用TO_NUMB...

2018-10-12 11:01:21 279

原创 ETL相关语句

1.删除分区:(1)不带子分区的表:alter table 表名 drop partition  PART${v_month}(2)带子分区的表:注意数据源,SQL类型的选择alter table DWA_V_D_CUS_AL_USER_INFO  drop subpartition  PART${v_last_month}_SUBPART_${v_last_day}2...

2018-10-09 17:28:35 1166

原创 HIVE日期格式转换大全

1.日期函数UNIX时间戳转日期函数: from_unixtime语法:from_unixtime(bigint unixtime[, stringformat]) 返回值: string说明: 转化UNIX时间戳(从1970-01-0100:00:00 UTC到指定时间的秒数)到当前时区的时间格式举例:hive> select from_unixtime(1523308977,'...

2018-09-29 15:13:02 3372

原创 使用映射从Oracle往hive导数,数据条数增加问题--字段包含换行和换行分隔符导致条数增加

首先使用REPLACE函数替换掉Oracle字段里面的换行和回车分隔符:replace用法:replace('将要更改的字符串','被替换掉的字符串','替换字符串')oracle 中chr()函数CHR() --将ASCII码转换为字符语法CHR(number_code)示例select CHR(116) from dual;  --返回't'几个常用的chr()函数:c...

2018-09-25 09:46:12 982

原创 Hadoop基础 ----------hadoop fs 命令

1,hadoop fs –fs [local | <file system URI>]:声明hadoop使用的文件系统,如果不声明的话,使用当前配置文件配置的,按如下顺序查找:hadoop jar里的hadoop-default.xml->$HADOOP_CONF_DIR下的hadoop-default.xml->$HADOOP_CONF_DIR下的hadoop-site....

2018-08-28 22:15:18 273

原创 hive分层级取数(将多行记录合并为一条):concat_ws ,collect_set

分层级取数:投诉工单>通信质量>无法正常使用数据业务>无法上网/掉线>固网>宽带故障sselect a.row_id,concat_ws('>', collect_set(b.code_name)) code_name from (select row_id, id_list from open_038_dim.dim_ivr_path L...

2018-07-13 00:05:48 14294 7

原创 ORACLE如何清理数据可以使表空间立即释放?

1、查询表所占空间 Select Segment_Name,Sum(bytes)/1024/1024 From User_Extents   Group By Segment_Name2、删除指定分区数据(truncate 删除直接释放空间,数据不会进入回收站) alter table table_name truncate partition part_name3、delete删除数据表空间不会...

2018-07-12 23:42:00 20125 1

原创 hive中多个字段拼接注意躲避空值坑

select concat(leix01,leix02,leix03) from dim_ivr_dictionary where ivr_table like 'zj%' and bm='40102';select concat(nvl(leix01,''),nvl(leix02,''),nvl(leix03,'')) from dim_ivr_dictionary where ivr_tabl...

2018-05-23 22:50:04 11521

原创 如何解决使用hive将多字符作为分隔符的数据入库的问题

hive不支持多字符作为分隔符,但是有些数据必须使用多字符作为分隔符。因此当使用hive将多字符作为分隔符的数据入库时比较麻烦,以下办法仅供参考:将需要入库的数据先下载到本地目录下,然后通过替换分隔符的方法将源数据的分隔符替换掉再进行入库即可如字符集不一致记得转码哦!!!转码语句: iconv -f gbk -t utf8  file_name -o file_name_1替换分隔符语句: sed...

2018-04-26 23:21:41 1416

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除