自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

IKnowNothinglee的博客

Tell me something I don't know

  • 博客(21)
  • 资源 (1)
  • 收藏
  • 关注

原创 python UDF 实现对csv批量md5加密

工作上遇到需求,一批手机号要md5加密导出。为了保证数据安全,所以没有采用网上工具来加密。md5的加密算法是开源的且成熟的,很多语言都有对应包可以直接用,我写了一个简单的python来实现,另一位同事做了一个hiveUDF来实现,这里都给大家分享一下。目标:读取csv文件,并且对其中的内容进行md5加密,32位加密,将加密后的密文存入另一个csv文件。python实现:(1)准备好要读取的...

2020-04-17 12:29:30 764 1

原创 sqoop import 导入到hive后数据量变多的问题

使用sqoop import 命令从postgresql导入数据到hive中,发现数据行数变多了,但是任务没有跑错,非常奇怪。导入语句为:sqoop import --connect jdbc:postgresql://*.*.*.*:5432/database_name --username name111 --password password111 --table table11...

2019-11-06 16:58:57 3068 2

原创 hive case when的选择顺序优先级问题

hive 中有case when 的语法是:case when 条件1 then 结果1when 条件2 then 结果2when 条件3 then 结果3......else 结果x end那如果被查询的行同时符合条件1和条件3呢?结果会是出现“结果1”还是“结果3”呢?根据测试,是符合结果1,原因是语句先“碰见” when 条件1 then 结果1这一句。如果语句改为:se...

2019-09-23 11:50:29 9188

原创 hive不能连续比较运算

日常写代码中发现,hive不能连续比较运算,记录一下:错误写法:hive> select 1<2<3;OK_c0trueTime taken: 0.142 seconds, Fetched: 1 row(s)hive> select 1<7<3;OK_c0trueTime taken: 0.131 seconds, Fetched: 1 ...

2019-09-23 11:11:38 295

原创 从集合运算到mysql的not like找不出NULL

记一次有趣的发现:有一个表,总记录数是1000条,现在有一条查询语句:#查询语句1#找出表中id中含有‘A’或‘B’或‘C’的字段select * from table1 where id like '%A%' or id like '%B%' or id like '%C%' ;#成功查出300条嗯查询正常,有300条记录呢。然后我随便再敲一次查询语句…:#查询语句2#找...

2019-08-21 18:22:58 1355 1

原创 Mysql的大小写敏感问题总结

之前对mysql大小写敏感的问题不太在意,直到在工作上碰到了bug,才意识到问题的不可忽略性,于是在这简要总结一下。工作上碰到的问题回顾使用sqoop命令从hive往mysql导数据:sqoop export --connect "jdbc:mysql://172.16.xxx.xxxx:3306/database1?useUnicode=true&characterEncoding...

2019-08-12 16:25:10 1159

原创 如何往hive直接插入自定义数据values

我们熟知的hive支持插入数据的方式有两种,覆盖写入insert overwrite和增量写入insert into。常见数据获取方式有两种(1)文件导入load data (local) inpath…(2)查询导入 insert overwrite/into table select * from table1…但是,hive支不支持直接插如自定义数据呢,有没有类似sql类数据库的“inse...

2019-08-12 14:34:43 19192

原创 XlsxWriter的简单使用:python向excel写入数据

准备练习数据用fiddler捕获请求Twitter的返回数据,并将其复制粘贴存入txt文件。数据结构大致如下:准备XlsxWriter包安装XlsxWriter包#使用pip下载并安装包(本机已安装过)C:\Users\limj3>pip install XlsxwriterDEPRECATION: Python 2.7 will reach the end of its li...

2019-08-12 10:20:54 4923 1

原创 ambari 提示hiveserver2拒绝连接

记一次集群修复问题:有天上班突然发现ambari提示hiveserver2拒绝连接,按照习惯,先重启hiveserver2的服务。结果发现重启后还是报错,遂进入服务器直接敲“hive”命令,得到下面输出:The number of live datanodes 3 has reached the minimum number 0.Safe mode will be turned off ...

2019-06-24 16:55:27 2054

原创 hive按日期连续统计每天的新增和总量

记录一次统计需求的实现:需求:现有表ticket_detail(telphone,name,createddate),记录了人员新增信息,每增加一行,代表有新的人员加入。表ticket_detail示例如下:现在要统计每天新增的人数,以及每天新增后的人员总数,并且,要去重相同的人员,通过(telphone,name)来唯一标识一个人员。统计结果先看统计后的结果:实现方法接下来是阐...

2019-06-20 15:37:02 12539 5

原创 sqoop export导出 map100% reduce0% 卡住的多种原因

我称这种bug是一个典型的“哈姆雷特”bug,就是指那种,报错情况相同但网上却会有各种五花缭乱解决办法的bug,让我们不知道哪一个才是症结所在。先看导入命令:[root@host25 ~]# sqoop export --connect "jdbc:mysql://172.16.xxx.xxx:3306/dbname?useUnicode=true&characterEncoding...

2019-06-13 14:57:20 4090

原创 记录hive union操作拆过的坑

我们经常用union操作是来连接两个或者多个查询结果。但在hive中使用需要注意避免几个坑:1、union和union all的选择。Hive在1.2.0之前的版本只支持union all,在1.2.0之后的版本才支持union。在老版本中使用union连接,会报错,并且会提醒你加上all。union all和union的区别在于:连接后,union all会保留重复的记录而union不会。...

2019-06-06 16:56:33 916

原创 往hive导入查询数据全为NULL,但导入过程无报错,mysql/postgresql

今天导数遇到一个问题,通过sqoop import从 postgresql导数据到hive中后,发现查询出来全部都是空的:检查导入命令,没有错啊:[root@dthost25 ~]# sqoop import --connect jdbc:postgresql://192.168.xxx.xxx:5432/xxxxdb --username xxxx --password xxxxxxx ...

2019-06-06 12:19:43 3960

原创 sqoop 工具报错:No columns to generate for ClassWriter报错真实原因

今天遇到这个错误,查了一下网上的答案五花八门,分析对比后结果发现,这个报错其实不是真正的报错。只是这段话刚好是报错代码的最后面,所以才被误以为这是一个独立的报错,这只是一类错误的统称,其实有很多不同的错误都会导致出现这个代码。 java.io.IOException: No columns to generate for ClassWriter比如:(1)由于mysql驱动mysql-co...

2019-05-29 16:48:01 9458 7

原创 sqoop导入报错:Bad URL format. Hostname not found in authority part of the url: null:null.

记录一个在大数据平台进行数据导入的错误:Caused by: java.lang.IllegalArgumentException: Bad URL format. Hostname not found in authority part of the url: null:null. Are you missing a '/' after the hostname ? at o...

2019-05-29 11:27:59 3567

原创 sqoop query时单双引号选用以及$CONDITION使用的探究

这段时间碰见了一个奇怪的sqoop导入问题。我的业务目标是想将postgresql库里的某张表内的数据导入到hive里,而且在导入的时候需要做一步查询。但在导入的时候,围绕着"$CONDITION"这个参数,会有不同的运行结果,有的报错,有的查询结果为空,我们下面来看看:在pgsql里的查询语句为:# postgresql 查询语句select id,check_code,lastupdat...

2019-05-28 15:52:04 9736 7

原创 用mysql记录从url返回的http GET请求数据

业务场景需求及实现逻辑分析在业务中,我们经常会碰到需要用HTTP GET请求数据的情况,比如http请求返回的结果如下所示:那么,如果我们想将这些数据用mysql存储下来,那该怎么实现呢?其实,调用python的httplib和MySQLdb包将会非常容易实现,httplib负责获取url的返回,MySQLdb负责对MySQL数据库进行操作。下面整理了关系逻辑图:那么,我们开始代码开发...

2019-05-27 11:30:57 2479

原创 python安装mysql的依赖包mysql-python

一般情况下,使用pip命令安装即可:[root@dthost27 ~]# pip install mysql-python但是在实际工作环境中,往往会安装失败,这是因为系统缺少mysql的相关依赖组件。所以必须先安装mysql-devel类的包,而且必须要对应好mysql客户端的版本,即要安装好:[root@dthost27 ~]#rpm -ivh mysql-community-l...

2019-05-24 14:03:57 8443

原创 安装python依赖包psycopg2来调用postgresql

先安装psycopg2的依赖组件本案例的操作系统为linux red hat在安装python依赖包之前,需要先安装postgresql相关组件:[root@dthost27 ~]# yum install postgresql-devel(安装过程中会顺带安装上postgresql和postgresql-libs组件)可选组件:[root@dthost27 ~]# yum in...

2019-05-24 10:01:31 5513

原创 postgresql导入数据到hive

整张表导入在linux环境中运行:[root@dthost27 ~]# sqoop import --connect jdbc:postgresql://192.168.xxx.xxx:5432/pgsql_db --username user11 --password 123456 --table pgsql_table11 --hive-import --hive-database ...

2019-05-23 17:01:55 3011

原创 excel数据从windows导入hive

1、将excel对应表保存为txt文本(制表符分隔)将txt文件导入linux系统这里采用了工具secureCRT,该工具可以通过命令rz从windows系统快速导入文件[root@dthost27 ~]# rz欢迎使用Markdown编辑器你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章,了解一下...

2019-05-23 16:40:11 1099

调用百度AI平台上的短文本相似度API

调用百度AI平台上的短文本相似度API,调用api接口,实现测试。

2018-04-20

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除