自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(36)
  • 资源 (2)
  • 收藏
  • 关注

原创 Hive视图执行show create table被截断

现象:在执行show create view 的时候发现结果出现异常。create view v_test as select然后后面的SQL就没有了。但是view是可以正常访问的。解决方法:查询了TBLS表,发现可以正常看到view的创建语句。后来发现问题是由VIEW的create语句中带有“ \t”字符引起的重建了表,删除了\t之后,可以正常显示view的建表语句了...

2020-08-17 16:06:25 931

原创 关于ThreadPoolExecutor和ProcessPoolExecutor的用法

concurrent.futures模块提供了高度封装的异步调用接口ThreadPoolExecutor:线程池,提供异步调用ProcessPoolExecutor: 进程池,提供异步调用下面的例子,使用的sbumit方法调用。使用 add_done_callback 添加回调函数。如果不使用回调函数,可以用 future.result() 获取返回的结果。一般2种方法用一种就可以了。from concurrent.futures import ThreadPoolExecutorfrom co

2020-08-14 17:11:37 1363

原创 java.lang.OutOfMemoryError: GC overhead limit exceeded

错误信息执行Sql:create table xxx.gqj_test_1 as select applseq,max(case when rule_id='2005302' then result end) as 6_month,max(case when rule_id='2005304' then result end) as 12_month,max(case when rule_id='2005306' then result end) as 18_month,m

2020-07-28 13:20:34 551

原创 SQL优化:通过窗口函数实现字符串的累加

问题说明:表A的内容id prodname seq1 a 11 b 21 c 31 d 42 b 12 c 22 d 3用户希望获得这样的结果:id prodname seq prodnames1 a 1 a1 b 2 a,b1 c 3 a,b,c1 d 4 a,b,c,d2 b 1 b2 c 2 b,c2 d 3 b,c

2020-07-27 18:11:54 447

原创 Hive窗口函数、聚合函数和Table-Generating函数

以下资料来源于网络,我只是整理了下:hive聚合函数:函数名:count(*)、count(expr)、count(DISTINCT expr[, expr_.])描述:返回检索到的行的总数,包括含有NULL值的行。count(expr) – 返回expr表达式不是NULL的行的数量count(DISTINCT expr[, expr]) – 返回expr是唯一的且非NULL的行的数量函数名:sum(col)、sum(DISTINCT col)描述:对组内某列求和(包含重复值)或者对组内某列求和(

2020-07-27 18:03:50 409

原创 Hive Runtime Error: Map local work failed

错误信息:执行了一个SQL报错,报错信息:Query ID = dp_20200727115751_43f3bac0-11ce-4230-bccd-511ef9b4c484Total jobs = 5SLF4J: Class path contains multiple SLF4J bindings.SLF4J: Found binding in [jar:file:/opt/cloudera/parcels/CDH-6.2.0-1.cdh6.2.0.p0.967373/jars/log4j-slf

2020-07-27 13:07:47 835 1

原创 CSV文件拆分一列数据为两列

有需求把csv文件中某一列TERM的数据拆分成2列df = pd.read_csv('/data/xxx/规则汇总.csv',encoding='GBK')df.loc[df["TERM"].astype(str)=="0","TERM"]=":0"df.loc[df["TERM"].astype(str)=="3","TERM"]=":3"df.loc[df["TERM"].astype(str)=="4","TERM"]=":4"df.loc[df["TERM"].isnull()==True

2020-07-23 17:41:22 3001

原创 Hive里面添加外部表访问ES的数据

在Hive里面添加外部表访问ES的数据add jar /home/dp/xx/elasticsearch-hadoop-6.4.1.jar;add jar /home/dp/xx/commons-httpclient-3.1_1.jar;drop table xxx_tmp.es_ods_extdata;CREATE EXTERNAL TABLE xxx_tmp.es_ods_extdata(id string,applseq string,remark1 string,cardnumber

2020-07-23 09:16:46 1349

原创 Hive数据导出到CSV的方法

1. 使用 insert overwrite local directoryinsert overwrite local directory '/url/lxb/hive'row format delimitedfields terminated by ','select * from table_name limit 1002. 使用 hive 导出结果hive -e "set hive.cli.print.header=true; select * from data_table wher

2020-07-15 17:13:25 7755

原创 Error: Java heap space

错误信息在往一张orc表插入数据的时候报错:Java heap spaceSQL语句如下:insert overwrite table xx.xxxxx partition(batchdate) select * from xxxxx.xxxxx where batchdate =‘2020-02-23’ ;一开始以为是数据量太大了,查询了下发现这个目录只有1个文件,49.2M49.2 M 147.6 M /user/hive/warehouse/xxx.db/xxx/batchdate=

2020-07-10 14:54:37 1115 1

原创 [Fatal Error] total number of created files now is 100576, which exceeds 100000. Killing the job.

起因今天在执行SQL的时候遇到了以下错误:[Fatal Error] total number of created files now is 100576, which exceeds 100000. Killing the job.SQL如下:insert into temp.tablea partition(batch_date)select a.*,a.btdate from temp.new_tablea a;错误原因Hive对文件创建的总数是有限制的,这个限制取决于参数:hive.

2020-07-08 13:56:30 1937

原创 Pandas练习题

有数据如下: A B0 1 [1, 2, 3]1 2 [4, 5, 6]希望变成 A B0 1 10 1 20 1 31 2 41 2 51 2 6代码:>>> df=pd.DataFrame({"A":[1,2],"B":[[1,2,3],[4,5,6]]})>>> ...

2019-11-06 09:45:57 969

原创 【leetcode每日一题】【2019-06-24】21. 合并两个有序链表

21. 合并两个有序链表地址: https://leetcode-cn.com/problems/merge-two-sorted-lists/submissions/将两个有序链表合并为一个新的有序链表并返回。新链表是通过拼接给定的两个链表的所有节点组成的。 示例:输入:1->2->4, 1->3->4输出:1->1->2->3->4...

2019-06-24 15:39:22 61

原创 【leetcode每日一题】【2019-06-20】20. 有效的括号

20. 有效的括号地址: https://leetcode-cn.com/problems/valid-parentheses/给定一个只包括 '(',')','{','}','[',']' 的字符串,判断字符串是否有效。有效字符串需满足:左括号必须用相同类型的右括号闭合。左括号必须以正确的顺序闭合。注意空字符串可被认为是有效字符串。示例 1:输入: "()"输出: tr...

2019-06-20 10:07:54 87

原创 【leetcode每日一题】【2019-06-19】19. 删除链表的倒数第N个节点

19. 删除链表的倒数第N个节点地址: https://leetcode-cn.com/problems/remove-nth-node-from-end-of-list/submissions/给定一个链表,删除链表的倒数第 n 个节点,并且返回链表的头结点。示例:给定一个链表: 1->2->3->4->5, 和 n = 2.当删除了倒数第二个节点后,链表...

2019-06-19 17:12:34 76

原创 【leetcode每日一题】【2019-06-10】18. 四数之和

18. 四数之和给定一个包含 n 个整数的数组 nums 和一个目标值 target,判断 nums 中是否存在四个元素 a,b,c 和 d ,使得 a + b + c + d 的值与 target 相等?找出所有满足条件且不重复的四元组。注意:答案中不可以包含重复的四元组。示例:给定数组 nums = [1, 0, -1, 0, -2, 2],和 target = 0。满足...

2019-06-10 18:24:16 111

原创 【leetcode每日一题】【2019-05-30】17. 电话号码的字母组合

17. 电话号码的字母组合地址: https://leetcode-cn.com/problems/letter-combinations-of-a-phone-number/题目:给定一个仅包含数字 2-9 的字符串,返回所有它能表示的字母组合。给出数字到字母的映射如下(与电话按键相同)。注意 1 不对应任何字母。示例:输入:"23"输出:["ad", "ae", "af...

2019-05-30 17:20:01 159

原创 【leetcode每日一题】【2019-05-27】16. 最接近的三数之和

16. 最接近的三数之和地址: https://leetcode-cn.com/problems/3sum-closest/submissions/给定一个包括 n 个整数的数组 nums 和 一个目标值 target。找出 nums 中的三个整数,使得它们的和与 target 最接近。返回这三个数的和。假定每组输入只存在唯一答案。例如,给定数组 nums = [-1,2,1,-4], 和...

2019-05-28 11:08:18 84

原创 【leetcode每日一题】【2019-05-22】15. 三数之和

15. 三数之和地址: https://leetcode-cn.com/problems/3sum/solution/题目:给定一个包含 n 个整数的数组 nums,判断 nums 中是否存在三个元素 a,b,c ,使得 a + b + c = 0 ?找出所有满足条件且不重复的三元组。注意:答案中不可以包含重复的三元组。例如, 给定数组 nums = [-1, 0, 1, 2, -...

2019-05-22 16:36:30 89

原创 【leetcode每日一题】【2019-05-20】14. 最长公共前缀

14. 最长公共前缀地址: https://leetcode-cn.com/problems/longest-common-prefix/solution/zui-chang-gong-gong-qian-zhui-by-gpe3dbjds1/编写一个函数来查找字符串数组中的最长公共前缀。如果不存在公共前缀,返回空字符串 ""。示例 1:输入: ["flower","flow","...

2019-05-20 16:38:20 145

原创 【leetcode每日一题】【2019-05-17】13. 罗马数字转整数

13. 罗马数字转整数地址: https://leetcode-cn.com/problems/roman-to-integer/submissions/罗马数字包含以下七种字符: I, V, X, L,C,D 和 M。字符 数值I 1V 5X 10L 50C ...

2019-05-17 11:17:09 124

原创 【leetcode每日一题】【2019-05-14】12. 整数转罗马数字

12. 整数转罗马数字地址: https://leetcode-cn.com/problems/integer-to-roman/罗马数字包含以下七种字符: I, V, X, L,C,D 和 M。字符 数值I 1V 5X 10L 50C 100...

2019-05-14 16:28:20 113

原创 【leetcode每日一题】【2019-05-09】11. 盛最多水的容器

11. 盛最多水的容器地址:https://leetcode-cn.com/problems/container-with-most-water/submissions/给定 n 个非负整数 a1,a2,...,an,每个数代表坐标中的一个点 (i, ai) 。在坐标内画 n 条垂直线,垂直线 i 的两个端点分别为 (i, ai) 和 (i, 0)。找出其中的两条线,使得它们与 x 轴共同构成...

2019-05-09 17:27:39 181

原创 【leetcode每日一题】【2019-05-06】9. 回文数

9. 回文数地址: https://leetcode-cn.com/problems/palindrome-number/判断一个整数是否是回文数。回文数是指正序(从左向右)和倒序(从右向左)读都是一样的整数。示例 1:输入: 121输出: true示例 2:输入: -121输出: false解释: 从左向右读, 为 -121 。 从右向左读, 为 121- 。因此它不是一...

2019-05-06 16:08:59 104

原创 【leetcode每日一题】【2019-04-30】8. 字符串转换整数 (atoi)

8. 字符串转换整数 (atoi)地址: https://leetcode-cn.com/problems/string-to-integer-atoi/submissions/请你来实现一个 atoi 函数,使其能将字符串转换成整数。首先,该函数会根据需要丢弃无用的开头空格字符,直到寻找到第一个非空格的字符为止。当我们寻找到的第一个非空字符为正或者负号时,则将该符号与之后面尽可能多的...

2019-05-06 16:08:14 79

原创 【leetcode每日一题】【2019-04-28】7. 整数反转

7. 整数反转地址: https://leetcode-cn.com/problems/reverse-integer/submissions/这次的题目还是比较简单的数字转字符串,然后反转,再转成数字即可对于正负数可以分开处理Python:class Solution: def reverse(self, x: int) -> int: try: ...

2019-04-29 15:12:14 134

原创 【leetcode每日一题】【2019-04-26】6. Z 字形变换

6. Z 字形变换地址: https://leetcode-cn.com/problems/zigzag-conversion/submissions/将一个给定字符串根据给定的行数,以从上往下、从左到右进行 Z 字形排列。比如输入字符串为 "LEETCODEISHIRING" 行数为 3 时,排列如下:L C I RE T O E S I I GE D H ...

2019-04-26 18:09:42 102

原创 【leetcode每日一题】【2019-04-16】5.最长回文子串

5. 最长回文子串地址: https://leetcode-cn.com/problems/longest-palindromic-substring/submissions/给定一个字符串 s,找到 s 中最长的回文子串。你可以假设 s 的最大长度为 1000。示例 1:输入: "babad"输出: "bab"注意: "aba" 也是一个有效答案。示例 2:输入: "cbb...

2019-04-16 10:14:32 126

原创 【leetcode每日一题】【2019-04-11】4. 寻找两个有序数组的中位数

4. 寻找两个有序数组的中位数地址: https://leetcode-cn.com/problems/median-of-two-sorted-arrays/submissions/题目:给定两个大小为 m 和 n 的有序数组 nums1 和 nums2。请你找出这两个有序数组的中位数,并且要求算法的时间复杂度为 O(log(m + n))。你可以假设 nums1 和 nums2 ...

2019-04-11 14:28:09 166

原创 【leetcode每日一题】【2019-04-10】3.无重复字符的最长子串

3.无重复字符的最长子串地址: https://leetcode-cn.com/problems/longest-substring-without-repeating-characters/submissions/给定一个字符串,请你找出其中不含有重复字符的 最长子串 的长度。示例 1:输入: "abcabcbb"输出: 3 解释: 因为无重复字符的最长子串是 "abc",所以其...

2019-04-10 15:19:20 99

原创 【leetcode每日一题】【2019-04-08】2.两数相加

2. 两数相加题目地址: https://leetcode-cn.com/problems/add-two-numbers/submissions/给出两个 非空 的链表用来表示两个非负的整数。其中,它们各自的位数是按照 逆序 的方式存储的,并且它们的每个节点只能存储 一位 数字。如果,我们将这两个数相加起来,则会返回一个新的链表来表示它们的和。您可以假设除了数字 0 之外,这两个数都...

2019-04-09 18:16:26 123

原创 【leetcode每日一题】【2019-04-03】1. 两数之和

1. 两数之和题目地址: https://leetcode-cn.com/problems/two-sum/给定一个整数数组 nums 和一个目标值 target,请你在该数组中找出和为目标值的那 两个 整数,并返回他们的数组下标。你可以假设每种输入只会对应一个答案。但是,你不能重复利用这个数组中同样的元素。示例:给定 nums = [2, 7, 11, 15], target ...

2019-04-03 17:15:47 68

原创 一次$colon$colon cannot be cast to java.lang.String错误

今天在解析Json的时候遇到了一个错误:java.lang.ClassCastException: scala.collection.immutable.coloncoloncoloncolon cannot be cast to java.lang.String我模拟了下错误,步骤如下:scala> val json_str="""{"name":"张三&quot

2019-01-31 23:26:06 2663

原创 [转帖]NoSQL in the Enterprise

一篇infoQ上的文章是对NoSQL实用价值的一个说明,保存下来抽空翻译下。文章地址:http://www.infoq.com/articles/nosql-in-the-enterprise<!-- Begin anyShare -->

2012-02-23 16:39:00 80

原创 [翻译]Redis教程一篇

NoSQLFan上看到的一篇Redis教程,原文链接:http://labs.alcacoop.it/doku.php?id=articles:redis_land自己随便翻译了下。 ALCA in Redis-landShort summary of an adventurous journey in the NOSQL world with Redis.The legs o...

2012-02-22 15:43:01 139

原创 [转帖]数据存储的一致性模型

数据一致性通常指关联数据之间的逻辑关系是否正确和完整。而数据存储的一致性模型则可以认为是存储系统和数据使用者之间的一种约定。如果使用者遵循这种约定,则可以得到系统所承诺的访问结果。 常用的一致性模型有:a、严格一致性(linearizability, strict/atomic Consistency):读出的数据始终为最近写入的数据。这种一致性只有全局时钟存在时才有可能,在分布式网络环境...

2012-02-16 16:52:29 131

2019股票价格_data.csv

NumPy学习指南书的 苹果股票价格的数据,用于代码案例测试, 文件为csv格式

2019-07-12

hive-tuning ppt

Adam Muise是Hortonworks的解决方案工程师,他在多伦多举办的HUG上做了一个关于如何调优Hive的演讲,长达91页的PPT干货十足,从Hive的基本架构、Hive如何存取数据讲起,到如何调优的基本知识,最后介绍了个叫Stinger的项目,可看做下一代Hive,性能更快,它使得Hive不再局限于批处理领域,而是直接杀入交互式应用领域,与Impala等系统直接竞争。

2018-08-31

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除