lishengping_max-CSDN博客

原创 HIVE SQL时间函数使用

SELECT CURRENT_DATE；— 2019-06-25 SELECT CURRENT_TIMESTAMP；– 2019-06-25 15:33:25SELECT unix_timestamp()–1561447860SELECT from_unixtime(unix_timestamp(),'yyyy-MM-dd')– 2019-06-25SELECT from_...

2021-03-18 16:53:37 2972

原创 CDH问题：该主机已与 Cloudera Manager Server 建立联系。该主机未与 Host Monitor 建立联系。

CDH该主机已与 Cloudera Manager Server 建立联系。该主机未与 Host Monitor 建立联系。

2022-10-13 14:15:33 1416 1

原创 java语言使用Runtime调用py文件出现 Cannot run program “python“系统找不到指定文件

使用Runtime.getRuntime()执行python脚本文件，出现Cannot run program错误,如下使用Runtime.getRuntime().exec有两种情况：方法一：如果系统找不到python命令或者找不到文件会报此错误；方法二(方便传含空格参数)：需要在demo2.py中定义文件执行程序，如果不定义则程序找不到执行命令，也报错Cannot run program "python“系统找不到指定文件demo1.pyarg = sys.argv[1:]a = arg[0]

2021-12-19 16:02:43 2443

原创 oracle校验统一社会信用代码函数

create or replace FUNCTION CREDIT_CODES_CHECK(organizationCode VARCHAR2) /* organizationCode：要验证的统一社会信用代码 */ RETURN VARCHAR2 IS codeSum NUMBER(10) := 0; code VARCHAR(100); n_Length NUMBER(2); code_jy varchar(1); code_end varcha

2021-12-13 15:19:47 602 1

原创 oracle校验身份证号码函数

create or replace function ID_CARD_CHECK(prm_aac002 varchar2) return varchar2 is ll_i number(4) := 18; ll_row number(5) := 0; var_aac002 varchar2(18); ll_sfz18 number(3); ll_sfz varchar2(3); var_sfz18 varchar(18); var_date

2021-12-13 15:19:06 1047

原创 hue oozie执行impala sql

在hue使用oozie即workflow执行impala sql，需要使用shell调用impala-shell一、如果开启了LDAP，impala-shell需要输入密码，则shell需要调用expect传输密码shell脚本execute_impala_sql_file.sh如下：#!/bin/bashexport PYTHON_EGG_CACHE=/home/hive/.python-eggsexpect execute_impala_sql_file.exp $1execute_im

2021-12-09 19:52:25 1686

原创撤销commit操作

当git不允许提交大文件报错时，remote: error: File Examples/iOSDemo/Pods/dependency/libg2o.a is 440.12 MB; this exceeds GitHub's file size limit of 100.00 MB或者remote: fatal: pack exceeds maximum allowed size我们需要回退commit，如下操作1.查看git提交历史,并选取自己要返回的commitIdgit log使用

2021-09-22 10:10:10 11773

原创 PLSQL记住密码

汉化PLSQL Developer 14 (64 bit)以上版本：较低的英文版本：tool-preferences注意：千万不要勾选连接里面的“使用密码存储”，这样会导致必须输入密码，有些教程乱写的害人。

2021-09-10 15:30:50 446

转载 CDH Disk Balancer 磁盘数据均衡

前提：CDH5.10由于数据量过多，磁盘大小太小，导致磁盘使用率高达90%以上，于是新增磁盘，可问题来了，如何将这两块磁盘上的数据进行均衡呢？hadoop在2.X中已经有相应的方法了(具体哪个版本忘了)，本次基于CDH来做1.设置dfs.disk.balancer.enabled 为true2.hdfs diskbalancer -plan cdh03(需要均衡的机器) 会生成一个*.plan.json的文件3.hdfs diskbalancer -execute /system/diskba

2021-08-26 16:41:43 444

转载 HDFS卷（磁盘）选择策略

在我们目前使用的Hadoop 2.x版本当中，HDFS在写入时有两种选择卷（磁盘）的策略，一是基于轮询的策略（RoundRobinVolumeChoosingPolicy），二是基于可用空间的策略（AvailableSpaceVolumeChoosingPolicy）。基于轮询的策略“轮询”是一个在操作系统理论中常见的概念，比如进程调度算法中的轮询算法。其思想就是从对象1遍历到对象n，然后再从1开始。HDFS中轮询策略的源码如下，非常好理解。public class RoundRobinVolume

2021-08-26 15:38:24 221

转载使用notepad++复制不同内容多行到对应位置

首先，不可否认notepad++软件在用户体验上是十分便捷的，支持的操作方式多样，连Idea等编辑器都在学习notepad的功能，但多数人并没有正确的使用；废话少说，今天我介绍一下常用的技巧一，多行数据的批量复制（如下图）基础原理介绍：如下图，在编辑器中，回车占用一个字符，空格占用一个字符操作方法介绍：多行编辑：按住Alt + 鼠标拖拽 + 编辑文字（如下图）多行复制：Ctrl + v操作流程：以上图为例，复制对应行手机号数据，然后多行复制（按住Alt + 鼠标拖拽）结果 X

2021-03-29 11:10:13 4657 1

原创 Oozie shell动作内存限制

我们有一个oozie工作流,其 shell操作需要比Yarn默认提供的map任务更多的内存.我们怎样才能给它更多的记忆？我们尝试将以下配置添加到操作中：<configuration> <property> <name>mapreduce.map.memory.mb</name> <value>6144</value>  </property>

2020-12-15 20:21:58 249

转载关于impala2.x版本不支持orc格式的官网说明

有时候在hive中想使用orc格式的表，但是impala查询却不支持，查看cloudera官网后发现确实说明了cloudera官网地址：https://www.cloudera.com/documentation/enterprise/5-14-x/topics/impala_file_formats.html直接搜索orc即可找到但是在cdh6.1.x后版本中也就是impala3.x已经支持orc格式了，网址：https://www.cloudera.com/documentation/ente

2020-12-09 19:14:03 557

原创 sqoop导出mysql报错

报错如下java.lang.RuntimeException: Can't parse input data: '\N\N\N' at ads_completed_claim_list.__loadFromFields(ads_completed_claim_list.java:1100) at ads_completed_claim_list.parse(ads_completed_claim_list.java:958) at org.apache.sqoop.mapreduce.Text

2020-08-21 14:10:54 690

转载 hive异常 return code X from org.apache.hadoop.hive.ql.exec.mr.MapredLocalTask 解决

转自：https://www.iteye.com/blog/vase-2090320不知道是不是hive-0.12版增强了local mode的原因，在之前版本运行好好的Hive-QL在这个版本上错误频频，折磨一天多以后终于定位到原因，把在内部的总结在这再记录下，希望对遇到同样问题的筒子们有所帮助。部分一关于return code 1 from org.apache.hadoop.hive.ql.exec.mr.MapredLocalTaskHive升级到0.12版之后，若干原来在0.10上执行正常

2020-07-23 14:56:10 2008

转载 ive运行异常： ERROR | main | Hive Runtime Error: Map local work exhausted memory

2020-07-23 14:49:31 285

原创 Hive字段校验测试

一、HDFS文件中字段类型和表字段长度/类型不一致场景结论1.如果是varchar类型长度短与文件中字段长度，通过HQL查询时，会直接截断超过varchar类型长度的字符；2.如果表字段类型和HDFS文件中数据类型不匹配，则直接显示NULL二、通过HQL插入长度/类型不一致数据场景DROP TABLE tmp.test0713;CREATE TABLE `tmp.test0713`(`PK_ID` varchar(1) COMMENT '主键')ROW FORMAT DELIMITED F

2020-07-13 13:01:02 996

转载 Java如何进行Base64的编码(Encode)与解码(Decode)

一、使用Java7之前使用Apache Commons CodecJava8之后使用Java 8的java.util套件关于base64编码Encode和Decode编码的几种方式Base64是一种能将任意Binary资料用64种字元组合成字串的方法，而这个Binary资料和字串资料彼此之间是可以互相转换的，十分方便。在实际应用上，Base64除了能将Binary资料可视化之外，也常用来表示字串加密过后的内容。如果要使用Java 程式语言来实作Base64的编码与解码功能，可以参考本篇文章的作法。

2020-07-09 15:19:22 215

原创 java调用sqoop api用法

java调用sqoop有两种用法，一是使用sqoop java api，二是使用runtime调用sqoop命令，但runtime比较难用，不推荐，以下是两种使用sqoop Java api的方法。方法一、使用String[]传参（不推荐）代码如下，但经过本人测试，同时调用多个sqoop任务会出现传参不能识别报错 public static void main(String[] args) throws IOException { System.setProperty("HADO

2020-07-05 19:00:06 1909 4

原创 java api并发调用sqoop异常记录

通过java api并发调用sqoop，发现如下相关异常2020-07-03 15:10:44 [ pool-1-thread-6:350039 ] - [ ERROR ] Got exception running Sqoop: java.lang.NullPointerExceptionjava.lang.NullPointerException at java.util.Objects.requireNonNull(Objects.java:203) at java.util.Arrays

2020-07-03 17:18:29 613

原创关于HIVE增量同步的思考

方案一、如果业务库没有删除操作，并且更新时间完整，使用更新时间做增量同步，sqoop只同步更新时间变化的数据，合并到ODS层表方案二、如果业务库有删除操作，可以先解析数据库操作日志，存到hdfs，T+1同步数据后，对增删改做一次merge操作即可，可能需要代码实现。...

2020-07-01 17:39:47 689

原创 Apache Atlas 1.2.0在CDH5安装使用记录（终极完整版）

一、环境CDH 5.15.2JDK 1.8编译环境：macOs，和linux差不大MAVEN：阿里云镜像基于CDH集群已有Hbase、Kafka和单节点Elasticsearch搭建二、编译安装环境：编译环境：macOs，和linux差不大1.下载地址：http://atlas.apache.org/#/Downloads2.解压源码包tar -xvfz apache-atlas-${project.version}-sources.tar.gzcd apache-atlas-sour

2020-06-28 20:46:15 1325 3

转载 Sqoop--源数据含有默认换行符导致的数据不正确

问题描述使用sqoop导数导到hdfs中，使用Hive查询发现数据多了，并且有数据错位的现象。原因源数据中有’\n’换行符，导致被hive识别为换行符。所以出现了记录多并且数据错位的现象。解决方法使用sqoop命令时加入：–hive-drop-import-delims例如：sqoop import \ --connect ${CONNECT} \ --username ${USER} \ --password "${PASSWD}" \ --query " select ${imp

2020-06-24 20:44:06 325

转载关于hive中not in不支持子查询的解决方法

表信息：用户User表（userid，name）黑名单BanUser表（userid，name）问题：找出不在黑名单中的用户信息（userid，name）hive暂时不支持以下查询方式：select aa.* from user aa where aa.user not in (select a.userid from banuser a);方法一：使用not exists进行改写select aa.* from user aa where not exists (select

2020-06-17 16:13:00 1264

转载 Hive中使用 with as 优化SQL

背景：当我们书写一些结构相对复杂的SQL语句时，可能某个子查询在多个层级多个地方存在重复使用的情况，这个时候我们可以使用 with as 语句将其独立出来，极大提高SQL可读性，简化SQL~注：目前 oracle、sql server、hive等均支持 with as 用法，但 mysql并不支持！2019-05-31更新：MySQL8.0大量更新优化，支持Common table expressions，即支持 with 语法！一、介绍with as 也叫做子查询部分，首先定义一个sql片段，该

2020-06-17 16:10:22 263

原创 hadoop jar执行报错java.io.FileNotFoundException: /tmp/hadoop-unjarxxx(No space left on device)终极解决方案

原因MapReduce提交过程中，会把jar解压到/tmp目录下生成临时文件夹hadoop-unjarxxx，任务执行完成后，会主动删除这个临时目录hadoop-unjarxxx, 但是我们偶尔会遇到一些情况，导致hadoop任务异常结束，没有清理掉这个任务的临时目录，临时文件就会越来越多了。可能导致/tmp磁盘空间不足或者inode索引不足导致报错，因此使用下面命令查找错误，查看使用率df -h 查看磁盘df -i 查看inode解决思路就是降低jar包大小并定时清除/tmp/hadoop

2020-06-01 15:00:42 2769

转载 Hive Runtime Error: Map local work exhausted memory

2020-05-25 10:14:21 864

zabbix-2.0.3.tar.gz

空空如也