自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(60)
  • 资源 (3)
  • 收藏
  • 关注

原创 kafka笔记

kafka 不需要选举。谁先到zookeeper抢节点注册,谁就是controllercontroller也没有啥用,就是监控一下zookeeper存的kafka元数据信息,存于自己内存,然后同步给follower,每个节点内存都有元数据信息。因此使用kafka可以只写一个broker(任意一个都有元数据),或多个用于防灾。topic是逻辑分区 partition是物理分区 一个partition消息会有多个副本,它们之间只有一个leader,对外服务,其他仅同步防灾,只有leader partit

2021-03-10 11:58:55 389 1

原创 hive sql跑起来后似乎卡住 drop也 drop不掉hive table

最近遇到的问题是hive sql跑起来后似乎卡住,没有一点反映。insert overwrite table tmp SELECT 字段,udf(字段)FROM(select * from tableA where DEL_FLAG = 0 ) aleft JOIN tableB t ON a.key= t.key测试select语句是完全没有问题的,那么可以锁定是表的问题create table xxxSELECT 字段,udf(字段)FROM(select * f

2021-01-27 21:37:04 662

原创 hdfs 路径 could not be cleaned up

报错如下:hive表无法被truncate查看hdfs上路径权限看到owner是root 且权限非777故,解决方法,改owner为yarn或改权限777即可。

2021-01-27 14:48:39 1377

原创 数据库导出excel、csv文件数值格式精度丢失的解决方法

csv格式只会保留高15位,用wps或者office打开会发现数值精度丢失。在会精度丢失的字段做如下函数处理。相当于把数字类型变成文本类型。concat("\t",column name)

2021-01-22 15:09:16 4087

转载 锁表原因及解决思路

转载自 https://www.cnblogs.com/xinruyi 1、锁表发生在insert 、update 、delete 中2、锁表的原理是 数据库使用独占式封锁机制,当执行上面的语句时,对表进行锁住,直到发生commite 或者 回滚 或者退出数据库用户3、锁表的原因第一、 A程序执行了对 tableA 的 insert ,并还未 commite时,B程序也对tableA 进行insert 则此时会发生资源正忙的异常 就是锁表第二、锁表常发生于并发而不是并行(并行时,一个线程操作数据

2021-01-13 10:34:57 12132

原创 Class not found: org.apache.atlas.hive.hook.HiveHook

看到集群sqoop任务部分失败了,而失败原因很明显:hive.exec.post.hooks Class not found: org.apache.atlas.hive.hook.HiveHook主要是某个节点上的sqoop任务都会发生问题,检查该节点的hive的lib下的jar包 果然发现没有将atlas的包包搬过去,解决方法:将/usr/local/src/atlas/apache-atlas-2.0.0/hook/hive所有jar包拷贝/opt/cloudera/parcels/CDH/

2020-12-31 15:45:21 2299 2

原创 Atlas 血缘查询使用

一般我们部署成功Atlas之后,就像马上查看血缘关系,大量时间打标签等行为也不是一夜之间搞定的。那么如果尚未打标签整理,如何使用Atlas,快速搜索到想要看的表血缘和列血缘呢?如上图,可以选择hive表,输入表名,查询表血缘。同理,列和自己打标签的内容都能搜索。1.4 打标签1.4.1 CLASSIFICATION分类说明:按自己项目的需求划分不同得维度1.4.2 GLOSSARY词汇表说明:一个数据仓库项目有很多域,域下面还有很多层次,可以按自己项目需求规划。1.5 字段搜索1.

2020-12-25 15:20:24 3067

原创 常用linux 命令 超精简

查找程序进程号ps aux|grep 关键字查找文件所在位置find / -name datax-admin-2.1.1.jar

2020-12-16 15:32:34 78

原创 Reason :Container marked as failed.exit status:143 内存不够 查询container日志方法

问题:一直在跑的任务突然怎么都跑不成功了。查看日志,没有具体报错原因,主要看到Reason :Container marked as failed.exit status:143由此怀疑是容器资源不够无法起起来。遂更改yarn相关配置。主要是修改最小容器内存和内容增量加大。然并卵。无论怎么调还是不够内存。因此开始认真找报错原因。查询container日志方法:yarn上找到application的日志之前 可以看到在哪个node节点上执行的然后去相应的node节点机器上,进入路径:c

2020-12-11 16:24:52 3769 1

原创 一直觉得XML中的CDATA与转义字符功能有重叠

在xml中,”<”、”>”、”&”等字符是不能直接存入的,否则xml语法检查时会报错,如果想在xml中使用这些符号,必须将其转义为实体,如”<”、”>”、”&”,这样才能保存进xml文档。在XML中,需要转义的字符有:  (1)&   &  (2)<   <  (3)>   >  (4)"   "  (5)'   '  值得注意的是:  (1)转义序列字符之间不能有空格;  (2) 转义序列必须以”;”结束;

2020-12-09 14:15:50 256

原创 sqoop allowinsert模式只插入没有更新

问题:sqoop allowinsert模式只插入没有增加原因:当sqoop,update的时候是需要知道update谁的,如果你的表主键会变或者没有主键 都将使update失败。例如:原表:idcodenoname303swngennwe1nig3wonf101011zz张三数据更改后(hive中)idcodenoname300swngennwe1nig30000101011zz张三test303swngennwe1nig3

2020-12-07 17:39:01 1285 6

原创 mysql 实现split功能

mysql官网基本函数介绍1、用公司切割,取后面:select SUBSTRING_INDEX('创造101公司杨超越','公司', -1)2、用公司切割,取前面:select SUBSTRING_INDEX('创造101公司杨超越','公司', 1)3、有多个切割关键字时可嵌套切割:SELECT SUBSTRING_INDEX(SUBSTRING_INDEX('创造101公司杨超越青春有你公司秦牛正威', '公司', 2 ),'杨超越', -1)随便写了点例子方便看懂,只讨论技术

2020-12-01 11:56:21 394 1

转载 【Hive】Hive返回码状态含义

转载:https://blog.csdn.net/victorzzzz/article/details/100906080返回码意义:HiveServer Kill job的情况1.Hive 发生主备切换时,新主主动kill掉原来的job;2.在一个MR job中所有mappers及reducers创建HDFS文件数目超过文件最大数目时(该最大数目有HiveConf里的hive.exec.max.created.files控制,目前默认值为100,000);3.当job提交失败时,HiveSer

2020-11-09 10:35:55 297

原创 emoji 长位特殊字符 存mysql 报错

如图报错。解决:修改表字符集如下:DROP TABLE x;CREATE TABLE corp_yqdt (。。。。。) ENGINE = InnoDB CHARACTER SET = utf8mb4 COLLATE = utf8mb4_general_ci COMMENT = ‘表注释’ ROW_FORMAT = DYNAMIC;SET FOREIGN_KEY_CHECKS = 1;...

2020-10-15 17:21:04 142

原创 hive增加字段到指定位置

ALTER TABLE dws_construction_s_yzw_bid_stat add COLUMNS (follower STRING COMMENT ‘跟进人’ ) ;ALTER TABLE dws_construction_s_yzw_bid_stat CHANGE follower follower STRING COMMENT ‘跟进人’ AFTER claim_date;

2020-09-14 17:04:32 1968

原创 java 大写中文金额 转 数字

最近做解析描述时提取到金额字段后,需要将文本中的大写金额转换成数字,然而发现很多博客里的程序又问题,在亿和万级中,如果出现百十千等小单位就会出错,先算成小单位然后遇到大单位如万在乘以1000导致金额出错。于是更正代码如下:/** * 大写金额转数字 * */ public static String ChineseConvertToNumber(String chineseAmount) { if (chineseAmount == null |.

2020-08-21 15:01:44 1509 4

原创 统计大数据数仓数据量 hive 及mysql数据量

统计大数据数仓hive下数据量:hadoop fs -du -s -h /user/hive/warehouse/附:hdfs查询命令:hadoop fs -du -s -h 此路径hadoop fs -du -h 路径下子目录如下如:统计mysql数据库下数据量:USE information_schema;# /1024/1024/1024 将数据单位处理成GSELECT TABLE_SCHEMA, SUM(DATA_LENGTH)/1024/1024/1024 FR

2020-08-11 16:49:29 1664

原创 CDH Hbase regionmaster 经常挂掉、regionserver 重启不断挂掉

问题:hbase regionserver经常挂,如下图:查看regionserver可以看到是配置不够,导致RegionServer发生FULL GC的时候,STW期间太长,被zookeeper标记为宕机,当RegionerServer GC完成后,苏醒了发现被标记为宕机了,这时候RegionerServer GC就自杀,防止脑裂发生,醒来再自杀。解决方法,主要修改了hbase的配置,增加了HBase REST Server和HBase Thrift Server的Java堆栈大小:

2020-08-05 09:41:19 1261

原创 linux安装mysql

1 下载安装包wget https://dev.mysql.com/get/Downloads/MySQL-5.7/mysql-5.7.24-linux-glibc2.12-x86_64.tar.gz2 解压tar -xzvf mysql-5.7.24-linux-glibc2.12-x86_64.tar.gz3 移动到/usr/local下mv mysql-5.7.24-linux-glibc2.12-x86_64 /usr/local/mysql4 创建data目录mkdir /usr/l

2020-06-22 20:12:56 232

原创 dataX、dataX-web安装部署 dataX集群模式

dataX安装1、直接下载dataX.tar.gz,下载后解压至本地某个目录,进入bin目录,即可运行同步作业。开始自检:python datax.py …/job/job.json详见dataX安装与自测2、下载源码后,用maven编译详见datax安装与使用详解由于楼主这边需要同步任务很多,这边需要装集群式dataX。即每台机器上都安装。xshell多窗口执行命令:1、选择排列方式,好方便同步命令时查看执行情况。2、点击查看–>撰写–>撰写窗格至此,即可同时操作多窗

2020-06-21 14:19:10 11875 7

原创 Cloudera Management Service -- Event Server 起不来,解决方法

问题解决了,忘了截图。。。意思意思?问题:Cloudera Management ServiceEvent Server起不来,看此处日志看不到任何问题或报错,重启该节点的systemctl restart cloudera-scm-agentsystemctl restart cloudera-scm-server亦不能解决问题。查看服务器上的log,位置如下:发现日志里全是乱码,依然没有头绪,卡了半天。解决:参考其他博主的event server报错解决办法虽然我看不到自己的

2020-06-21 11:59:01 2966

转载 Linux查看物理CPU个数、CPU内核数、线程数、和占用的进程

physical id:每颗CPU的id,计算系统中有几个CPU。cpu cores:当前的CPU有几个核心。processor:每个CPU线程的id,计算系统中总计有几个CPU线程。# 总核心数 = 物理CPU个数 X 每颗物理CPU的核数# 总逻辑CPU数 = 物理CPU个数 X 每颗物理CPU的核数 X 超线程数# 查看CPU逻辑idgrep 'physical id' /proc/cpuinfo | sort -u# 查询物理CPU个数cat /proc/cpuinf

2020-06-18 11:53:22 485

原创 CDH YARN JOBHISTORY 启动后进程不断挂掉

从日志看出,分配的堆内存空间是50M 不够,所以加到到200M ,重启 搞定!

2020-06-15 17:02:45 705

原创 记录 CDH6.3安装配置Apache Atlas2.0

1 准备工作: 本文档以最新版本为例(2.0)下载安装: jdk-8u211-linux-x64.tar.gz 地址:https://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html(千万记住不要使用Linux 自带的jdk,安装过程中有大坑)下载安装:Apache Maven 3.6.0 地址:http://maven.apache.org/download.cgi(2.0版本最低要求,低于

2020-05-20 18:55:55 4767 27

原创 linux 上传下载文件夹

因为rz sz都只能上传下载文件因此可以将文件夹压缩成一个包,然后再下载上传解压缩压缩:tar -zcvf /root/atlas.tar.gz(压缩到哪里,压缩成什么名字) ./apache-atlas-2.0.0(待压缩的位置和文件夹名称)解压缩tar -zxvf atlas.tar.gz(压缩包名称) ./(解压到那儿)...

2020-05-20 11:55:33 556

原创 shell脚本 操作mysql 注意事项 You have an error in your SQL syntax MySQL server version for the right syntax

操作mysql数据库数据,当需要每天重复时,就自然想到写程序,那么最简单的办法,就是用shell脚本操作。但是经常会发生的事情就是,mysql中都测试过的sql语句,到了shell中就频频报语法错误。这是为什么呢?ERROR 1064 (42000) at line 19: You have an error in your SQL syntax; check the manual that corresponds to your MySQL server version for the right s

2020-05-18 09:01:14 313

原创 Either your MetaData is incorrect, or you need to enable datanucleus.schema.autoCreateTables

起因:集群上跑的任务中的hive任务全部失败。查看yarn日志发现10.10.6.100机器的hiveserver2连接不上。实际上我的hiveserver2就开在105机器上,是不应该去100的。。。。单独上每台机器上,除了100机器其他都没有问题,100机器启动hive没有问题,但是show databases; 或其他命令都会报很长串的错,主要看到了:DataNucleus requires this table to perform its persistence operations.

2020-05-15 17:11:09 4479 3

原创 python install sasl 报错 Microsoft Visual C++ 14.0 is required 等一系列错误

问题:python连接hive需要sasl module然后pip install sasl 失败,因为pip只会根据你的指示安装,不会安装所需的其他依赖包,因此频频报错。报错信息:error: Microsoft Visual C++ 14.0 is required. Get it with “Microsoft Visual C++ Build Tools”:https://visualstudio.microsoft.com/downloads.按照其他博友的指示去安装了Microsof

2020-05-15 10:51:42 1227

原创 Anaconda出现CondaHTTPError: HTTP 000 CONNECTION FAILED for url

conda install不成功,报错:CondaHTTPError: HTTP 000 CONNECTION FAILED for url网上种种答案都试过https去掉s的 不行-default删掉 不行镜像源add 不行最后经过种种排查 ,国内镜像源都不能用了,所以干脆remove掉所有镜像源,最快捷的方法就是把C盘users用户下的都打开,看到.condarc配置的镜像源文件都删掉,使用默认镜像源就可以了。成功!...

2020-05-15 10:28:20 368

原创 HiveAccessControlException Permission denied: Principal [name=hive, type=USE]does not have following

问题:Caused by: org.apache.hadoop.hive.ql.security.authorization.plugin.HiveAccessControlException: Permission denied: Principal [name=hive, type=USER] does not have following privileges for operation QUERY [[SELECT] on Object [type=TABLE_OR_VIEW, name=sy_d

2020-05-14 14:34:50 10364

原创 org.apache.thrift.transport.TTransportException: SASL authentication not complete

问题:jdbc连接hive,已经查出数据,但是会出现 SASL authentication not complete问题。原因是先关闭了connect,再关闭查询,顺序反了,应该最后关闭connection。错误:正确:就没有上述问题了。

2020-05-14 14:19:28 5599

原创 记 hive jdbc访问 开通

hiveserver2是Hive启动了一个server,客户端可以使用JDBC协议,通过IP+ Port的方式对其进行访问,达到并发访问的目的。1.启动hiveserver2服务启动Hive有两条命令:$HIVE_HOME/bin/./hive --service hiveserver2 或者$HIVE_HOME/bin/./hiveserver2,hiveserver2的服务端口默认是10000,WebUI端口默认是10002,在终端使用命令netstat -anop|grep 10000 和 n

2020-05-14 11:07:39 3670

原创 cdh中修改配置 包括:hive-site.xml、hbase-site.xml、core-site.xml等

CDH的配置文件放置于/var/run/cloudera-scm-agent/process/目录下。如:/var/run/cloudera-scm-agent/process/193-hdfs-NAMENODE/core-site.xml。这些配置文件是通过Cloudera Manager启动相应服务(如HDFS)时生成的,内容从数据库中获得(即通过界面配置的参数)。在CM界面上更改配置是不会立即反映到配置文件中,这些信息会存储于数据库中,等下次重启服务时才会生成配置文件。且每次启动时都会产生新的配置文

2020-05-13 13:49:25 5589

原创 记录一次CDH集群kafka无测试数据报警 各组件图标为空 无数据

问题CDH集群kafka无测试数据报警 各组件图标为空 无数据,但点入web界面,组件仍可用:因为已经解决了所以此处右边的图标都有值。问题页面都没有截图下来,日志也自动已清除。分析:组件可用,只是cm没有监测到位解决:cm的agent机器上停止agent服务:service cloudera-scm-agent stopcm的server机器上停止server服务:service cloudera-scm-server stopcm的server机器上启动server服务:service

2020-05-13 13:40:34 809

原创 cdh的hive配置中,修改 添加 hive-site.xml 配置 && hive 增加用户 role 更改权限

dh的hive配置中,修改 添加 hive-site.xml 配置 CDH版本的hive-site.xml是通过CM配置生成的文件,每次启动,都会根据CM选项还原配置,因此,我们必须用CM界面,找到Hive的配置选项,修改Hive的配置项。之前我一直没找到配置中怎么增加参数,直到看到大佬的博客:https://blog.csdn.net/gdkyxy2013/article/details/105722837按照大佬博客操作即可更改到配置。hive的权限问题:增加用户,对用户赋权,但表多,用户多

2020-05-11 17:12:24 2816

原创 mysql:Data truncated for column 'column _name' at row 1 && Row 595 was cut by GROUP_CONCAT()

问题1:Data truncated for column ‘column _name’ at row 1:原因:长度不够或类型不匹配。解决:检查一下两个表是否同样type,长度是否一致。问题2:Row 595 was cut by GROUP_CONCAT()原因:使用拼接函数,会对group by 字段的行数有限制,因此需要调大,才能完成操作解决:SET SESSION group_concat_max_len = 102400000;(会话)SET group_concat_max_l

2020-05-09 11:43:55 249

原创 正则 匹配 切割 替换 获取

正则表达式概念:什么是正则表达式?正则表达式可以理解为正确的符合规则的表达式,它是专门用来操作字符串的 ,很多语言都要对正则的实现。在Java中存在一个用正则表达式所订制的模式来对字符串进行匹配工作的类库包:java.util.regex,其中包含Pattern、Matcher两个工具类;正则可以使用的方向:1 匹配 判断一个字符串是否满足正则表达式规则;2 切割 把字符串中符合正...

2020-04-22 22:54:42 291

原创 mysql表 转 hive表 建表语句 Error while compiling statement: FAILED: ParseException in column name or prima

SELECT 'CREATE TABLE IF NOT EXISTS','你的hive表名字','(','',''UNION ALLSELECT CONCAT('`',column_name,'`') colname, CASE WHEN NUMERIC_PRECISION IS NOT NULL AND (data_type='decimal' OR data_type='nu...

2020-04-22 22:40:06 1629 1

原创 cdh hive 表 metastore配置的位置 hive建表注释comment中文乱码

问题:最近建hive表引用了mysql的建表语句:SELECT 'CREATE TABLE IF NOT EXISTS','要建的hive表名','(','',''UNION ALLSELECT CONCAT('`',column_name,'`') colname, CASE WHEN NUMERIC_PRECISION IS NOT NULL AND (data_type...

2020-04-07 21:25:47 1100

原创 hive 改表名字

alter table 原表名 rename to 新表名

2020-04-03 10:58:20 1873

apache-atlas-2.0.0-bin.tar.gz

已编译的Apache Atlas2.0包,具体配置 使用请见https://blog.csdn.net/fairynini/article/details/106134361

2020-06-12

sqoop-1.4.6.2.3.99.0-195.jar

基于atlas2.0.0编译,需要而很难找到有效地址下载不到的jar包 sqoop-1.4.6.2.3.99.0-195.jar

2020-05-21

je-7.4.5.jar

针对解决Could not find artifact com.sleepycat:je:jar:7.4.5 in nexus (http://maven.aliyun.com/nexus/content/groups/public...

2020-05-21

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除