嘿你别睡-CSDN博客

原创 kafka笔记

kafka 不需要选举。谁先到zookeeper抢节点注册，谁就是controllercontroller也没有啥用，就是监控一下zookeeper存的kafka元数据信息，存于自己内存，然后同步给follower，每个节点内存都有元数据信息。因此使用kafka可以只写一个broker（任意一个都有元数据），或多个用于防灾。topic是逻辑分区 partition是物理分区一个partition消息会有多个副本，它们之间只有一个leader，对外服务，其他仅同步防灾，只有leader partit

2021-03-10 11:58:55 389 1

原创 hive sql跑起来后似乎卡住 drop也 drop不掉hive table

最近遇到的问题是hive sql跑起来后似乎卡住，没有一点反映。insert overwrite table tmp SELECT 字段，udf(字段)FROM(select * from tableA where DEL_FLAG = 0 ) aleft JOIN tableB t ON a.key= t.key测试select语句是完全没有问题的，那么可以锁定是表的问题create table xxxSELECT 字段，udf(字段)FROM(select * f

2021-01-27 21:37:04 662

原创 hdfs 路径 could not be cleaned up

报错如下：hive表无法被truncate查看hdfs上路径权限看到owner是root 且权限非777故，解决方法，改owner为yarn或改权限777即可。

2021-01-27 14:48:39 1377

原创数据库导出excel、csv文件数值格式精度丢失的解决方法

csv格式只会保留高15位,用wps或者office打开会发现数值精度丢失。在会精度丢失的字段做如下函数处理。相当于把数字类型变成文本类型。concat("\t",column name)

2021-01-22 15:09:16 4087

转载锁表原因及解决思路

转载自 https://www.cnblogs.com/xinruyi 1、锁表发生在insert 、update 、delete 中2、锁表的原理是数据库使用独占式封锁机制，当执行上面的语句时，对表进行锁住，直到发生commite 或者回滚或者退出数据库用户3、锁表的原因第一、 A程序执行了对 tableA 的 insert ，并还未 commite时，B程序也对tableA 进行insert 则此时会发生资源正忙的异常就是锁表第二、锁表常发生于并发而不是并行（并行时，一个线程操作数据

2021-01-13 10:34:57 12132

原创 Class not found: org.apache.atlas.hive.hook.HiveHook

看到集群sqoop任务部分失败了，而失败原因很明显：hive.exec.post.hooks Class not found: org.apache.atlas.hive.hook.HiveHook主要是某个节点上的sqoop任务都会发生问题，检查该节点的hive的lib下的jar包果然发现没有将atlas的包包搬过去，解决方法：将/usr/local/src/atlas/apache-atlas-2.0.0/hook/hive所有jar包拷贝/opt/cloudera/parcels/CDH/

2020-12-31 15:45:21 2299 2

原创 Atlas 血缘查询使用

一般我们部署成功Atlas之后，就像马上查看血缘关系，大量时间打标签等行为也不是一夜之间搞定的。那么如果尚未打标签整理，如何使用Atlas，快速搜索到想要看的表血缘和列血缘呢？如上图，可以选择hive表，输入表名，查询表血缘。同理，列和自己打标签的内容都能搜索。1.4 打标签1.4.1 CLASSIFICATION分类说明：按自己项目的需求划分不同得维度1.4.2 GLOSSARY词汇表说明：一个数据仓库项目有很多域，域下面还有很多层次，可以按自己项目需求规划。1.5 字段搜索1.

2020-12-25 15:20:24 3067

原创常用linux 命令超精简

查找程序进程号ps aux|grep 关键字查找文件所在位置find / -name datax-admin-2.1.1.jar

2020-12-16 15:32:34 78

原创 Reason ：Container marked as failed.exit status:143 内存不够查询container日志方法

问题：一直在跑的任务突然怎么都跑不成功了。查看日志，没有具体报错原因，主要看到Reason ：Container marked as failed.exit status:143由此怀疑是容器资源不够无法起起来。遂更改yarn相关配置。主要是修改最小容器内存和内容增量加大。然并卵。无论怎么调还是不够内存。因此开始认真找报错原因。查询container日志方法：yarn上找到application的日志之前可以看到在哪个node节点上执行的然后去相应的node节点机器上，进入路径：c

2020-12-11 16:24:52 3769 1

原创一直觉得XML中的CDATA与转义字符功能有重叠

在xml中，”<”、”>”、”&”等字符是不能直接存入的，否则xml语法检查时会报错，如果想在xml中使用这些符号，必须将其转义为实体，如”<”、”>”、”&”，这样才能保存进xml文档。在XML中，需要转义的字符有：　　(1)&　　　&　　(2)<　　　<　　(3)>　　　>　　(4)＂　　　"　　(5)＇　　　'　　值得注意的是：　　(1)转义序列字符之间不能有空格；　　(2) 转义序列必须以”;”结束；

2020-12-09 14:15:50 256

原创 sqoop allowinsert模式只插入没有更新

问题:sqoop allowinsert模式只插入没有增加原因：当sqoop，update的时候是需要知道update谁的，如果你的表主键会变或者没有主键都将使update失败。例如：原表：idcodenoname303swngennwe1nig3wonf101011zz张三数据更改后（hive中）idcodenoname300swngennwe1nig30000101011zz张三test303swngennwe1nig3

2020-12-07 17:39:01 1285 6

原创 mysql 实现split功能

mysql官网基本函数介绍1、用公司切割，取后面：select SUBSTRING_INDEX('创造101公司杨超越','公司', -1)2、用公司切割，取前面:select SUBSTRING_INDEX('创造101公司杨超越','公司', 1)3、有多个切割关键字时可嵌套切割：SELECT SUBSTRING_INDEX(SUBSTRING_INDEX('创造101公司杨超越青春有你公司秦牛正威', '公司', 2 ),'杨超越', -1)随便写了点例子方便看懂，只讨论技术

2020-12-01 11:56:21 394 1

转载【Hive】Hive返回码状态含义

转载：https://blog.csdn.net/victorzzzz/article/details/100906080返回码意义：HiveServer Kill job的情况1.Hive 发生主备切换时，新主主动kill掉原来的job；2.在一个MR job中所有mappers及reducers创建HDFS文件数目超过文件最大数目时（该最大数目有HiveConf里的hive.exec.max.created.files控制，目前默认值为100,000）；3.当job提交失败时，HiveSer

2020-11-09 10:35:55 297

原创 emoji 长位特殊字符存mysql 报错

如图报错。解决：修改表字符集如下：DROP TABLE x；CREATE TABLE corp_yqdt (。。。。。) ENGINE = InnoDB CHARACTER SET = utf8mb4 COLLATE = utf8mb4_general_ci COMMENT = ‘表注释’ ROW_FORMAT = DYNAMIC;SET FOREIGN_KEY_CHECKS = 1;...

2020-10-15 17:21:04 142

原创 hive增加字段到指定位置

ALTER TABLE dws_construction_s_yzw_bid_stat add COLUMNS (follower STRING COMMENT ‘跟进人’ ) ;ALTER TABLE dws_construction_s_yzw_bid_stat CHANGE follower follower STRING COMMENT ‘跟进人’ AFTER claim_date;

2020-09-14 17:04:32 1968

原创 java 大写中文金额转数字

最近做解析描述时提取到金额字段后，需要将文本中的大写金额转换成数字，然而发现很多博客里的程序又问题，在亿和万级中，如果出现百十千等小单位就会出错，先算成小单位然后遇到大单位如万在乘以1000导致金额出错。于是更正代码如下：/** * 大写金额转数字 * */ public static String ChineseConvertToNumber(String chineseAmount) { if (chineseAmount == null |.

2020-08-21 15:01:44 1509 4

原创统计大数据数仓数据量 hive 及mysql数据量

统计大数据数仓hive下数据量：hadoop fs -du -s -h /user/hive/warehouse/附：hdfs查询命令：hadoop fs -du -s -h 此路径hadoop fs -du -h 路径下子目录如下如：统计mysql数据库下数据量：USE information_schema;# /1024/1024/1024 将数据单位处理成GSELECT TABLE_SCHEMA, SUM(DATA_LENGTH)/1024/1024/1024 FR

2020-08-11 16:49:29 1664

原创 CDH Hbase regionmaster 经常挂掉、regionserver 重启不断挂掉

问题：hbase regionserver经常挂，如下图：查看regionserver可以看到是配置不够，导致RegionServer发生FULL GC的时候，STW期间太长，被zookeeper标记为宕机，当RegionerServer GC完成后，苏醒了发现被标记为宕机了，这时候RegionerServer GC就自杀，防止脑裂发生，醒来再自杀。解决方法，主要修改了hbase的配置，增加了HBase REST Server和HBase Thrift Server的Java堆栈大小：

2020-08-05 09:41:19 1261

原创 linux安装mysql

1 下载安装包wget https://dev.mysql.com/get/Downloads/MySQL-5.7/mysql-5.7.24-linux-glibc2.12-x86_64.tar.gz2 解压tar -xzvf mysql-5.7.24-linux-glibc2.12-x86_64.tar.gz3 移动到/usr/local下mv mysql-5.7.24-linux-glibc2.12-x86_64 /usr/local/mysql4 创建data目录mkdir /usr/l

2020-06-22 20:12:56 232

原创 dataX、dataX-web安装部署 dataX集群模式

dataX安装1、直接下载dataX.tar.gz，下载后解压至本地某个目录，进入bin目录，即可运行同步作业。开始自检：python datax.py …/job/job.json详见dataX安装与自测2、下载源码后，用maven编译详见datax安装与使用详解由于楼主这边需要同步任务很多，这边需要装集群式dataX。即每台机器上都安装。xshell多窗口执行命令：1、选择排列方式，好方便同步命令时查看执行情况。2、点击查看–>撰写–>撰写窗格至此，即可同时操作多窗

2020-06-21 14:19:10 11875 7

原创 Cloudera Management Service -- Event Server 起不来，解决方法

问题解决了，忘了截图。。。意思意思？问题：Cloudera Management ServiceEvent Server起不来，看此处日志看不到任何问题或报错，重启该节点的systemctl restart cloudera-scm-agentsystemctl restart cloudera-scm-server亦不能解决问题。查看服务器上的log，位置如下：发现日志里全是乱码，依然没有头绪，卡了半天。解决：参考其他博主的event server报错解决办法虽然我看不到自己的

2020-06-21 11:59:01 2966

转载 Linux查看物理CPU个数、CPU内核数、线程数、和占用的进程

physical id：每颗CPU的id，计算系统中有几个CPU。cpu cores：当前的CPU有几个核心。processor：每个CPU线程的id，计算系统中总计有几个CPU线程。# 总核心数 = 物理CPU个数 X 每颗物理CPU的核数# 总逻辑CPU数 = 物理CPU个数 X 每颗物理CPU的核数 X 超线程数# 查看CPU逻辑idgrep 'physical id' /proc/cpuinfo | sort -u# 查询物理CPU个数cat /proc/cpuinf

2020-06-18 11:53:22 485

原创 CDH YARN JOBHISTORY 启动后进程不断挂掉

从日志看出，分配的堆内存空间是50M 不够，所以加到到200M ，重启搞定！

2020-06-15 17:02:45 705

原创记录 CDH6.3安装配置Apache Atlas2.0

1 准备工作：本文档以最新版本为例（2.0）下载安装： jdk-8u211-linux-x64.tar.gz 地址：https://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html（千万记住不要使用Linux 自带的jdk,安装过程中有大坑）下载安装：Apache Maven 3.6.0 地址：http://maven.apache.org/download.cgi（2.0版本最低要求，低于

2020-05-20 18:55:55 4767 27

原创 linux 上传下载文件夹

因为rz sz都只能上传下载文件因此可以将文件夹压缩成一个包，然后再下载上传解压缩压缩：tar -zcvf /root/atlas.tar.gz（压缩到哪里，压缩成什么名字） ./apache-atlas-2.0.0（待压缩的位置和文件夹名称）解压缩tar -zxvf atlas.tar.gz（压缩包名称） ./（解压到那儿）...

2020-05-20 11:55:33 556

原创 shell脚本操作mysql 注意事项 You have an error in your SQL syntax MySQL server version for the right syntax

操作mysql数据库数据，当需要每天重复时，就自然想到写程序，那么最简单的办法，就是用shell脚本操作。但是经常会发生的事情就是，mysql中都测试过的sql语句，到了shell中就频频报语法错误。这是为什么呢？ERROR 1064 (42000) at line 19: You have an error in your SQL syntax; check the manual that corresponds to your MySQL server version for the right s

2020-05-18 09:01:14 313

原创 Either your MetaData is incorrect, or you need to enable datanucleus.schema.autoCreateTables

起因：集群上跑的任务中的hive任务全部失败。查看yarn日志发现10.10.6.100机器的hiveserver2连接不上。实际上我的hiveserver2就开在105机器上，是不应该去100的。。。。单独上每台机器上，除了100机器其他都没有问题，100机器启动hive没有问题，但是show databases; 或其他命令都会报很长串的错，主要看到了：DataNucleus requires this table to perform its persistence operations.

2020-05-15 17:11:09 4479 3

原创 python install sasl 报错 Microsoft Visual C++ 14.0 is required 等一系列错误

问题：python连接hive需要sasl module然后pip install sasl 失败，因为pip只会根据你的指示安装，不会安装所需的其他依赖包，因此频频报错。报错信息：error: Microsoft Visual C++ 14.0 is required. Get it with “Microsoft Visual C++ Build Tools”:https://visualstudio.microsoft.com/downloads.按照其他博友的指示去安装了Microsof

2020-05-15 10:51:42 1227

原创 Anaconda出现CondaHTTPError: HTTP 000 CONNECTION FAILED for url

conda install不成功，报错：CondaHTTPError: HTTP 000 CONNECTION FAILED for url网上种种答案都试过https去掉s的不行-default删掉不行镜像源add 不行最后经过种种排查，国内镜像源都不能用了，所以干脆remove掉所有镜像源，最快捷的方法就是把C盘users用户下的都打开，看到.condarc配置的镜像源文件都删掉，使用默认镜像源就可以了。成功！...

2020-05-15 10:28:20 368

原创 HiveAccessControlException Permission denied: Principal [name=hive, type=USE]does not have following

问题：Caused by: org.apache.hadoop.hive.ql.security.authorization.plugin.HiveAccessControlException: Permission denied: Principal [name=hive, type=USER] does not have following privileges for operation QUERY [[SELECT] on Object [type=TABLE_OR_VIEW, name=sy_d

2020-05-14 14:34:50 10364

原创 org.apache.thrift.transport.TTransportException: SASL authentication not complete

问题：jdbc连接hive，已经查出数据，但是会出现 SASL authentication not complete问题。原因是先关闭了connect，再关闭查询，顺序反了，应该最后关闭connection。错误：正确：就没有上述问题了。

2020-05-14 14:19:28 5599

原创记 hive jdbc访问开通

hiveserver2是Hive启动了一个server，客户端可以使用JDBC协议，通过IP+ Port的方式对其进行访问，达到并发访问的目的。1.启动hiveserver2服务启动Hive有两条命令：$HIVE_HOME/bin/./hive --service hiveserver2 或者$HIVE_HOME/bin/./hiveserver2,hiveserver2的服务端口默认是10000，WebUI端口默认是10002，在终端使用命令netstat -anop|grep 10000 和 n

2020-05-14 11:07:39 3670

原创 cdh中修改配置包括：hive-site.xml、hbase-site.xml、core-site.xml等

CDH的配置文件放置于/var/run/cloudera-scm-agent/process/目录下。如：/var/run/cloudera-scm-agent/process/193-hdfs-NAMENODE/core-site.xml。这些配置文件是通过Cloudera Manager启动相应服务（如HDFS）时生成的，内容从数据库中获得（即通过界面配置的参数）。在CM界面上更改配置是不会立即反映到配置文件中，这些信息会存储于数据库中，等下次重启服务时才会生成配置文件。且每次启动时都会产生新的配置文

2020-05-13 13:49:25 5589

apache-atlas-2.0.0-bin.tar.gz

sqoop-1.4.6.2.3.99.0-195.jar

je-7.4.5.jar

空空如也