自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

卢说

大数据技术博客

  • 博客(31)
  • 资源 (1)
  • 收藏
  • 关注

原创 记一次 Flink 作业启动缓慢

应用发现,Hadoop集群的hdfs较之前更加缓慢,且离线ELT任务也以前晚半个多小时才能跑完。此前一直没有找到突破口所以没有管他,推测应该重启一下Hadoop集群就可以了。今天突然要重启一个Flink作业,发现有一个过程卡了五分钟。

2024-02-20 15:59:45 622

原创 记一次Clickhouse 复制表同步延迟排查

我们知道ck数据的更新操作是由zk负责复制日志,其他节点读取日志然后从对应的节点进行更新的。所以,基本可以断定是因为但是ck节点负载太高导致的副本之间的数据同步延迟,因为ck是异步复制,对于实时性要求很高的业务,可选择读写使用同一个节点规避这个问题。数据从集群中一个节点写入之后,其他两个节点无法及时查询到数据,等了几分钟。操作,这里注意Ck副本节点会直接去主副本节点下载数据,而不是从zk下载。另外,ck的写节点在这段时间内一直有大量的 Too many parts (302) 异常,一直持续了8分钟。

2023-10-20 16:18:46 1584

原创 freeipa server副本同步中断,两主节点数据不一致

也就是说hadoop-180-98.testhadoop.com节点数据更新所需要的数据在changelog内被删除了(具体为什么被删除了,现在已经没有日志可以查出来),如果错误一直存在,需要重新初始化这个副本。另外直观的现象就是,从A freeipa 节点ui上创建的账号同步不到B上,B创建的账号可以同步到A。先对另外一个副本进行数据备份ipa-backup。然后re-initialize ,需要输入ldap的密码。

2023-10-20 15:56:56 278

原创 Hadoop集群主节点迁移

主要目的是实现异地容灾

2023-07-26 10:25:40 331

原创 记一次mongodb节点一直处于recovering状态问题修复

刚开始启动的时候,该节点状态会处于STARTUP2的状态,这表名它正在从主节点复制数据,如果现在去查看节点监控,会发现其入口带宽占用比较大,相对于primary节点出口带宽也比较大。比如我这个节点是shard1,则三处shard1数据目录下的所有数据。意思就是说这个节点上的数据过于陈旧,无法实现主从同步。解决办法是先备份集群数据,然后再重做这个节点。该节点mongod服务日志一直在刷如下日志。mongoDB版本:5.0.4。那就是数据版本落后太多了。等数据同步完就正常了。

2023-06-29 16:11:48 1129

原创 Ranger集成Solr

Ranger集成Solr

2022-12-09 16:11:44 823 5

原创 yarn.scheduler.capacity..user-limit-factor vs yarn.scheduler.capacity..minimum-user-limit-percent

yarn.scheduler.capacity..user-limit-factor vs yarn.scheduler.capacity..minimum-user-limit-percent

2022-11-29 10:28:05 376

原创 网卡启动报错 No suitable device found: no device found for connection ‘System eth0‘ [FAILED]

网络启动 No suitable device found for this connection 解决方法

2022-10-10 10:11:30 1387

原创 pydruid提示AttributeError: type object ‘SqlLexer‘ has no attribute ‘lex_document‘

pydruid 安装bug

2022-08-25 10:20:36 150

原创 修改启动后的docker容器启动参数

停止所有 docker 容器docker stop $(docker ps -a | awk '{ print $1}' | tail -n +2)停止docker (重要,否则修改无法成功)修改 hostconfig.json修改config.v2.json (如果有相关配置则修改,没有则不修改)目录是/var/lib/docker/containers/容器ID 。找到Args 和Cmd这两个配置项,这两个便是启动参数,修改之。Args":["--config.file..

2022-05-25 17:07:23 2294

原创 python3 import bz2 ModuleNotFoundError: No module named ‘_bz2‘

问题原因这是因为在编译安装python3的时候没有按照bzip2-devel 包导致的。解决办法安装下这个包,然后重新编译安装一下python3就OK了。sudo yum install bzip2-devel cd /usr/local/python3/Python-3.8.10 ./configuremakemake install...

2022-05-19 09:59:55 901

原创 The GPG keys listed for the “MySQL 8.0 Community Server“..but they are not correct for this package

问题描述yum install mysql 报错The GPG keys listed for the "MySQL 8.0 Community Server" repository are already installed but they are not correct for this package.Check that the correct key URLs are configured for this repository. Failing package is: mysql

2022-05-10 19:06:48 2565 4

原创 修改已运行容器的时区,别搜了,这是最简单的方法。

修改容器时区第二步:将宿主机的时区链接到容器里ln -sf /usr/share/zoneinfo/Asia/Shanghai /etc/localtime第三步:退出并重启容器execdocker restart <容器>查看时区docker exec -it <容器> date...

2022-03-03 20:19:15 1479

原创 【计算机网络】OSI七层模型

【计算机网络】OSI七层模型简介osi:Open System Interconnection Reference Model作用: 将不同厂商和网络设备传输的数据格式进行规定,以实现统一识别和对接。但目前OSI七层模型不再被大家使用,实际用得更多的事TCP/IP四层模型。简记:7 应用层 应用程序;具体应用。为应用程序进程提供网络服务。6 表示层 应用数据展示方式。 提供数据加密。5 会话层 客户端服务端会话是一对多还是一对一。 应用程序之间的会话。4 传输层 上三层处理过的数据

2021-12-25 10:10:15 2274

原创 HDP3安装遇到的一些新坑

HDP3安装遇到的一些新坑1.Ambari自动生成的repo里源的url地址为空表现出的现象为Ambari到了安装组件那一步一直过不去,前台报错日志提示ambari和hdp的repo url都为null,无有效的repo,图忘记截了。于是,我们登录到主机查看HDP.repo文件,发现base_url确实是个空值,然后再登录至ambari数据库发现数据库里面base_url字段也是空的。HDP.repo内的空值应该是来着于数据库的base_url字段的空值,于是我们只需要给数据库该字段赋值一个值就可以了。

2021-04-11 14:32:14 939 2

原创 写好Shell脚本那些不得不知道的细节

小细节,大进步。

2021-03-13 22:53:15 157

转载 一种分析HDFS文件变化及小文件分布情况的方法

文档编写目的目前各个企业都在利用Hadoop大数据平台,每天都会通过ETL产生大量的文件到hdfs上,如何有效的去监测数据的有效性,防止数据的无限增长导致物理资源跟不上节奏,我们必须控制成本,让有限的资源发挥大数据的极致功能。本文介绍如何去分析hdfs上的文件变化情况,以及老生常谈的小文件的监控情况的一种实现方式。实现方式说明本次分析方案有两种:利用hdfs的api文档,通过hdfs实例的listStatus方法递归出hdfs上所有的文件及目录的具体情况,包括path、ower、size等重要属性

2021-01-29 22:48:27 541

转载 什么是大数据处理中的Lambda架构和Kappa架构

大数据处理中的Lambda架构和Kappa架构本文转载至:https://www.cnblogs.com/xiaodf/p/11642555.html,已获得原作者许可。首先我们来看一个典型的互联网大数据平台的架构,如下图所示:在这张架构图中,大数据平台里面向用户的在线业务处理组件用褐色标示出来,这部分是属于互联网在线应用的部分,其他蓝色的部分属于大数据相关组件,使用开源大数据产品或者自己开发相关大数据组件。你可以看到,大数据平台由上到下,可分为三个部分:数据采集、数据处理、数据输出与展示。

2020-12-05 16:52:34 432

原创 如何将Hive元数据库从PostgreSQL迁移至MySQL

在准备HDPCA 考试时,听闻Hive底层数据库使用的是pg,于是在测试环境配置了pg数据库作为其底层数据库,之后考虑到需要统一ambari、ranger数据库到MySQL,便想要测试一下如果Hive内本身存在业务数据时,需要如何将其元数据从pg迁移至MySQL。其实只是想折腾一下,如何将Hive底层数据库做个迁移,这里记录一下。首先,我们准备一下测试数据:create table testtable (id int, name string,age int, tel string) ROW FORM

2020-11-08 23:31:22 545

原创 linux sftp指定端口登陆

  sftp -oPort=5022 [email protected]  使用-o选项来指定端口号。  -oPort=远程端口号 -oPort=5022 不能放后面

2020-11-03 14:45:16 3391

原创 请给 Animal类添加一个类属性 count,每创建一个实例,count 属性就加 1,这样就可以统计出一共创建了多少个 Animal实例

慕课网Python教程习题。请给 Animal类添加一个类属性 count,每创建一个实例,count 属性就加 1,这样就可以统计出一共创建了多少个 Annimal实例。class Animal(object): count = 0 def __init__(self, name): self.name = name Animal.count += 1 # 每创建一个实例,会调用一次__init__方法。animal1 = Anima

2020-10-30 14:21:17 1216

原创 ssh -v提示 : error while loading shared libraries: libcrypto.so.1.1: cannot open shared object file-v

本文为博主原创文章,转载需获取作者授权。背景openssh经常会查出来存在安全漏洞,需要升级openssh至最新版本才能将漏洞修复。本次升级openssh之后,发现查看openssh版本抛出如下报错:$ ssh -vssh: error while loading shared libraries: libcrypto.so.1.1: cannot open shared object file: No such file or directory可见openssh升级的是有些问题的,而op.

2020-10-24 23:30:43 7475

原创 记一次Linux主机内存脏数据引发的NameNode故障,主机提示echo 0 > /proc/sys/kernel/hung_task_timeout_secs。

记一次Linux主机内存脏数据引发的NameNode故障,主机提示echo 0 > /proc/sys/kernel/hung_task_timeout_secs。内存脏数据是什么,如何调优。

2020-10-18 20:31:58 6737

原创 记一次Hadoop集群数据上传缓慢案例分析

本文为博主原创文章,转载需获取博主授权。项目场景手上管理的其中一个Hadoop集群,承接着大量的数据流量,一直以来运行平稳,最近突然发现集群有时会出现MR作业运行缓慢,put文件至HDFS偶发速度慢的问题,像大数据集群这种问题,有点疑难杂症的味道,本次也是经历了10多个小时的定位才真正把问题解决。问题现象使用客户端节点执行hdfs dfs -put文件上传至HDFS偶发慢,集群内部节点put文件也出现偶发速度慢;查看Hadoop集群相关监控指标未见异常;业务反馈入库作业有积压,数据积压于上传.

2020-10-11 23:35:58 28168

转载 一图文看懂公钥私钥

1. 鲍勃有两把钥匙,一把是公钥,另一把是私钥。2. 鲍勃把公钥送给他的朋友们----帕蒂、道格、苏珊----每人一把.3. 苏珊要给鲍勃写一封保密的信。她写完后用鲍勃的公钥加密,就可以达到保密的效果。4. 鲍勃收信后,用私钥解密,就看到了信件内容。这里要强调的是,只要鲍勃的私钥不泄露,这封信就是安全的,即使落在别人手里,也无法解密。

2017-10-13 21:48:49 745

原创 【每日一句shell】把100天前的文件打包并且删除

find [path] -type f -mtime +100 -exec tar rvf tmp.tar --remove-files {} \;

2017-10-09 23:52:00 644

原创 【每日一句shell】获取系统内存大小

awk '($1 == "MemTotal:"){print $2/1048576}' /proc/meminfo

2017-10-08 19:09:40 5362

原创 【每日一句shell】找出文件中大于5的数字

for d in `sed 's/[^0-9]//g' num.txt` ;do if [ $d -gt 5 ]; then echo $d ;fi;done

2017-09-29 00:43:27 3106 1

原创 【每日一句shell】grep匹配符合多个条件的行

实例如下:egrep -i '^(From | Subject | Date): ' maixbox可以匹配出如下文本: From:[email protected] Subject:We want you Date:Mon,21 Sep 2017 11:20:10

2017-09-27 11:38:49 5386

原创 【每日一句shell】vim、sed新姿势 | 一次性给文件多行加注释

使用vim打开文件vim filename在vim 视图模式下:2,5 s/^/#/或者直接使用sed,命令如下:sed -i '2,5s/^/#/' filename反之,将2~5行带#注释取消::2,5 s/^#//或者:sed -i '2,5s/^#//' filename

2017-09-26 23:21:17 1141

原创 【每日一句shell】一句shell实现wordcount

实现效果如下:参考答案:cat day1.txt | tr -s ' ' '\n' | sort | uniq -c | sort -r | awk '{ print $2, $1 }'对我的文章感兴趣可关注以下公众号:

2017-09-25 22:11:21 1391 1

apache ranger 安装包 第二部分

Apache Ranger官方不提供编译好的安装包供用户部署,部署自行编译。 编译过程坑非常多。 楼主经过千辛万苦终于编译成功了。 版本是2.2.0,适合Hadoop 3.x。上传给大家使用。 因为CSDN单次只能传小于1G的文件,所以分了两个包

2022-10-17

apache-ranger-2.2.0安装包.part1.rar 第一部分

Apache Ranger官方不提供编译好的安装包供用户部署,部署自行编译。 编译过程坑非常多。 楼主经过千辛万苦终于编译成功了。 版本是2.2.0,适合Hadoop 3.x。上传给大家使用。 因为CSDN单次只能传小于1G的文件,所以分了两个包。

2022-10-17

《简明Python教程》 - byte-of-python-chinese-edition.pdf

《简明Python教程》 | byte-of-python-chinese-edition.pdf

2021-06-16

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除