自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(22)
  • 资源 (1)
  • 收藏
  • 关注

原创 Airflow 核心原理分析

.airflow架构 scheduler,它处理触发计划的工作流,并将任务提交给executor运行。 executor,处理正在运行的任务。在默认的 Airflow 安装中,它运行在scheduler中,但大多数适合生产的executor实际上将任务执行推送给workers。 webserver,它提供了一个方便的用户界面来检查、触发和调试 DAG 和任务的行为。 DAG Directory,由scheduler和executor(以及executor所有的wor.

2021-09-15 07:02:45 2483 1

原创 Flink高危漏洞 (CVE-2020-17518/17519) 修复指南

一、背景二、修复方法三、详细步骤1.准备flink源码2.找到修复的commit3.编译打包4.替换jar包四、总结一、背景​ 国家信息安全漏洞库(CNNVD)收到关于Apache Flink安全漏洞(CNNVD-202101-271、CVE-2020-17519)(CNNVD-202101-273、CVE-2020-17518)情况的报送。成功利用漏洞的攻击者,可在未授权的情况下,构造恶意数据执行任意文件读取或文件写入攻击,最终获取服务器敏感性信息或权限。Apache Flink 1.5.1 - .

2021-01-19 22:22:57 4166 4

原创 Hive源码本地IDEA调试的正确姿势

Hive源码本地IDEA调试的正确姿势背景Hive作为最最基础的大数据框架,可以说,没装Hive,就等于没有大数据这回事。Hive的功能也越来越强大,经过大多数用户市场的检验,也诞生许多稳定的版本。所以,大多数人把Hive当成黑盒使用,只需要明白其原理。但是,万一某种情况下,你的需求里出现未知bug或者有新的需求需要改造的时候,这时你不得不跟Hive源码打交道。本人在最近的Hive bug修复和开发中也走了不少弯路,网上也没像样的教程,现在总结出来给各位,避免踩坑。环境准备Hive这里选用hi

2021-01-11 11:20:58 2572 3

原创 Hadoop3.x中一把锁毁灭的大数据集群

hadoop3.x中一把锁毁灭整个大数据集群集群版本:HDP3.1.5Hadoop版本:Hadoop3.1.1源码地址:https://github.com/hortonworks/hadoop-release/tree/HDP-3.1.5.152-1-tag一、前置知识​ 大家都知道hadoop的核心组件是HDFS和YARN,HDFS负责存储,YARN负责计算资源管理,今天要重点扯一扯YARN。YARN的架构跟众多分布式架构一样是主从式,为了维护可靠性,ResourceManage

2020-12-12 23:04:26 4056 11

原创 删了HDFS又能怎样?记一次删库不跑路事件

一、事发背景二、应急措施直观的方案三、分析过程hdfs文件删除过程BlockManagerEditLoghdfs元数据的加载方案确定四、灾难重演五、经验总结一、事发背景​ 上个月的某一天,由于集群空间不足,公司有一位技术经理级别的大数据leader在通过跳板机在某个线上集群执行手动清理命令,疯狂地执行hadoop fs -rmr -skipTrash /user/hive/warehouse/xxxxx,突然,不知道是编辑器的问题还是换行问题,命令被截断,命令变成了``hadoop fs.

2020-08-13 18:43:54 2704 9

原创 Ambari2.7+HDP3.X集成Dolphinscheduler1.3

一、安装准备二、环境准备1.新建数据库2.java环境准备三、ambari集成1.软件包准备2.修改文件3.正式安装一、安装准备Dolphinscheduler1.3安装包,详情可参考 dolphinscheduler在window环境下单机编译+部署 中生成的的tar包,由于官网未正式release,为大家方便,这里提供已编译好的tar包,链接:https://pan.baidu.com/s/18ILymCAnYnhcIpgbGUAENQ 提取码:vvtwmysql jdbc驱动包:mysql.

2020-06-27 18:00:30 5476 9

原创 dolphinscheduler在window环境下单机编译+部署

为了完整演示整个流程,从0开始,排除其它一切干扰,本人特意找了台新的windows环境,全程无需IDE的参与操作一、版本信息:dolphinscheduler:1.3.0maven:3.6.3jdk:1.8二、编译注意事项:1.无需下载node.js,执行下面的maven打包会自动下载,node.js版本不对编译会有问题2.window下编译完后tar包的解压一定不要用国产解压软件,否则会有下图的惨状,推荐压缩软Bandizip``[外链图片转存失败,源站可能有防

2020-06-16 21:58:08 7505 9

原创 kafka如何保证数据可靠性

一、必须知道的专业名词kafka中,每个partition可以有多个副本(Replica),分为leader、follower,正常情况下,客户端只向leader发送数据、leader消费数据,follower的出现是为了保证kafka数据的高可用和一致性,也是作为灾备的存在。再保证高可用的过程中,leader与follower进行数据同步时,产生的如下一些专业术语,都是基于partition之内的概念。为了方便理解,假设以下所有的描述,都是基于某个只有一个partition,partition里面有3个

2020-05-26 10:17:31 2296

原创 异构数据源导redis不用找了!DataX二次开发插件rediswriter已上菜

rediswriter代码地址: https://github.com/lijufeng2016/DataX-redis-writer合并后DataX完整代码地址: https://github.com/lijufeng2016/DataX一、DataX介绍DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台,实现包括 MySQL、Oracle、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、DRD

2020-05-22 13:24:51 6565 13

原创 提交spark yarn-cluster与yarn-client模式的致命区别

一、组件版本二、提交方式三、运行原理四、分析过程五、致命区别六、总结一、组件版本调度系统:DolphinScheduler1.2.1spark版本:2.3.2二、提交方式spark在submit脚本里提交job的时候,经常会有这样的警告 Warning: Master yarn-cluster is deprecated since 2.0. Please use master "yarn" with specified deploy mode instead.这是因为你用了yarn-cl.

2020-05-15 19:28:15 3571

原创 hive中文汉字乱码终极解决办法

一、问题在创建hive表时,comment要加中文注释,比如:drop table if exists users;create table users(name string comment '姓名',age int comment '年龄');执行后再show create table users;二、别人的解决方法中国文化博大精深,无奈没有成为世界统一标准,根据一般人的经验,脑中一定是utf8哪个地方没设置好的问题,经过一番百度,找到 如下解决方法,在hive的mysql元数据库

2020-05-15 12:16:10 7875 2

原创 自动化HDFS数据清理的终极方法(附代码)

一、背景二、原理fsimage:hive元数据三、使用方法本地idea运行:step1:准备工作step2:解析fsimage文件step3:清理数据yarn运行:step1:准备工作step2:解析fsimage文件step3:清理数据四、总结代码地址:https://github.com/lijufeng2016/data-manager一、背景hdfs集群从出生到成长,经历了各种各样...

2020-04-24 22:28:01 4858

原创 手撕RPC系列(2)—客户端基于stub动态代理的RPC

一、前言二、原理三、前置基础四、举例说明五、总结一、前言上一节 手撕RPC系列(1)—最原始的RPC通俗理解 中讲了一个最最简单的rpc思想的例子。那种方法的缺陷太多,平常写代码一般不会那样去写,今天我们在之前的基础上稍微进一步演进,引入stub的概念,stub在rpc里面是代理的意思,是个约定俗成的东西,所以不叫proxy,知道是这么个东西就行了。代理是干嘛的?我要做的事丢给别人去做,那个...

2020-04-15 23:54:53 1202

原创 手撕RPC系列(1)—最原始的RPC通俗理解

一、前言二、原理三、前置基础四、例子五、总结一、前言RPC(Remote Procedure Call)远程过程调用,简单的理解是一个节点请求另一个节点提供的服务。网上太多博文五花八门,一上来就netty、grpc、thrift、Protobuf、单体架构、分布式架构…一堆听不懂的名词,可能有些博主自己都不清楚什么情况,导致读者半天也搞不清rpc的本质。这里,我们从最最基础的东西开始讲起,本...

2020-04-15 00:01:21 861 1

原创 小白也能看懂的源码分析系列(1)—HADOOP的NameNode启动过程

小白也能看懂的源码分析系列(1)—HADOOP的NameNode启动过程一、前言​ HADOOP作为大数据的基石,甚至是大数据的代名词,各种耳熟能详的框架基于HADOOP生态展开,发展日益迅速,HADOOP生态的完善,离不开HADOOP这个项目的伟大,作为一名大数据方向的工程师或者研究人员,这是必须要熟悉的框架,想要进一步深入的理解它的伟大之处,外面必须要熟悉它的原理,原理从何而...

2020-04-11 22:28:05 721

原创 zookeeper在大数据生态的应用

一、简述二、基本概念1.数据结构2.Znode你应该了解的(1)节点类型(2)节点属性三、基本功能1.文件系统2.集群管理(1) 节点的加入和退出(2) Master的选举3.分布式锁机制(1) 排他锁(2) 共享锁4.监听与通知机制四、实际应用1.hadoop2.hbase3.kafka4.hive五、总结一、简述​ 在一群动物掌管的世界中,动物没有人类聪明的思想,为了保持...

2020-04-05 22:08:15 1099

原创 亿万级海量数据去重软方法,spark/hive/flink/mr通用

一、场景描述:二、常用方法1.优化sql2.借助第三方存储3.bitmap三、原理分析二、案例实战三、总结一、场景描述:​ 小强作为一名数据工程师,给予hadoop生态,经常会接到类似uv的去重统计。对于这种需求,一般的数据工程师撸起袖子直接干!一般情况下不会有问题。某一天,你公司突然业务发展发展起来,数据量慢慢暴涨,你会突然发现之前的count distinct去重经常oom或是...

2020-03-31 21:10:24 3997 1

原创 Unable to close file because the last block does not have enough number of replicas报错分析

一、问题跑spark或hive脚本报错如下:[INFO] 2020-03-31 11:06:03 -> java.io.IOException: Unable to close file because the last block does not have enough number of replicas. at org.apache.hadoop.hdfs.DFSOutpu...

2020-03-31 15:06:39 13172 6

原创 orc表导致hiveserver2内存暴涨问题分析

orc表导致hiveserver2内存暴涨问题分析这里写目录标题orc表导致hiveserver2内存暴涨问题分析一、问题描述二、解决过程1.定位起因2.分析sql3.深入分析三、orc文件格式四、问题验证五、解决方案六、总结分析一、问题描述昨天上午,钉钉上突然出现一堆hive相关的查询错误的报警。第一感觉,在yarn上查看任务日志,查询了一通,结果没看到有任务相关的报错。于是乎,立马查看h...

2020-03-27 21:07:19 3144

原创 ambari2.7.4集成hue4.6.0

版本信息Ambari:2.7.4HDP:3.1.4HUE:4.6.0环境准备1.hue的master节点上执行,为编译环境做准备yum install sqlite-devel libxslt-devel.x86_64 python-devel openldap-devel asciidoc cyrus-sasl-gssapi libxml2-devel.x86_64 mysql-...

2020-03-09 18:09:07 3870 14

原创 ambari2.6安装alluxio2.1.0

ambari2.6安装alluxio2.1.0准备的文件:alluxio-2.1.0-bin.tar.gz (自己去下载)ranger-hive-plugin-0.7.0.2.6.5.0-292.jar (如果没有ranger控制权限,涉及的下面相关操作可忽略)ambari-alluxio-service-master.zip链接:https://pan.baidu.com/s/1f_C...

2019-11-11 17:26:44 998 7

原创 大数据采坑集-导入数据到hive的换行符问题

问题描述我们通常在迁移数据到大数据环境中,会使用,sqoop、datax之类的etl工具,从数据库中迁移到hive或hdfs。数据库中的原始数据中的文本类数据难免会有特殊字符,比如换行符,会对导入Hive后的数据产生影响。下面是从mysql导入hive的数据,其中,hive表是textfile格式存储特殊字符没做处理:发现有两个字段没了,于是再看看hive表在hdfs上的文件:发现原本一...

2019-01-04 14:42:46 16318 12

hadoop-yarn-server-resourcemanager-3.1.1.3.1.5.0-152.jar

hadoop3.1.1基于hdp3.1.5版本的ReentrantReadWriteLock还原成hadoop2.x版本的synchronized锁

2020-12-12

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除