喜剧之皇-CSDN博客

原创 Airflow 核心原理分析

.airflow架构 scheduler，它处理触发计划的工作流，并将任务提交给executor运行。 executor，处理正在运行的任务。在默认的 Airflow 安装中，它运行在scheduler中，但大多数适合生产的executor实际上将任务执行推送给workers。 webserver，它提供了一个方便的用户界面来检查、触发和调试 DAG 和任务的行为。 DAG Directory，由scheduler和executor（以及executor所有的wor.

2021-09-15 07:02:45 2483 1

原创 Flink高危漏洞 (CVE-2020-17518/17519) 修复指南

一、背景二、修复方法三、详细步骤1.准备flink源码2.找到修复的commit3.编译打包4.替换jar包四、总结一、背景国家信息安全漏洞库（CNNVD）收到关于Apache Flink安全漏洞（CNNVD-202101-271、CVE-2020-17519）（CNNVD-202101-273、CVE-2020-17518）情况的报送。成功利用漏洞的攻击者，可在未授权的情况下，构造恶意数据执行任意文件读取或文件写入攻击，最终获取服务器敏感性信息或权限。Apache Flink 1.5.1 - .

2021-01-19 22:22:57 4166 4

原创 Hive源码本地IDEA调试的正确姿势

Hive源码本地IDEA调试的正确姿势背景Hive作为最最基础的大数据框架，可以说，没装Hive，就等于没有大数据这回事。Hive的功能也越来越强大，经过大多数用户市场的检验，也诞生许多稳定的版本。所以，大多数人把Hive当成黑盒使用，只需要明白其原理。但是，万一某种情况下，你的需求里出现未知bug或者有新的需求需要改造的时候，这时你不得不跟Hive源码打交道。本人在最近的Hive bug修复和开发中也走了不少弯路，网上也没像样的教程，现在总结出来给各位，避免踩坑。环境准备Hive这里选用hi

2021-01-11 11:20:58 2572 3

原创 Hadoop3.x中一把锁毁灭的大数据集群

hadoop3.x中一把锁毁灭整个大数据集群集群版本：HDP3.1.5Hadoop版本：Hadoop3.1.1源码地址：https://github.com/hortonworks/hadoop-release/tree/HDP-3.1.5.152-1-tag一、前置知识大家都知道hadoop的核心组件是HDFS和YARN，HDFS负责存储，YARN负责计算资源管理，今天要重点扯一扯YARN。YARN的架构跟众多分布式架构一样是主从式，为了维护可靠性，ResourceManage

2020-12-12 23:04:26 4056 11

原创删了HDFS又能怎样？记一次删库不跑路事件

一、事发背景二、应急措施直观的方案三、分析过程hdfs文件删除过程BlockManagerEditLoghdfs元数据的加载方案确定四、灾难重演五、经验总结一、事发背景上个月的某一天，由于集群空间不足，公司有一位技术经理级别的大数据leader在通过跳板机在某个线上集群执行手动清理命令，疯狂地执行hadoop fs -rmr -skipTrash /user/hive/warehouse/xxxxx，突然，不知道是编辑器的问题还是换行问题，命令被截断，命令变成了``hadoop fs.

2020-08-13 18:43:54 2704 9

原创 Ambari2.7+HDP3.X集成Dolphinscheduler1.3

一、安装准备二、环境准备1.新建数据库2.java环境准备三、ambari集成1.软件包准备2.修改文件3.正式安装一、安装准备Dolphinscheduler1.3安装包，详情可参考 dolphinscheduler在window环境下单机编译+部署中生成的的tar包，由于官网未正式release，为大家方便，这里提供已编译好的tar包，链接：https://pan.baidu.com/s/18ILymCAnYnhcIpgbGUAENQ 提取码：vvtwmysql jdbc驱动包：mysql.

2020-06-27 18:00:30 5476 9

原创 dolphinscheduler在window环境下单机编译+部署

为了完整演示整个流程，从0开始，排除其它一切干扰，本人特意找了台新的windows环境，全程无需IDE的参与操作一、版本信息：dolphinscheduler：1.3.0maven：3.6.3jdk：1.8二、编译注意事项：1.无需下载node.js，执行下面的maven打包会自动下载，node.js版本不对编译会有问题2.window下编译完后tar包的解压一定不要用国产解压软件，否则会有下图的惨状，推荐压缩软Bandizip``[外链图片转存失败,源站可能有防

2020-06-16 21:58:08 7505 9

原创 kafka如何保证数据可靠性

一、必须知道的专业名词kafka中，每个partition可以有多个副本(Replica)，分为leader、follower，正常情况下，客户端只向leader发送数据、leader消费数据，follower的出现是为了保证kafka数据的高可用和一致性，也是作为灾备的存在。再保证高可用的过程中，leader与follower进行数据同步时，产生的如下一些专业术语，都是基于partition之内的概念。为了方便理解，假设以下所有的描述，都是基于某个只有一个partition，partition里面有3个

2020-05-26 10:17:31 2296

原创异构数据源导redis不用找了!DataX二次开发插件rediswriter已上菜

rediswriter代码地址： https://github.com/lijufeng2016/DataX-redis-writer合并后DataX完整代码地址： https://github.com/lijufeng2016/DataX一、DataX介绍DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台，实现包括 MySQL、Oracle、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、DRD

2020-05-22 13:24:51 6565 13

原创提交spark yarn-cluster与yarn-client模式的致命区别

一、组件版本二、提交方式三、运行原理四、分析过程五、致命区别六、总结一、组件版本调度系统：DolphinScheduler1.2.1spark版本：2.3.2二、提交方式spark在submit脚本里提交job的时候，经常会有这样的警告 Warning: Master yarn-cluster is deprecated since 2.0. Please use master "yarn" with specified deploy mode instead.这是因为你用了yarn-cl.

2020-05-15 19:28:15 3571

原创 hive中文汉字乱码终极解决办法

一、问题在创建hive表时，comment要加中文注释，比如：drop table if exists users;create table users(name string comment '姓名',age int comment '年龄');执行后再show create table users;二、别人的解决方法中国文化博大精深，无奈没有成为世界统一标准，根据一般人的经验，脑中一定是utf8哪个地方没设置好的问题，经过一番百度，找到如下解决方法，在hive的mysql元数据库

2020-05-15 12:16:10 7875 2

原创自动化HDFS数据清理的终极方法（附代码）

一、背景二、原理fsimage：hive元数据三、使用方法本地idea运行：step1：准备工作step2:解析fsimage文件step3:清理数据yarn运行：step1：准备工作step2:解析fsimage文件step3:清理数据四、总结代码地址：https://github.com/lijufeng2016/data-manager一、背景hdfs集群从出生到成长，经历了各种各样...

2020-04-24 22:28:01 4858

原创手撕RPC系列(2)—客户端基于stub动态代理的RPC

一、前言二、原理三、前置基础四、举例说明五、总结一、前言上一节手撕RPC系列(1)—最原始的RPC通俗理解中讲了一个最最简单的rpc思想的例子。那种方法的缺陷太多，平常写代码一般不会那样去写，今天我们在之前的基础上稍微进一步演进，引入stub的概念，stub在rpc里面是代理的意思，是个约定俗成的东西，所以不叫proxy，知道是这么个东西就行了。代理是干嘛的？我要做的事丢给别人去做，那个...

2020-04-15 23:54:53 1202

原创手撕RPC系列(1)—最原始的RPC通俗理解

一、前言二、原理三、前置基础四、例子五、总结一、前言RPC（Remote Procedure Call）远程过程调用，简单的理解是一个节点请求另一个节点提供的服务。网上太多博文五花八门，一上来就netty、grpc、thrift、Protobuf、单体架构、分布式架构…一堆听不懂的名词，可能有些博主自己都不清楚什么情况，导致读者半天也搞不清rpc的本质。这里，我们从最最基础的东西开始讲起，本...

2020-04-15 00:01:21 861 1

原创小白也能看懂的源码分析系列(1)—HADOOP的NameNode启动过程

小白也能看懂的源码分析系列(1)—HADOOP的NameNode启动过程一、前言 HADOOP作为大数据的基石，甚至是大数据的代名词，各种耳熟能详的框架基于HADOOP生态展开，发展日益迅速，HADOOP生态的完善，离不开HADOOP这个项目的伟大，作为一名大数据方向的工程师或者研究人员，这是必须要熟悉的框架，想要进一步深入的理解它的伟大之处，外面必须要熟悉它的原理，原理从何而...

2020-04-11 22:28:05 721

原创 zookeeper在大数据生态的应用

一、简述二、基本概念1.数据结构2.Znode你应该了解的（1）节点类型（2）节点属性三、基本功能1.文件系统2.集群管理(1) 节点的加入和退出(2) Master的选举3.分布式锁机制(1) 排他锁(2) 共享锁4.监听与通知机制四、实际应用1.hadoop2.hbase3.kafka4.hive五、总结一、简述在一群动物掌管的世界中，动物没有人类聪明的思想，为了保持...

2020-04-05 22:08:15 1099

原创亿万级海量数据去重软方法，spark/hive/flink/mr通用

一、场景描述：二、常用方法1.优化sql2.借助第三方存储3.bitmap三、原理分析二、案例实战三、总结一、场景描述：小强作为一名数据工程师，给予hadoop生态，经常会接到类似uv的去重统计。对于这种需求，一般的数据工程师撸起袖子直接干！一般情况下不会有问题。某一天，你公司突然业务发展发展起来，数据量慢慢暴涨，你会突然发现之前的count distinct去重经常oom或是...

2020-03-31 21:10:24 3997 1

原创 Unable to close file because the last block does not have enough number of replicas报错分析

一、问题跑spark或hive脚本报错如下：[INFO] 2020-03-31 11:06:03 -> java.io.IOException: Unable to close file because the last block does not have enough number of replicas. at org.apache.hadoop.hdfs.DFSOutpu...

2020-03-31 15:06:39 13172 6

原创 orc表导致hiveserver2内存暴涨问题分析

orc表导致hiveserver2内存暴涨问题分析这里写目录标题orc表导致hiveserver2内存暴涨问题分析一、问题描述二、解决过程1.定位起因2.分析sql3.深入分析三、orc文件格式四、问题验证五、解决方案六、总结分析一、问题描述昨天上午，钉钉上突然出现一堆hive相关的查询错误的报警。第一感觉，在yarn上查看任务日志，查询了一通，结果没看到有任务相关的报错。于是乎，立马查看h...

2020-03-27 21:07:19 3144

原创 ambari2.7.4集成hue4.6.0

版本信息Ambari：2.7.4HDP：3.1.4HUE：4.6.0环境准备1.hue的master节点上执行，为编译环境做准备yum install sqlite-devel libxslt-devel.x86_64 python-devel openldap-devel asciidoc cyrus-sasl-gssapi libxml2-devel.x86_64 mysql-...

2020-03-09 18:09:07 3870 14

原创 ambari2.6安装alluxio2.1.0

ambari2.6安装alluxio2.1.0准备的文件：alluxio-2.1.0-bin.tar.gz (自己去下载)ranger-hive-plugin-0.7.0.2.6.5.0-292.jar （如果没有ranger控制权限，涉及的下面相关操作可忽略）ambari-alluxio-service-master.zip链接：https://pan.baidu.com/s/1f_C...

2019-11-11 17:26:44 998 7

原创大数据采坑集-导入数据到hive的换行符问题

问题描述我们通常在迁移数据到大数据环境中，会使用，sqoop、datax之类的etl工具，从数据库中迁移到hive或hdfs。数据库中的原始数据中的文本类数据难免会有特殊字符，比如换行符，会对导入Hive后的数据产生影响。下面是从mysql导入hive的数据，其中，hive表是textfile格式存储特殊字符没做处理：发现有两个字段没了，于是再看看hive表在hdfs上的文件：发现原本一...

2019-01-04 14:42:46 16318 12

u013289115的博客