魅Lemon-CSDN博客

原创大数据大厂面试题

inputFile通过split被切割为多个split文件，通过Record按行读取内容给map（自己写的处理逻辑的方法），数据被map处理完之后交给OutputCollect收集器，对其结果key进行分区（默认使用的hashPartitioner），然后写入buffer，

2024-04-16 16:59:33 519

Apache Atlas为组织提供开放式元数据管理和治理功能，用以构建其数据资产目录，对这些资产进行分类和管理，并为数据分析师和数据治理团队，提供围绕这些数据资产的协作功能。同时可以配合ranger对某个元数据进行权限管理元数据分类支持对元数据进行分类管理，例如个人信息，敏感信息等元数据检索可按照元数据类型、元数据分类进行检索，支持全文检索血缘依赖支持表到表和字段到字段之间的血缘依赖，便于进行问题回溯和影响分析等例如表与表之间的血缘依赖。

2024-04-16 16:59:02 462

原创数仓数据质量管理脚本

数据质量管理（Data Quality Management），是指对数据从计划、获取、存储、共享、维护、应用、消亡生命周期的每个阶段里可能引发的各类数据质量问题，进行识别、度量、监控、预警等一系列管理活动，并通过改善和提高组织的管理水平使得数据质量获得进一步提高。数据质量管理是循环管理过程，其终极目标是通过可靠的数据提升数据在使用中的价值，并最终为企业赢得经济效益。

2024-04-16 16:58:05 425

原创权限管理Ranger详解

Apache Ranger是一个Hadoop平台上的全方位数据安全管理框架，它可以为整个Hadoop生态系统提供全面的安全管理。随着企业业务的拓展，企业可能在多用户环境中运行多个工作任务，这就需要一个可以对安全策略进行集中管理，配置和监控用户访问的框架。Ranger由此产生RangerUsersync作为Ranger提供的一个管理模块，可以将Linux机器上的用户和组信息同步到RangerAdmin的数据库中进行管理Ranger Hive-plugin是Ranger对hive进行权限管理的插件。

2024-04-16 16:57:23 546

原创安全认证Kerberos详解

Kerberos是一种计算机网络认证协议，用来在非安全网络中，对个人通信以安全的手段进行身份认证。这个词又指麻省理工学院为这个协议开发的一套计算机软件。软件设计上采用客户端/服务器结构，并且能够进行相互认证，即客户端和服务器端均可对对方进行身份认证。可以用于防止窃听、防止重放攻击、保护数据完整性等场合，是一种应用对称密钥体制进行密钥管理的系统。

2024-04-16 16:55:47 339

原创 Flink SQL

# 创建数据库# 举例## 查询数据库# 查询当前数据库# 修改数据库# 删除数据库# RESTRICT：删除非空数据库会触发异常。默认启用# CASCADE：删除非空数据库也会删除所有相关的表和函数## 切换当前数据库系统函数尽管庞大，也不可能涵盖所有的功能；如果有系统函数不支持的需求，我们就需要用自定义函数（User Defined Functions，UDF）来实现了。Flink的Table API和SQL提供了多种自定义函数的接口，以抽象类的形式定义。

2024-04-16 16:52:38 837

原创 Flink1.17学习笔记

文章目录一、Flink概述与入门1、Flink概述1.1 Flink是什么1.2 Flink特点1.3 Flink vs SparkStreaming1.4 Flink的应用场景1.5 Flink分层API2、Flink快速上手2.1 环境准备2.2 WordCount之批处理2.3 流处理之读取文件2.4 流处理之读取socket文本流二、Flink安装与部署1、集群角色2、Flink集群搭建2.1 集群启动2.2 向集群提交作业3、部署模式3.1 会话模式（Session Mode）3.2 单作业模式（

2024-04-16 16:50:18 541

原创实时数据同步之Maxwell和Canal

Maxwell 是由美国 Zendesk 开源，用 Java 编写的 MySQL 实时抓取软件。实时读取MySQL 二进制日志 Binlog，并生成 JSON格式的消息，作为生产者发送给 Kafka，Kinesis、RabbitMQ、Redis、Google Cloud Pub/Sub、文件或其它平台的应用程序注意：1.30.0版本后不在支持JDK8Canal 是用 Java 开发的基于数据库增量日志解析，提供增量数据订阅&消费的中间件。目前。

2024-04-15 18:38:28 1432

原创可视化报表Superset

Apache Superset是一个现代的数据探索和可视化平台。它功能强大且十分易用，可对接各种数据源，包括很多现代的大数据分析引擎，拥有丰富的图表展示形式，并且支持自定义仪表盘。

2024-04-15 18:37:56 604

原创即席查询笔记

Apache Kylin 是一个开源的分布式分析引擎，提供 Hadoop/Spark 之上的 SQL 查询接口及多维分析（OLAP）能力以支持超大规模数据，最初由 eBay Inc 开发并贡献至开源社区。它能在亚秒内查询巨大的 Hive 表。OLAP（online analytical processing）是一种软件技术，它使分析人员能够迅速、一致、交互地从各个方面观察信息，以达到深入理解数据的目的。从各方面观察信息，也就是从不同的维度分析数据，因此OLAP也成为多维分析。

2024-04-15 18:37:21 897

原创大数据建模理论

通常数据仓库的数据来自各个业务应用系统。业务系统中的数据形式多种多样，可能是 Oracle、MySQL、SQL Server等关系数据库里的结构化数据，可能是文本、CSV等平面文件或Word、Excel文档中的数据，还可能是HTML、XML等自描述的半结构化数据。这些业务数据经过一系列的数据抽取、转换、清洗，最终以一种统一的格式装载进数据仓库。数据仓库里的数据作为分析用的数据源，提供给后面的即席查询、分析系统、数据集市、报表系统、数据挖掘系统等。

2024-04-15 18:34:55 855

原创大数据几种任务调度工具

Apache DolphinScheduler是一个分布式、易扩展的可视化DAG工作流任务调度平台。致力于解决数据处理流程中错综复杂的依赖关系，使调度系统在数据处理流程中开箱即用DolphinScheduler支持多种部署模式，包括单机模式（Standalone）、伪集群模式（Pseudo-Cluster）、集群模式（Cluster）等Airflow是一个以编程方式编写，安排和监视工作流的平台。使用Airflow将工作流编写任务的有向无环图（DAG）。

2024-04-15 18:33:55 1024

原创 Hive on spark源码编译与调优

一般生产环境NN和RM吃资源少的会单独配置，而工作节点会单独配置资源较多，例如Master节点配置为16核CPU、64G内存；Workder节点配置为32核CPU、128G内存，五台服务器如下所示hadoop100hadoop101hadoop102hadoop103hadoop104mastermasterworkerworkerworkerNameNodeNameNodeDataNodeDataNodeDataNodeZookeeperZookeeper。

2024-04-15 18:32:41 745

原创 Hive on spark编译

Hive引擎包括：默认MR、Tez、SparkHive on Spark：Hive既作为存储元数据又负责SQL的解析优化，语法是HQL语法，执行引擎变成了Spark，Spark负责采用RDD执行。Spark on Hive : Hive只作为存储元数据，Spark负责SQL解析优化，语法是Spark SQL语法，Spark负责采用RDD执行。

2024-04-15 18:32:01 910

原创 HBase2.x学习笔记

文章目录一、HBase 简介1、HBase 定义1.1 概述1.2 HBase 与 Hadoop 的关系1.3 RDBMS 与 HBase 的对比1.4 HBase 特征简要2、HBase 数据模型2.1 HBase 逻辑结构2.2 HBase 物理存储结构2.3 HBase的表数据模型3、HBase 基本架构3.1 Master3.2 Region Server3.3 Zookeeper3.4 HDFS二、HBase 快速入门1、HBase 安装部署1.1 前置环境与下载1.2 HBase 的配置文件1.

2024-04-15 18:29:01 1134

原创 kswapd0挖矿病毒攻击记录

Outlaw病毒通过SSH攻击，访问目标系统并下载带有shell脚本、挖矿木马、后门木马的TAR压缩包文件dota3.tar.gz。解压后的文件目录可以看到，根目录rsync下存放初始化脚本，a目录下存放shellbot后门，b目录下存放挖矿木马，c目录下存放SSH攻击程序。# 常用的日志分析技巧# 定位有多少IP在爆破主机的root帐号：# 定位有哪些IP在爆破：[0-9][0-9]?[0-9][0-9]?[0-9][0-9]?[0-9][0-9]?)"|uniq -c# 爆破用户名字典是什么？

2024-02-29 19:04:43 656

原创 OpenVPN 安装与使用

可以添加、删除、查看等，网段默认是10.8.0.x，按照客户端启动顺序给予分配ip，同时客户端可以访问server端所在的内网(可以使用route命令查看，原因是转发到vpn网卡的流量全部进行了转发)都提示success代表安装成功，然后根据上图底部的提示路径把ovpn文件下载下来，对于管理客户端，就再次执行。参数表示可以添加路由的条数,默认只允许添加100条路由,如果少于100条路由可不加这个参数。默认不配置是全量转发，如果有多个内网网卡，可以设置选择性转发，在配置文件增加对应配置即可。

2024-02-29 17:01:45 905

原创 Zookeeper3.5.7源码分析

Paxos算法：一种基于消息传递且具有高度容错特性的一致性算法。Paxos算法解决的问题：就是如何快速正确的在一个分布式系统中对某个数据值达成一致，并且保证不论发生任何异常，都不会破坏整个系统的一致性。在一个Paxos系统中，首先将所有节点划分为Proposer（提议者），Acceptor（接受者），和Learner（学习者）。Prepare准备阶段Proposer向多个Acceptor发出Propose请求Promise（承诺）Acceptor针对收到的Propose请求进行Promise（承诺）

2024-01-25 14:04:42 1305

原创 Zookeeper3.5.7基础学习

Zookeeper 是一个开源的分布式的，为分布式框架提供协调服务的 Apache 项目Zookeeper从设计模式角度来理解：是一个基于观察者模式设计的分布式服务管理框架，它负责存储和管理大家都关心的数据，然后接受观察者的注册，一旦这些数据的状态发生变化，Zookeeper就将负责通知已经在Zookeeper上注册的那些观察者做出相应的反应**。Zookeeper=文件系统+通知机制**几种分布式锁详解Centos7安装zookeeper和Web UI。

2024-01-25 14:04:06 1078

原创 Spark3学习笔记

Spark 是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。在 FullStack 理想的指引下，Spark 中的 Spark SQL 、SparkStreaming 、MLLib 、GraphX 、R 五大子框架和库之间可以无缝地共享数据和操作，这不仅打造了 Spark 在当今大数据计算领域其他计算框架都无可匹敌的优势，而且使得 Spark 正在加速成为大数据处理中心首选通用计算平台。Spark Core。

2024-01-25 14:03:09 1220

原创 Spark3内核源码与优化

Spark 内核泛指 Spark 的核心运行机制，包括 Spark 核心组件的运行机制、Spark 任务调度机制、Spark 内存管理机制、Spark 核心功能的运行原理等，熟练掌握 Spark 内核原理，能够帮助我们更好地完成 Spark 代码设计，并能够帮助我们准确锁定项目运行过程中出现的问题的症结所在任务提交后，都会先启动 Driver 程序；随后Driver 向集群管理器注册应用程序；集群管理器根据此任务的配置文件分配Executor 并启动；

2024-01-25 14:01:05 1326

原创 Kafka3学习笔记

Kafka是一个开源的分布式事件流平台（Event StreamingPlatform），被数千家公司用于高性能数据管道、流分析、数据集成和关键任务应用。发布/订阅：消息的发布者不会将消息直接发送给特定的订阅者，而是将发布的消息分为不同的类别，订阅者只接收感兴趣的消息。Kafka-Eagle 框架可以监控 Kafka 集群的整体运行情况，在生产环境中经常使用。Kafka-Eagle 的安装依赖于 MySQL，MySQL 主要用来存储可视化展示的数据。Mysql安装可以参考之前hive的学习笔记。

2024-01-25 14:00:02 1519

原创 Kafka3.0源码学习

Sender 对象被放到了一个线程中启动，所有需要点击 newSender()方法中的 Sender，并找到 sender 对象中的 run()方法。生产者 sender 线程初始化，KafkaProducer.java中点击 newSender()方法，查看发送线程初始化。生产者 main 线程初始化，点击 main()方法中的 KafkaProducer()程序入口在core→src→main→scala→Kafka→kafka.scala。点击 main()方法中的 KafkaConsumer ()

2024-01-25 13:58:52 851

原创 Hive3.1.3基础学习

Hive是由Facebook开源，基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类SQL查询功能Hive是一个Hadoop客户端，用于将HQL（Hive SQL）转化成MapReduce程序Hive中每张表的数据存储在HDFSHive分析数据底层的实现是MapReduce（也可配置为Spark或者Tez）执行程序运行在Yarn上# 创建数据库# 创建一个数据库，不指定路径。

2024-01-25 13:56:22 968

原创 Hadoop3.x源码解析

文章目录一、RPC通信原理解析1、概要2、代码demo二、NameNode启动源码解析1、概述2、启动9870端口服务3、加载镜像文件和编辑日志4、初始化NN的RPC服务端5、NN启动资源检查6、NN对心跳超时判断7、安全模式三、DataNode启动源码解析1、概述2、初始化DataXceiverServer3、初始化HTTP服务4、初始化DN的RPC服务端5、DN向NN注册6、向NN发送心跳四、HDFS上传源码解析1、概述2、create创建过程2.1 DN向NN发起创建请求2.2 NN处理DN的创建请求

2024-01-25 13:54:37 1160

原创 Hadoop3.x学习笔记

文章目录一、Hadoop入门1、Hadoop概述1.1 简介1.2 hadoop优势1.3 hadoop组成1.4 大数据技术生态体系2、环境准备(重点)2.1 模板机配置2.2 模板创建3、本地运行模式（官方WordCount）4、Hadoop集群搭建(🌟重点)4.1 环境准备(集群分发脚本xsync)4.2 SSH免密配置4.3 集群配置4.4 启动集群4.5 配置历史服务器4.6 配置日志的聚集4.7 集群启动/停止方式总结4.8 Hadoop集群常用脚本4.9 常用端口号说明4.10 集群时间同步(

2024-01-25 13:51:59 1451

原创 Flume1.9基础学习

Flume 是Cloudera 提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统。Flume 基于流式架构，灵活简单。Flume最主要的作用就是，实时读取服务器本地磁盘的数据(或者网络端口数据)，将数据写入到HDFS使用 Flume 监听一个端口，收集该端口数据，并打印到控制台。

2024-01-25 13:41:52 1289

原创集群监控Zabbix和Prometheus

Zabbix是一款能够监控各种网络参数以及服务器健康性和完整性的软件。Zabbix使用灵活的通知机制，允许用户为几乎任何事件配置基于邮件的告警。这样可以快速反馈服务器的问题。基于已存储的数据，Zabbix提供了出色的报告和数据可视化功能。

2023-12-13 14:42:43 1568

原创缓存一致性几种解决方案

这是一副时序图，描述请求的先后调用顺序；橘黄色的线是请求 A，黑色的线是请求 B；橘黄色的文字，是 MySQL 和 Redis 最终不一致的数据；数据是从 10 更新为 11；请求 A、B 都是先写 MySQL，然后再写 Redis，在高并发情况下，如果请求 A 在写 Redis 时卡了一会，请求 B 已经依次完成数据的更新，就会出现图中的问题。不过这里有个前提，就是对于读请求，先去读 Redis，如果没有，再去读 DB，但是读请求不会再回写 Redis。

2023-12-13 14:42:03 1090

原创 MongoDB5.x学习笔记

文章目录一、概述1、MongoDB简介1.1 简介1.2 发展历史1.3 特点1.4 应用场景2、MongoDB安装2.1 原生安装2.2 docker安装2.3 快捷安装二、核心概念1、概述2、数据库常用操作2.1 库和集合操作2.2 文档操作2.3 文档查询2.4 \$type3、索引\<index>3.1 原理3.2 索引操作3.3 复合索引4、聚合\<aggregate>三、应用整合1、SpringBoot整合1.1 环境配置1.2 集合操作1.3 相关注解1.4 文档查询1

2023-12-13 14:41:24 890

原创 Java之SPI机制详解

SPI 即，字面意思就是：“服务提供者的接口”，专门提供给服务提供者或者扩展框架功能的开发者去使用的一个接口。SPI 将服务接口和具体的服务实现分离开来，将服务调用方和服务实现者解耦，能够提升程序的扩展性、可维护性。修改或者替换服务实现并不需要修改调用方。例如SpringBoot 的自动装配就是基于spring 的 SPI 扩展机制和EnableAutoConfiguration实现的是 JDK 提供的一个工具类，位于包下。JDK 官方注释：**一种加载服务实现的工具。**再往下看，我们发现这个类是一个。

2023-12-13 14:40:41 1632

原创 Docker常用应用部署

docker-compose部署。docker-compose部署。docker-compose部署。docker-compose部署。

2023-10-24 22:04:15 539

原创 MySQL8.0高级篇(下)-事务与日志和备份

SHOW ENGINES`命令来查看当前 MySQL 支持的存储引擎都有哪些，以及这些存储引擎是否支持事务**事务：**一组逻辑操作单元，使数据从一种状态变换到另一种状态。**事务处理的原则：**保证所有事务都作为一个工作单元来执行，即使出现了故障，都不能改变这种执行方式。当在一个事务中执行多个操作时，要么所有的事务都被提交( commit )，那么这些修改就永久地保存下来；要么数据库管理系统将放弃所作的所有修改，整个事务回滚( rollback )到最初状态。more。

2023-06-01 10:25:54 1282

原创局域网内网穿透技术

内网穿透工具；但是这种方法弊端也很明显中转服务器需要一定的费用进行支撑(带公网的云服务器)，如果是外网的服务器还可能存在被墙的风险中转服务器直接决定了中转的"速度"，而这个"速度"越快其对应的服务器带宽就越大，通常来说价格就越高需要一定的知识储备来搭建内网穿透的服务端，而且只能转发某个特定的端口zerotier采用VLAN(虚拟局域网)技术将不同设备连接到一个“虚拟的局域网”中，从而让这些设备随时随地都可以互相访问，相比于frp等其他内网穿透。

2023-05-30 18:35:26 4625

原创 MySQL8.0高级篇(上)-架构与索引

1.2 MySQL的Linux版安装1.3 MySQL登录1.4 字符集的相关操作character_set_server：服务器级别的字符集character_set_database：当前数据库的字符集character_set_client：服务器解码请求时使用的字符集character_set_connection：服务器处理请求时会把请求字符串从character_set_client转为character_set_connectioncharacter_set_result

2023-05-25 16:21:50 1805

原创 MySQL8.0基础篇

文章目录一、MySQL概述1、数据库概述1.1 数据库作用1.2 数据库的相关概念2、MySQL概述2.1 概述2.2 RDBMS与非RDBMS3、MySQL环境安装3.1 MySQL的下载、安装、配置(win)3.2 MySQL登录3.3 MySQL演示使用3.4 MySQL目录结构与源码二、SQL查询1、SQL详情1.1 SQL分类1.2 SQL语言的规则与规范2、基本的SELECT语句3、运算符4、排序和分页4.1 排序规则4.2 分页5、多表查询(重要)6、内置函数6.1 数值函数6.2 字符串函

2023-05-25 16:18:52 1785 2

原创离线数据同步Sqoop与DataX

Sqoop全称是(现已经抛弃)，是一个开源工具，能够将数据从数据存储空间（数据仓库，系统文档存储空间，关系型数据库）导入 Hadoop 的 HDFS或列式数据库HBase，供 MapReduce 分析数据使用。数据传输的过程大部分是通过 MapReduce 过程来实现，只需要依赖数据库的Schema信息Sqoop所执行的操作是并行的，数据传输性能高，具备较好的容错性，并且能够自动转换数据类型。Sqoop是一个为高效传输海量数据而设计的工具，一般用在从关系型数据库同步数据到非关系型数据库中。

2023-05-03 09:28:09 1444

原创 MDC学习笔记

MDC是可以帮组我们在多线程条件下记录追踪日志的功能，它支持 Log4J和LogBack 两种日志框架通常打印出的日志会有线程号等信息来标志当前日志属于哪个线程，然而由于线程是可以重复使用的，所以并不能很清晰的确认一个请求的日志范围。手动生成一个唯一序列号打印在日志中；使用日志控件提供的MDC功能，生成一个唯一序列标记一个线程的日志在现网出现故障时，我们经常需要获取一次请求流程里的所有日志进行定位。

2023-04-12 15:31:00 3262

原创 SpringSecurity实战解析

提供了两种认证方式：HttpBasic 认证和 HttpForm 表单认证。HttpBasic 认证不需要我们编写登录页面，当浏览器请求 URL 需要认证才能访问时，页面会自动弹出一个登录窗口，要求用户输入用户名和密码进行认证。大多数情况下，我们还是通过编写登录页面进行 HttpForm 表单认证(现在默认是这个模式)一般认证成功后的用户信息是通过 Session 在多个请求之间共享，实现将已认证的用户信息对象 Authentication 与 Session 绑定要开启Spring方法级安全，在添加了。

2023-04-07 19:27:08 927

原创 Elasticsearch8.x学习笔记

从 2019 年 4 月 10 日 Elasticsearch7.0 版本的发布，到 2022 年 2 月 11 日 Elasticsearch8.0 版本的发布的近 3 年间，基于不断优化的开发设计理念，Elasticsearch 发布了一系列的小版本。减少内存堆使用，完全支持 ARM 架构，引入全新的方式以使用更少的存储空间，从而让每个节点托管更多的数据降低查询开销，在大规模部署中成效尤为明显提高日期直方图和搜索聚合的速度，增强了页面缓存的性能，并创建了一个新的"pre-filter"搜索短语。

2023-04-07 19:25:45 1562

Ranger2.0+Atlas2.1

hive-jdbc-uber-3.1.2+yanagishima-18.0

hive3.x编译spark3.x包

尚硅谷Hive企业级调优的资料

国内可下载kube-flannel.yml与自签证书程序文件

2021/2022中国行政规划Mysql资源

Java开发手册(黄山版2022)

aspose word ppt excel

ESXi-6.7.0-8169922-standard-customized.iso

Synology资源

空空如也