小哥哥咯-CSDN博客

原创【软考003】KETTLE

ETL（Extract-Transform-Load的缩写，即数据抽取、转换、装载的过程），用于执行数据的处理，转换，迁移的工具。Kettle是一款国外开源的ETL工具，纯java编写。kjb：就是job，可以用来控制 transformation 的运行流程，可以顺序执行或者并发运行；或者脚本；或者设置变量；传输文件；运行shell等；ktr：就是transform，转换。具体的数据处理步骤，一般情况包含一个input和一个output。在input和output之间可以执行各式各样的转换操作。

2023-03-21 21:40:57 1140 1

原创【软考002】事务管理

数据库是一个共享资源，它允许多个用户程序并行地存取数据库中的数据，但是，如果系统对并行操作不加以控制，就会存取不正确的数据，破坏数据库的完整性。在多个事务并发执行的系统中，主要采取封锁协议来进行处理。https://baike.baidu.com/item/两段锁协议/1008117。数据库的一级、二级、三级封锁协议。

2023-03-17 07:44:10 391

原创【软考001】数据库中的无损连接分解和是否保持函数依赖的判定

判定函数依赖和无损连接

2023-02-20 07:36:25 839

原创 032 SQL知识点小记

不同场景下的SQL知识集锦

2022-06-21 21:47:30 502

原创 031 Log4j日志框架

MapReduce使用Log4j2 + Slf4j输出日志示例

2022-06-18 23:13:26 310

原创 030 大数据之BI工具Zepplin

JDBC连KyLinimport java.sql.Connection;import java.sql.DriverManager;import java.sql.PreparedStatement;import java.sql.ResultSet;public class TestKylin { public static void main(String[] args) throws Exception { //Kylin_JDBC 驱动 St

2022-05-26 22:28:33 360

原创 029 大数据之即席查询Presto&Kylin

正常解压安装包[atguigu@hadoop102 software]$ tar -zxvf presto-server-0.196.tar.gz -C /opt/module/# 创建存储数据文件夹[atguigu@hadoop102 presto-server-0.196]$ mkdir data# 编写配置内存管理的文件夹[atguigu@hadoop102 presto-server-0.196]$ mkdir etc# 编写配置数据源的配置文件夹[atguigu@hadoop102

2022-05-18 22:20:03 836

原创 028 大数据之Superset商业智能

1、Apache Superset试用了5款BI分析工具，终于找到了上手最快的那一个！superset安装及简单使用

2022-05-15 21:45:59 392

原创 027 大数据之Azkaban调度系统

1、Azkaban 3.0 中文文档解压Azkaban部署包[atguigu@hadoop102 azkaban]$ ll总用量 12drwxr-xr-x. 2 atguigu atguigu 4096 4月 18 2020 azkaban-db-3.84.4drwxr-xr-x. 6 atguigu atguigu 4096 4月 18 2020 azkaban-exec-server-3.84.4drwxr-xr-x. 6 atguigu atguigu 4096 4月 18 2020

2022-05-14 21:53:25 789

原创 026 数据仓库

1、数据仓库数仓分层：ODS直接存放原始数据，DWD对数据进行清洗，DIM轻度汇总，DWS重度汇总，ADS提供报表数据；分层原因：简化复杂问题，减少重复开发，隔离原始数据；几个概念：1）数据集市部门级的，2）数据仓库公司级的，3）数据湖包含各种类型的数据一文看懂：什么是数据库、数据湖、数据仓库、湖仓一体、智能湖仓？...

2022-05-04 12:09:46 2512

原创 025 大数据之Sqoop

1、Apache Sqoop慌了！ Apache Sqoop正式退役？2、Sqoop的安装和配置正常解压[atguigu@hadoop102 conf]$ tar -zxvf sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz -C /opt/module/修改配置文件[atguigu@hadoop102 conf]$ cat sqoop-env.sh # Licensed to the Apache Software Foundation (ASF) un

2022-05-01 22:12:02 1764

原创 001 小知识点集锦

深入理解Java中的volatile关键字

2022-03-26 18:56:13 710

原创 024 大数据之Flink

1、Spark与Flink对比1232、Spark Streaming保证Exactly-Once语义3、Kafka auto.offset.reset值详解4、从Lambda架构到Kappa架构再到？浅谈未来数仓架构设计~5、详解数仓中的数据分层：ODS、DWD、DWM、DWS、ADS

2022-03-20 18:32:43 2843

原创 023 博客集锦之Github

【Git】(1)—工作区、暂存区、版本库、远程仓库git pull时冲突的几种解决方式git reset --soft,–hard的区别

2022-03-17 22:03:21 655

原创 022 Spark内核

1、Spark yarn模式运行机制2、大数据开发：Spark通讯架构解析3、RPC是什么，看完你就知道了4、深入理解Spark任务调度

2022-03-15 21:44:40 2333

原创 021 Spark Streaming

1、简介Spark Streaming抽象、架构与原理Spark Streaming 背压（Back Pressure）机制

2022-03-09 21:28:23 1770

原创 020 Spark SQL（IDEA+MAVEN+SLF4J）

1、IDEA 使用Spark SQL163、Spark SQL实战开发进阶之CLI命令行使用【Hive】beeline连接报错 root is not allowed to impersonate root (state=08S01,code=0)resourceslog4j.propertieslog4j.rootCategory=ERROR, consolelog4j.appender.console=org.apache.log4j.ConsoleAppenderlog4j.append

2022-03-09 21:01:26 1547

原创 019 大数据之Spark

1、Spark概述Spark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。在绝大多数的数据计算场景中，Spark确实会比MapReduce更有优势。但是Spark是基于内存的，所以在实际的生产环境中，由于内存的限制，可能会由于内存资源不够导致Job执行失败，此时，MapReduce其实是一个更好的选择，所以Spark并不能完全替代MR。Spark Core：Spark Core中提供了Spark最基础与最核心的功能，Spark其他的功能如：Spark SQL，Spark Streaming

2022-02-24 22:46:09 1028

原创 018 The Scala Programming Language

1、Scala介绍Scala（百度百科）学习Scala的几个原因：1）大数据主要的批处理计算引擎框架Spark是基于Scala语言开发的2）大数据主要的流式计算引擎框架Flink也提供了Scala相应的API3）大数据领域中函数式编程的开发效率更高，更直观，更容易理解.............................................

2022-02-06 11:04:05 1651

原创 017 大数据之HBase

1、Apache HBaseHbase简介1.2、HBase逻辑结构1.3、HBase物理存储结构1）Name Space：命名空间，类似于关系型数据库的database概念，每个命名空间下有多个表。HBase有两个自带的命名空间，分别是hbase和default，hbase中存放的是HBase内置的表，default表是用户默认使用的命名空间；2）Table：类似于关系型数据库的表概念。不同的是，HBase定义表时只需要声明列族即可，不需要声明具体的列。这意味着，往HBase写入数据时，

2022-02-03 14:44:18 3032

原创 016 大数据之Kafka

1、APACHE KAFKA概念【Kafka】Kafka简单介绍Kafka 3.0 Documentation

2022-01-24 22:25:30 1306

原创 015 大数据之Flume

1、Apache Flume初识【Flume】Flume 简单理解及使用实例Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统，Flume支持在日志系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据接受方（可定制）的能力。Flume-og采用了多Master的方式。为了保证配置数据的一致性，Flume引入了ZooKeeper，用于保存配置数据，ZooKeeper本身可保证配置数据的一致性和高可用，另外，在配置数据

2022-01-22 11:42:33 1849

原创 014 大数据之HIVE实战

1、HIVE的计算引擎hive的引擎mapreduce、tez和spark三者比较hive sql执行方式对比（tez,mapreduce,spark,storm）TEZ和MapReduce区别Flink on Hive构建流批一体数仓MR引擎在HIVE 2中将被弃用，官方推荐使用TEZ或SPARK等引擎，在实际应用中如果使用TEZ或者SPARK计算时出现内存溢出的问题（TEZ和SPARK都是内存式计算），可以考虑使用MR进行运算，虽然慢但是肯定会出结果。Flink使用HiveCatalog可

2022-01-17 22:28:19 1583

原创 013 大数据之HIVE压缩和存储

上一篇文章：012 大数据之HIVE查询1、Hive的数据压缩介绍及使用1、HIVE的输入编解码器不需要设置，使用文件扩展名自动判断是否支持，Hive的Map、Reduce压缩功能默认不开启；2、Hive常见的存储格式的区别与应用场景，SequenceFile实现合并小文件，SequenceFile格式与mapreduce；3、HIVE使用Map、Reduce压缩功能时需要开启hive中间传输数据压缩功能，才可正常使用；4、snappy最常作为企业数据压缩格式，但不支持切分，而LZO可通过使用索引

2022-01-16 19:02:46 167

原创 012 大数据之HIVE查询

1、DBeaver连接HIVE查询实战1.1、HiveServer2的相关知识Hive架构之HiveServer2Prerequisites: Have Hive installed and setup to run on Hadoop cluster.HiveServer2 a.k.a HS2 is a second-generation Hive server that enables：① Remote clients to execute queries against the Hive s

2022-01-06 22:26:53 2115

原创 011 大数据之Hive基础

1、Hive基本概念1.1、Hive概述概念：The Apache Hive ™ data warehouse software facilitates reading, writing, and managing large datasets residing in distributed storage using SQL. Structure can be projected onto data already in storage. A command line tool and JDBC dr

2022-01-03 11:34:39 1526

原创 010 Zookeeper

1、Zookeeper入门1.1、概念Zookeeper从设计模式角度来理解，是一个基于观察者模式设计的分布式服务管理框架，它负责存储和管理大家都关心的数据，然后接受观察者的注册，一旦这些数据的状态发生了变化，Zookeeper就负责通知已经在Zookeeper上注册的那些观察者做出相应的反应.1.2、Zookeeper特点及理解1.3、Zookeeper 数据结构详解................................................................

2021-12-29 22:36:10 1067

原创 009 Hadoop 优化&新特性&HA

压缩算法原始文件大小压缩文件大小压缩速度解压速度自带切分改程序gzip8.3GB1.8GB17.5MB/s58MB/s是否否bzip28.3GB1.1GB2.4MB/s9.5MB/s是是否LZO8.3GB2.9GB49.3MB/s74.6MB/s否是是输入压缩：（Hadoop使用文件扩展名判断是否支持某种编解码器，core-site.xml）org.apache.hadoop.io.co.................

2021-12-27 21:55:02 868

原创 008 Yarn资源调度器

1、Yarn基本架构2、Yarn工作机制3、作业提交全过程4、资源调度器目前，Hadoop作业调度器主要有三种：FIFO、Capacity Scheduler和Fair Scheduler。Hadoop3.1.3默认的资源调度器是Capacity Scheduler。yarn-default.xml<property> <description>The class to use as the resource scheduler.</descriptio

2021-12-25 17:12:48 684

原创 007 Hadoop之MapReduce深入

1、MapReduce框架原理MapTask的sort：快速排序（内存） + 归并排序（磁盘）ReduceTask的sort：归并排序（磁盘 or 内存）MapTask.java@Override public void run(final JobConf job, final TaskUmbilicalProtocol umbilical) throws IOException, ClassNotFoundException, InterruptedException { t

2021-12-19 22:11:53 1590

原创 IDEA常用的搜索快捷键

1、搜索类：Ctrl+N2、查看类方法：Ctrl + F12

2021-12-19 10:35:52 857

原创 006 Hadoop之MapReduce初识

MapReduce概念：MapReduce是一个分布式运算程序的编程框架，是用户开发“基于Hadoop的数据分析应用”的核心框架。MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序，并行运行在一个Hadoop集群上。MapReduce优点易于编程：它简单的实现一些接口，就可以完成一个分布式程序，这个分布式程序可以分布到大量廉价的PC机器上运行。易于扩展：当你的计算资源不能得到满足的时候，你可以通过简单的增加机器来扩展它的计算能力。高容错性：ha

2021-12-18 14:17:17 1550

原创 005 Hadoop之HDFS深入

1、HDFS的写入数据流程Hadoop-clienthadoop的FileSystem类中,遍历文件目录的三种方法(源码和区别)通过FileSystem对象操作HDFS的方法就不过多讲了，请参考官网示例

2021-12-15 22:09:04 1358

原创 004 Hadoop之HDFS初识

1、初识HDFSHDFS：Hadoop Distributed File System场景：一次写入多次读出，其本身不支持修改，适合用来做数据分析，并不适合做网盘优点：高容错行、适合大数据处理、构建在廉价机上缺点：不适合低延时访问、小文件存储不高效、不支持并发写入和文件随机修改1.1、HDFS组成架构NameNode：管理数据块映射、配置副本策略、处理客户端读写请求；DataNode：存储实际的数据块、执行数据块的读/写操作；Client：对上传HDFS的文件切块、从NameNode获取文

2021-12-14 21:32:49 652

原创 003 Hadoop集群搭建

前提：准备好三台可以互相通信的虚拟机，虚拟机创建教程可以参考我的上一篇博客1、编写集群分发脚本rsync和scp区别：用rsync做文件的复制要比scp的速度快，rsync只对差异文件做更新。scp是把所有文件都复制过去。# scp -r $pdir/$fname $user@hadoop$host:$pdir/$fname# 命令递归要拷贝的文件路径/名称目的用户@主机:目的路径/名称scp -r /o

2021-12-11 16:57:19 1329

原创 002 VMware Workstation 安装 CentOS 7 小结【桥接模式】

查看Linux分区(fdisk -l)及其文件系统格式(blkid)[root@localhost ~]# fdisk -l磁盘 /dev/sda：42.9 GB, 42949672960 字节，83886080 个扇区Units = 扇区 of 1 * 512 = 512 bytes扇区大小(逻辑/物理)：512 字节 / 512 字节I/O 大小(最小/最佳)：512 字节 / 512 字节磁盘标签类型：dos磁盘标识符：0x000c8e5b 设备 Boot Start

2021-12-05 20:53:31 238

原创 001 物理机、虚拟机、有线网卡、无线网卡组局域网

设置对象：物理机A、物理机B、虚拟机A、虚拟机B物理机A：虚拟机A：

2021-11-28 14:40:21 957

原创 LeetCode刷题day044 (Jieky)

**LeetCode第10题 Regular Expression Matching **/*Given an input string (s) and a pattern (p), implement regular expression matching with support for '.' and '*''.' Matches any single character.'*' Matches zero or more of the preceding element.The matc

2021-04-25 23:26:45 133

原创 LeetCode刷题day043 (Jieky)

LeetCode第43题 Multiply Strings/*Given two non-negative integers num1 and num2 represented as strings, return the product of num1 and num2, also represented as a string.Note: You must not use any built-in BigInteger library or convert the inputs to integ

2021-04-24 20:13:15 72

原创 LeetCode刷题day042 (Jieky)

LeetCode第42题 Trapping Rain Water/*Given n non-negative integers representing an elevation map where the width of each bar is 1, compute how much water it is able to trap after raining.The above elevation map is represented by array [0,1,0,2,1,0,1,3,2,1

2021-04-22 23:27:20 94

空空如也

strcpy复制数组，程序异常奔溃