风满楼i-CSDN博客

一、数仓（1）维表数据量太大怎么处理？① 水平拆分&垂直拆分比如客户维表，将国际型客户，企业客户，个人客户拆开；② 覆盖原始数据，并不保留之前的数据；③ 微型维度：通过将一部分不稳定的属性从主维度中移出，并将它们放置到拥有自己代理键的新表中来实现的。这些属性相互之间没有直接关联，不存在自然键。通过为每个组合创建新行的一次性过程来加载数据。（2）增量与全量同步① 在传统的数据整合方案中，合并技术大多采用merge方式( update+insert）。当前流行的大数据平台基本都不支持upd

2023-02-12 14:47:31 389

原创尚硅谷_ClickHouse

第 1 章 ClickHouse 入门ClickHouse 的特点高吞吐写入能力ClickHouse 采用类 LSM Tree的结构，数据写入后定期在后台 Compaction。通过类 LSM tree的结构，ClickHouse 在数据导入时全部是顺序 append 写，写入后数据段不可更改，在后台compaction 时也是多个段 merge sort 后顺序写回磁盘。顺序写的特性，充分利用了磁盘的吞吐能力，即便在 HDD 上也有着优异的写入性能。数据分区与线程级并行ClickHouse 将

2022-02-26 14:39:32 212

原创分享2021

大数据面试题分享_美团数仓面试题深度剖析: 在数仓中如何搭建一个“合适且完美”的模型？高内聚低耦合；核心模型和拓展模型分离；公共处理层逻辑下沉且单一；成本和性能平衡；数据可回滚；数据一致性（规范）；命名清晰且容易理解...

2021-08-24 21:57:22 94

原创尚硅谷大数据技术之Sqoop

一、 Sqoop 安装下载地址：http://mirrors.hust.edu.cn/apache/sqoop/1.4.6/测试 Sqoop 是否能够成功连接数据库bin/sqoop list-databases --connect jdbc:mysql://hadoop102:3306/ --username root --password 000000二、 Sqoop 的简单使用案例1. RDBMS 到 HDFS1）在 Mysql 中新建一张表并插入一些数据$ mysql -uroot

2021-08-22 15:07:14 248

原创大数据技术之 Hive UDF

一、自定义函数当 Hive 提供的内置函数无法满足你的业务处理需要时，此时就可以考虑使用用户自定义函数。UDF（User-Defined-Function）一进一出UDAF（User-Defined Aggregation Function）聚集函数，多进一出，类似于：count/max/minUDTF（User-Defined Table-Generating Functions）一进多出，如 lateral view explode()1. 自定义 UDF 函数0）需求:自定义一个 UDF

2021-08-15 15:19:19 147

原创尚硅谷Shell教程(shell自动化编程精讲)_笔记

在线编译：https://c.runoob.com/compile/18哔哩哔哩：https://www.bilibili.com/video/BV1hW41167NW?p=7&spm_id_from=pageDriver一、Shell中的变量（1）常用系统变量：$HOME、$PWD、$SHELL、$USER（2）基本语法定义变量：变量=值撤销变量：unset 变量声明静态变量：readonly 变量，注意：不能unset（3）变量定义规则等号两侧不能有空格；在bash中，变量默

2021-07-25 16:03:13 648 4

原创大数据之路：阿里巴巴大数据实践（数据模型篇）

思维导图第8章大数据领域建模综述一、典型的数据仓库建模方法论1、ER模型特点：需要全面了解企业业务和数据、实施周期非常长、对建模人员的能力要求非常高。2、维度模型步骤：选择需要进行分析决策的业务过程、选择粒度、识别维表、选择事实（确定分析需要衡量的指标）3、Data Vault模型Data Vault模型由以下几部分组成：Hub：是企业的核心业务实体，由实体key、数据仓库序列代理键、装载时间、数据来源组成；Link：代表Hub之间的关系。这里与ER模型最大的区别是将关系作为一个独立

2021-07-20 21:54:37 568 3

原创尚硅谷_尚硅谷离线数据仓库项目(阿里云离线数仓)_笔记

网址：https://www.bilibili.com/video/BV1AJ411Q7ox?p=29&spm_id_from=pageDriver一、项目架构设计1.1 阿里云技术框架1.2 技术选型1.3 系统数据流程设计二、数据生成模块三、数据采集模块3.1 购买 ECS 云服务器3.2 基础环境准备3.3 FlumeFlume 是 Cloudera 提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统。Flume 基于流式架构，灵活简单。3.4

2021-07-11 15:13:39 1034

原创黑马_大数据千亿级数仓实战_笔记

一、kettle介绍二、数据仓库开发1. 表结构介绍和导入数据2. 缓慢变化维a.拉链表存储历史快照代码实现操作步骤：在原有dw层表上，添加额外的两列：生效日期（dw_start_date）、失效日期（dw_end_date）只同步当天修改的数据到ods层拉链表算法实现：编写SQL处理当天最新的数据；编写SQL处理dw层历史数据，重新计算之前的dw_end_date；拉链表的数据为：当天最新的数据 UNION ALL 历史数据拉链表的数据为：当天最新的数据 UNION ALL 历史数据代

2021-06-24 21:42:13 483 2

原创离线和实时大数据开发实战

在数据仓库的实际工作中，80%的时间会花费在任务调度、数据清洗和业务梳理上，只有20%的时间会投入到数据挖掘上。第一篇数据大图和数据平台大图第1章数据大图第2章数据平台大图1.OLTP、OLAP2.建模方法论：Kimball与Inmon对比Kimball维度建模的主题以星形架构为主，主题和主题之间则用一致性维和企业总线体系架构来保证数据仓库的集成和一致性。如果是 Inmon 模式，我们需要将数据库拆分成用户实体表、成交日志实体表、用户与成交日志关系表等多个子模块。如果是 Kimb

2021-06-15 22:12:06 1022 4

原创大数据技术之 Hive

一、Hive 基本概念1）Hive 是基于 Hadoop 的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类 SQL 查询功能。2）Hive 本质：将 HQL 转化成 MapReduce 程序；Hive 处理的数据存储在 HDFSHive 分析数据底层的实现是 MapReduce执行程序运行在 Yarn 上3）Hive 架构原理二、Hive安装部署1. 安装 Hive1）把 apache-hive-3.1.2-bin.tar.gz 上传到 linux 的/opt/softw

2021-06-07 20:27:23 1388 7

原创 hadoop环境

集群Linux环境搭建注意事项1.windows系统确认所有的关于VmWare的服务都已经启动2.确认好VmWare生成的网关地址3. 确认VmNet8网卡已经配置好了IP地址和DNS复制虚拟机虚拟机修改Mac和IP1.集群规划node01 192.168.174.1002.设置ip和Mac地址① 每台虚拟机更改mac地址vim /etc/udev/rules.d/70-persistent-net.rules② 每台虚拟机更改IP地址:vim /etc/sysconfig/n

2021-05-05 10:20:51 105

原创 Linux常用命令汇总

https://blog.csdn.net/weixin_44895651/article/details/105289038?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522161801444716780269867497%2522%252C%2522scm%2522%253A%252220140713.130102334…%2522%257D&request_id=161801444716780269867497&biz_i

2021-04-10 17:20:43 78

原创（废弃）大数据数仓从入门到精通

数仓架构详解建模阶段详解建模阶段：逻辑建模：建模工具是PD（PowerDesigner）物理建模：书写建库，建表语句数据仓库分层：ODS层、DWD层、DWS层、DM层事实表、维度表事实表：用于记录事实上产生数据的表，记录其动作维度表：对于事实表的说明星型模型：适用于业务简单、效率高，但数据有冗余；雪花模型：适用的场景与星型模型相反星座模型元数据管理数仓示例销售系统：客户表、订单表、产品表(1) 模型设计：PD(2) 物理实现...

2021-03-29 21:48:53 156 1

原创 spring、SpringMVC

一、Spring1.1 基于注解方式实现属性注入@Autowired是根据类型自动装配的，加上@Qualifier则可以根据byName的方式自动装配。@Qualifier不能单独使用。@Resource如有指定的name属性，先按该属性进行byName方式查找装配；其次再进行默认的byName方式进行装配；如果以上都不成功，则按byType的方式自动装配。@Component@Controller：web层@Service：service层@Repository：dao层这四个注解功能

2021-03-29 21:48:30 79

原创（废弃）数据仓库建模方法

数据仓库建模方法范式建模法，维度建模法，实体建模法范式建模法（Third Normal Form，3NF）

2021-03-17 21:49:31 133

原创 ETL

ETLExtract-Transform-Load的缩写，用来描述将数据从来源端经过抽取（extract）、转换（transform）、加载（load）至目的端的过程InformaticaKettle

2021-03-15 20:58:43 68

原创 Hadoop入门教程_笔记

spark在hadoop肩膀上可以让大数据飞的更高。一、总结1.概念Hadoop就是存储海量数据和分析海量数据的工具，是专为离线和大规模数据分析而设计的，其核心部件是HDFS与MapReduce。HDFS为海量的数据提供了存储。可以理解为一个分布式的，有冗余备份的，可以动态扩展的用来存储大规模数据的大硬盘。MapReduce为海量的数据提供了计算。可以理解成为一个计算引擎，按照MapReduce的规则编写Map计算/Reduce计算的程序，可以完成计算任务。2.怎么使用HadoopHadoo

2021-03-14 11:18:08 160

原创 git

1.常用命令清屏 clear切换到指定目录：cd E:cd java/狂神说_git/gitcode#查看系统configgit config --system --list　　#查看当前用户（global）配置git config --global --list2.从工作区到仓库区的命令git add .git commitgit push3.本地仓库搭建git init克隆远程仓库git clone [url] # https://gitee.com/kuangstu

2021-01-30 11:16:32 71

原创计算机网络

一、快速通道https://blog.csdn.net/weixin_45067603/article/details/106974036https://blog.csdn.net/weixin_42146136/category_10581354.html二、概述OSI参考模型各层次的传输单元应用层报文传输层报文段网络层IP数据报，分组（如果IP数据报太大就切割成分组）数据链路层帧物理层比特流三、物理层物理层解决如何在连接各种计算机的

2021-01-16 11:46:35 371

原创 Java简单算法

数组的复制、反转、查找、排序

2021-01-02 16:56:53 99

原创 java小笔记

一、数组数组的创建数组的内存解析算法：排序、反转、求最值、查找、递归二、对象堆：new 出来的结构、数组、对象栈：局部变量方法区：用于存储已被虚拟机加载的类信息、常量、静态变量、即时编译器编译后的代码等数据。方法的重载、重写4.6.2 可变形参的方法4.6.3 方法参数的值传递机制4.6.4 递归方法阶乘、斐波那契数列多态情况下，“看左边”：看的是父类的引用（父类中不具备子类特有的方法）“看右边”：看的是子类的对象（实际运行的是子类重写父类的方法）==和equals的区别

2021-01-02 14:43:26 84

原创数据结构

一、数据结构与算法的基本概念1.数据结构三要素逻辑结构：集合、线性结构、树形结构、图状结构或网状结构物理结构（存储结构）：顺序存储、链式存储、索引存储、散列存储数据的运算2.算法的基本概念时间复杂度、空间复杂度二、线性表1.顺序表用顺序存储的方式实现线性表顺序存储。2.单链表每个结点除了存放数据元素外，还要存储指向下一个节点的指针。3.双链表4.循环链表循环单链表、循环双链表5.静态链表分配一整片连续的内存空间，各个结点集中安置。6.顺序表和链表的比较逻辑结构：都属于线

2020-12-23 21:25:23 51 1

原创 4_mysql（主从复制）

一、主从复制1.介绍两台或以上数据库实例，通过binlog二进制日志，实现数据的“同步”关系。2.主从复制原理1. 从库：CHANGE MASTER TO，将ip、port、user、password、binlog、position写入到master.info进行记录2. 从库：START SLAVE，启动IO_THREAD和SQL_THREAD，3. 从库：IO_THREAD读取master.info信息，连接主库4. 主库：分配DUMP_THREAD线程响应从库，该连接为长连接5. 从库

2020-11-28 11:21:59 55 1

原创 3_mysql（事务、日志管理、备份恢复）

一、事务1. 事务的ACID特性A：atomicity，原子性，指事务是一个不可分割的工作单位，事务中的操作要么都发生（commit，提交），要么都不发生（undo，回滚）C：consistency，一致性，如果数据库在事务开始时处于一致状态，则在执行该事务期间将保留一致状态；一致性表示事务完成后，符合逻辑运算I：isolation，隔离性，多个用户并发访问数据库时，数据库为每一个用户开启的事务，不能被其他事务的操作数据所干扰，多个并发事务之间要相互隔离D：durability，持久性，一个事务

2020-11-25 21:15:54 153

原创 2_mysql（索引、存储引擎）

课程大纲：https://www.jianshu.com/p/edd2e20aeaee一、索引及执行计划1、

2020-11-15 10:23:02 134

原创 1_mysql（基础）

课程大纲：https://www.jianshu.com/p/edd2e20aeaee一、MySQL 体系结构与管理1、mysqld程序结构2、一条SQL语句的执行过程连接层（1）提供连接协议：TCP/IP 、SOCKET（2）提供验证：用户、密码，IP，SOCKET（3）提供专用连接线程：接收用户SQL，返回结果SQL层（重点）（1）接收上层传送的SQL语句（2）语法验证模块：验证语句语法,是否满足SQL_MODE（3）语义检查：判断SQL语句的类型DDL ：数据定义语言、D

2020-11-02 22:13:15 66

原创 mysql备忘录

1、DB、DBMS、sql 之间的区别2、约束：非空约束、唯一约束、主键约束（PK）、外键约束（FK）3、存储引擎：InnoDB

2020-10-24 14:32:39 98

原创 Mybatis02

一、Limit分页1、语法SELECT * FROM table LIMIT stratIndex，pageSize //第一个参数指定第一个返回记录行的偏移量，第二个参数指定返回记录行的最大数目 SELECT * FROM table LIMIT 5,10; // 检索记录行 6-15 #如果只给定一个参数，它表示返回最大的记录行数目： SELECT * FROM table LIMIT 5; //检索前 5 个记录行 #换句话说，LIMIT n 等价于 LIMIT 0,n。2、

2020-10-21 20:05:21 66

原创 Mybatis01

一、Mybatis介绍Mybatis官方文档 : http://www.mybatis.org/mybatis-3/zh/index.htmlGitHub : https://github.com/mybatis/mybatis-3二、1、

2020-10-18 10:21:30 72

原创 spring5

dddd

2020-10-11 15:12:55 134 1

原创 3_javaweb

1.jsp1.九大内置对象① jsp 四大域对象优先顺序分别是，他们从小到大的范围的顺序：pageContext ====>>> request ====>>> session ====>>> application② jsp 中的 out 输出和 response.getWriter 输出的区别我们在 jsp 页面中统一使用 out 来进行输出，避免打乱页面输出内容的顺序。out.write() 输出字符串没有问题out.print()

2020-09-20 09:37:26 155

原创 2_javaweb

1.Tomcat1.打开浏览器，在浏览器地址栏中输入以下地址测试：http://localhost:8080http://127.0.0.1:8080http://真实 ip:80802.如何部暑 web 工程到 Tomcat 中配置xml文件：<Contextpath="/abc"docBase=“E:\book”/>访问这个工程的路径如下:http://ip:port/abc/ 就表示访问 E:\book 目录3.IDEA 整合 Tomcat 服务器① java就是普通的用

2020-09-12 11:05:36 116

原创 1_javaweb

1.HTML1.超链接<body> <a href="http://localhost:8080">百度</a><br/><a href="http://localhos

2020-09-03 20:49:59 99

原创尚硅谷_宋红康_JDBC

JDBC核心技术讲师：宋红康微博：尚硅谷-宋红康第1章：JDBC概述1.1 数据的持久化持久化(persistence)：把数据保存到可掉电式存储设备中以供之后使用。大多数情况下，特别是企业级应用，数据持久化意味着将内存中的数据保存到硬盘上加以”固化”，而持久化的实现过程大多通过各种关系数据库来完成。持久化的主要应用是将内存中的数据存储在关系型数据库中，当然也可以存储在磁盘文件、XML数据文件中。[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-dQhhJ

2020-08-29 11:32:06 3047

原创 17_JDBC

1.获取数据库连接public void getConnection5() throws Exception{ //1.读取配置文件中的4个基本信息 //加载配置文件参考Java零基础教程_P646 InputStream is = ConnectionTest.class.getClassLoader().getResourceAsStream("jdbc.properties"); Properties pros = new Properties(); pros.loa

2020-08-29 11:31:31 88

原创 16.2_强大的Stream API

package com.atguigu.java3;import com.atguigu.java2.Employee;import com.atguigu.java2.EmployeeData;import org.junit.Test;import org.w3c.dom.ls.LSOutput;import java.util.ArrayList;import java.util.Arrays;import java.util.List;import java.util.strea

2020-08-22 15:00:28 254

原创 16.1_lambda

package com.atguigu.java1;import org.junit.Test;import java.util.ArrayList;import java.util.Comparator;import java.util.function.Consumer;/** * Lambda表达式的使用 * * 1.举例： (o1,o2) -> Integer.compare(o1,o2); * 2.格式： * -> :lambda操作符或箭头操作

2020-08-22 14:58:50 132

原创 16_Java8的其它新特性

1. Lambda表达式1.举例： (o1,o2) -> Integer.compare(o1,o2);2.格式：-> :lambda操作符或箭头操作符->左边：lambda形参列表（其实就是接口中的抽象方法的形参列表）->右边：lambda体（其实就是重写的抽象方法的方法体）总结：->左边：lambda形参列表的参数类型可以省略(类型推断)；如果lambda形参列表只有一个参数，其一对()也可以省略->右边：lambda体应该使用一对{}包裹；如

2020-08-22 14:56:54 67

空空如也

空空如也