自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

探索大数据世界 - 深入解析数据存储、分布式计算与人工智能

真正的大师,永远都怀着一颗学徒的心

  • 博客(86)
  • 收藏
  • 关注

原创 SPARKSQL3.0-Spark兼容多版本Hive源码分析

SPARKSQL3.0-Spark兼容多版本Hive源码分析

2022-12-01 16:09:29 2138

原创 SPARKSQL3.0-源码剖析全流程导读

SPARKSQL3.0-源码剖析全流程导读

2022-11-22 15:50:58 1111

原创 SPARKSQL3.0-各阶段自定义扩展规则源码剖析

SPARKSQL3.0-各阶段自定义扩展规则源码剖析

2022-11-22 15:46:35 1064 1

原创 SPARKSQL3.0-PhysicalPlan物理阶段源码剖析

SPARKSQL3.0-PhysicalPlan物理阶段源码剖析

2022-11-22 15:28:03 870 3

原创 SPARKSQL3.0-Optimizer阶段源码剖析

SPARKSQL3.0-Optimizer阶段源码剖析

2022-11-22 14:44:03 940 2

原创 SPARKSQL3.0-Catalog源码剖析

SPARKSQL3.0-Catalog源码剖析

2022-11-22 14:11:46 1146

原创 SPARKSQL3.0-DataFrameAPI与spark.sql()区别源码分析

SPARKSQL3.0-DataFrameAPI与spark.sql()区别源码分析

2022-11-22 11:15:49 881

原创 SPARKSQL3.0-Analyzer阶段源码剖析

SPARKSQL3.0-Analyzer阶段源码剖析

2022-11-21 18:58:46 987 4

原创 SPARKSQL3.0-Unresolved[Parsed]阶段源码剖析

SPARKSQL3.0-Unresolved[Parsed]阶段源码剖析

2022-11-21 17:47:03 814 1

原创 SPARKSQL3.0-SessionState构建源码剖析

SPARKSQL3.0-SessionState构建源码剖析

2022-11-21 16:23:38 766

原创 SPARKSQL3.0-Antlr4由浅入深&SparkSQL语法解析

SPARKSQL3.0-Antlr4由浅入深&SparkSQL语法解析

2022-11-16 18:47:16 2455 1

原创 Clickhouse-CPU内存资源优化配置

Clickhouse-CPU内存资源优化配置

2022-07-20 17:43:39 10731 3

原创 ClickHouse写入常见问题: too many parts解决方案

ClickHouse写入常见问题: too many part

2022-07-17 16:04:24 7914

原创 ClickHouse分布式表Distributed实操

ClickHouse分布式表Distributed实操

2022-07-17 12:31:14 3223

原创 ClickHouse副本表ReplicatedMergeTree实操

ClickHouse副本表ReplicatedMergeTree实操

2022-07-17 12:24:00 3083 4

原创 产品SDK化转型:标准化与机构个性化定制解决方案

在互联网行业中,企业通常可分为两大类别:2C和2B。对于2B企业而言,它们的产品往往以产品的形式提供给各个合作机构。以金融领域为例,一家2B金融公司通常将产品销售给各个银行和证券公司,这是2B领域常见的做法。然而,在与众多合作机构合作时,常常需要进行产品迭代和定制化功能的开发。这些定制化功能涉及到前端页面和后端接口,有些功能甚至不适合合并到主线产品中,而只能作为合作机构的特殊功能。随着合作机构的增加,一个产品可能需要兼容数十家银行,这使得面对众多定制化需求以及需求可能需要合并至产品的情况变得复杂。

2024-03-28 10:08:10 977

原创 Java SPI解读:揭秘服务提供接口的设计与应用

在 Java 编程中,SPI(Service Provider Interface)是实现**可插拔式**应用的一种机制。它就像是应用程序的魔法盒,让你可以随时添加新的功能实现,而不需搞得一团糟。通过SPI,我们可以在运行时**动态加载**具体的服务实现,这意味着你的应用程序可以像变戏法一样,轻松地变身成不同的形态。

2024-03-28 09:54:17 779

原创 Flink实操:Flink SQL实现SFTP文件读写操作

Flink实操:Flink SQL实现SFTP文件读写操作

2024-03-11 14:14:35 1097

原创 Flink实时数仓同步:实时表、流水表、快照表整合实战详解

Flink实时数仓同步:实时表、流水表、快照表整合实战详解

2024-03-11 13:53:25 1607

原创 Flink实时数仓同步:切片表实战详解

Flink实时数仓同步:切片表实战详解

2024-03-07 15:57:03 958

原创 Flink实时数仓同步:实时表实战详解

Flink实时数仓同步:实时表实战详解

2024-03-07 15:52:44 1135

原创 Flink实时数仓同步:快照表实战详解

在大数据领域,初始阶段业务数据通常被存储于关系型数据库,如MySQL。然而,为满足日常分析和报表等需求,大数据平台采用多种同步方式,以适应这些业务数据的不同存储需求。这些同步存储方式包括离线仓库和实时仓库等,选择取决于业务需求和数据特性。一项常见需求是,业务使用人员需要大数据分析平台中查看历史某一天的表数据,示例如下:

2024-02-02 17:24:57 1303

原创 Flink实时数仓同步:流水表实战详解

在大数据领域,初始阶段业务数据通常被存储于关系型数据库,如MySQL。然而,为满足日常分析和报表等需求,大数据平台采用多种同步方式,以适应这些业务数据的不同存储需求。这些同步存储方式包括离线仓库和实时仓库等,选择取决于业务需求和数据特性。一项常见需求是,大数据分析平台需要能够检索某张业务表的变更记录,并以每天为单位统计每条数据的变更频率。

2024-02-02 17:03:55 1110

原创 Flink实时数仓同步:拉链表实战详解

Flink实时数仓同步:拉链表实战详解

2024-01-19 14:17:26 948

原创 数仓日常维护:剖析每日增量同步的内部机制

数仓日常维护:剖析每日增量同步的内部机制

2024-01-19 14:16:10 856 3

原创 深入数仓离线数据同步:问题分析与优化措施

深入数仓离线数据同步:问题分析与优化措施

2024-01-19 14:15:29 1176

原创 企业级依赖管理: 深入解读 Maven BOM

企业级依赖管理: 深入解读 Maven BOM

2023-12-28 16:55:38 1048

原创 深入解析 Flink CDC 增量快照读取机制

深入解析 Flink CDC 增量快照读取机制

2023-12-26 14:54:27 1850 1

原创 Python虚拟环境指南:告别依赖地狱

Python虚拟环境指南:告别依赖地狱

2023-12-15 18:19:51 1033

原创 轻松操纵SQL:Druid解析器实践

轻松操纵SQL:Druid解析器实践

2023-12-08 18:12:17 1161

原创 解码 SQL:深入探索 Antlr4 语法解析器背后的奥秘

解码 SQL:深入探索 Antlr4 语法解析器背后的奥秘

2023-11-29 18:30:37 1394

原创 Git 与 Maven:企业级版本管理与版本控制规范设计

Git 与 Maven:企业级版本管理与版本控制规范设计

2023-11-24 17:51:38 1627

原创 深度探究依赖冲突 NoSuchMethodError 问题解决之道

深度探究依赖冲突 NoSuchMethodError 问题解决之道

2023-10-27 11:52:48 456

原创 一文搞懂到底什么是元宇宙【360技术团队】

一文搞懂到底什么是元宇宙

2023-10-09 16:20:47 85

原创 数据治理设计理论

数据治理是一种综合性的、系统性的数据管理过程,旨在确保组织内的数据质量、安全性、可用性和合规性。它涵盖了规划、制定政策、流程、标准以及监督执行这些政策、流程和标准的所有方面。数据治理的目标是建立健康的数据管理体系,使组织能够更好地管理、维护和利用数据资源。

2023-07-21 22:36:25 380

原创 数据仓库设计理论

数据仓库是一个用于集成、存储和分析大量结构化和非结构化数据的中心化数据存储系统。它旨在支持企业的决策制定和业务分析活动。

2023-07-21 22:26:27 3805

原创 数据仓库发展历史

数据仓库是企业中用于存储、整合和分析数据的关键组件。随着时间的推移,数据仓库经历了三代演化:从需求驱动到平台化、从平台化到智能(AI)化

2023-07-21 22:14:40 804

原创 数据仓库表设计理论

数据仓库表设计理论: 数仓顾名思义是数据仓库,其数据来源大多来自于业务数据(例如:关系型数据库),当设计数仓中表类型时(拉链表、增量表、全量表、流水表、切片表)时,应先观察业务数据的特点再设计数仓表结构

2023-07-21 21:20:46 2588

原创 ETL 组件Spark资源设置指导

ETL 组件Spark资源设置指导

2023-05-05 12:02:24 1602 1

原创 Arango资源评估公式

Arango资源评估公式

2023-04-23 15:14:28 149 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除