溜三丝耶-CSDN博客

原创数据仓库(二) 数仓理论（重点核心）

文章目录数据仓库(二) 数仓理论（重点核心）数仓分层数据仓库分层ODS层DWD层DWS层DWT层ADS层数据仓库分层的好处关系建模与维度建模关系建模维度建模星型模型雪花模型星型模型与雪花模型的区别星座模型模型的选择维度表和事实表（重点）维度表维度表的概念维表的特征举例 - 时间维度表事实表事实表的概念事实表的特征事实表的分类事务型事实表周期型快照事实表累积型快照事实表数据仓库建模（绝对重点）ODS层DWD层选择业务过程声明粒度确认维度确认事实小结DWS层DWT层ADS层数据同步策略全量同步策略增量同步策略新

2020-06-23 20:25:09 3450 7

原创数据仓库(一) 项目需求与架构设计

文章目录数据仓库(一) 项目需求与架构设计数据仓库概念项目需求及架构设计项目需求分析项目框架技术选型系统数据流程设计框架版本选型如何选择Apache/CDH/HDP版本？Apache框架版本服务器选型集群资源规划设计集群规模测试集群服务器规划数据仓库(一) 项目需求与架构设计数据仓库概念数据仓库(Data Warehouse)，是为企业所有决策制定过程，提供所有系统数据支持的战略集合。通过对数据仓库中数据的分析，可以帮助企业，改进业务流程，控制成本，提供产品质量等。数据仓库，并不是数据的最终目的

2020-06-21 21:51:34 1077

原创 Spark内核解析(三) Task级调度(源码解析)

文章目录Spark内核解析(三) Task级调度(源码解析)DAGScheduler -->TaskSchedulerTaskScheduler提交任务将TaskSetManager加入到调度队列RPC通知自身启动任务资源提供相关运行任务Executor执行任务总结Spark内核解析(三) Task级调度(源码解析)前面有篇博文已经讲解了基本的任务调度机制，这篇博文的目的是剖析Task级调度，来更好的理解Driver和Executor之间任务的分发。Task级调度比Stage级调度要复杂很多，这

2020-06-18 23:20:09 380

原创 Spark内核解析(二) 任务调度机制

文章目录Spark内核解析(二) 任务调度机制Spark 任务调度概述Spark Stage级调度涉及到Job提交的相关方法调用流程图以WordCount来举个例子小结Spark Task级调度TaskSetManager的结构调用流程图调度策略FIFO 调度策略FAIR 调度策略本地化调度失败重试与黑名单机制总结Spark内核解析(二) 任务调度机制在上一篇博文中，我们讲解了Spark Yarn-Cluster模式下的任务提交流程https://blog.csdn.net/Sarahdsy/art

2020-06-18 23:17:18 414

原创 Spark内核解析(一) Spark向Yarn提交应用(源码解析)

文章目录Spark内核解析(一) Spark向Yarn提交应用(源码解析)执行脚本提交任务执行提交操作解析参数提交使用提交的参数，运行child class的main方法准备提交环境通过类名加载这个类反射创建类的对象并进行类型转换运行childMainClass的start方法运行YarnClusterApplication封装参数创建客户端对象运行 - 提交应用配置JVM的启动参数向Yarn提交应用运行ApplicationMaster启动用户的应用线程阻塞，等待对象(SparkContext)的返回注册

2020-06-17 20:37:19 2070 6

原创第2章算法--程序的灵魂

算法是灵魂，数据结构是加工对象，语言是工具

2023-03-02 22:27:48 191

原创第一章程序设计和C语言

C语言基础知识，入门必备，适合2年以内工作经验或者初学者阅读

2023-03-01 10:13:53 224 1

原创 HBase优化

文章目录HBase优化预分区手动设定预分区生成十六进制序列预分区按照文件中设置的规则预分区使用JavaAPI创建预分区RowKey设计rowkey常用的设计方案生成随机数，hash，散列值字符串反转字符串拼接案例分析内存优化基础优化ZooKeeper会话超时时间设置RPC监听数量手动控制Major Compaction优化HStore文件大小优化HBase客户端缓存指定scan.next扫描HBase所获取的行数BlockCache占用RegionServer堆内存的比例MemStore占用RegionSe

2020-06-21 00:06:39 1126

原创 HBase进阶

文章目录HBase进阶RegionServer架构StoreFileMemStoreWALBlockCache写流程MemStore Flush读流程小结StoreFile CompactionRegion SplitRegion Split时机：其他的切分策略：Split流程小结HBase进阶总是找不到合适的开场白，哎。。。RegionServer架构StoreFile保存实际数据的物理文件，StoreFile以HFile的形式存储在HDFS上。每个Store会有一个或多个StoreF

2020-06-20 21:24:08 381 1

原创 HBase基础篇

文章目录HBase基础HBase定义HBase数据模型HBase逻辑结构HBase物理存储结构数据模型Name SpaceTableRowColumnTime StampCellHBase基本架构架构角色RegionServerMasterZooKeeperHDFSHBase基础GFS -> 高富帅MapReduce -> MR -> 名人BigTable -> BT -> ??HBase定义HBase是一种分布式，可扩展，支持海量数据存储的NoSQL数据库

2020-06-20 00:51:31 345

原创 Spark Streaming

[toc]Spark StreamingSpark Streaming 概述Spark Streaming 是什么Spark Streaming 使得构建可扩展的容错流应用程序变得更加容易Spark Streaming 无法实现真正的流式数据处理。使用了微批次数据处理。Spark Streaming 是一个准实时数据处理引擎。实时：数据处理的延迟在毫秒级进行响应离线：数据处理的延迟在小时，天，月，年进行响应批处理：数据处理的方式流式：数据处理的方式Spark

2020-06-19 00:05:50 532 1

原创 SparkSQL 核心编程

文章目录SparkSQL 核心编程新的起点DataFrame创建DataFrame从Spark数据源进行创建从RDD进行转换从Hive Table进行查询返回SQL语法DSL语法RDD转换为DataFrameDataFrame转换为RDDDataSet创建DataSetRDD转换为DataSetDataSet转换为RDDDataFrame和DataSet转换RDD，DataFrame，DataSet 三者的关系三者的共性三者的区别三者的互相转换IDEA开发SparkSQL用户自定义函数UDFUDAF弱类型

2020-06-13 19:23:01 707 1

Sarahdsy的博客