自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(18)
  • 收藏
  • 关注

转载 如何写好一篇数据部门规范文档

一 为什么要编写规范文档部门技术沉淀开发人员开发时必须遵守的规范,减少后续维护成本新入职同事可以快速了解部门各流程规范,减少学习成本二 如何编写规范文档(提供简易大纲)1 数据模型规范1.1 账户权限1.1.1 表查询权限1.1.1.1 服务器远程连接HIVE查询权限1.1.1.2 即席查询权限1.1.2 表操作权限1.1.2.1 表创建权限1.1.2.2 表删除1.1.2.3 分区删除1.1.2.4 数据写入1.1.2.5 TRUNCATE权限1.1.3 UDF函数创建权限

2020-10-14 10:22:15 276 1

转载 多对多维度或多值维度-桥接表

多对多维度或多值维度维度表和事实表之间的标准关系是一对多关系,这意味着维度表中的一行记录会连接事实表中的多行记录,但是事实表中的一行记录在维度表中只关联一行记录。这种关系很重要,因为它防止了重复计数。幸运的是,在大多数情况下都是这种一对多关系。在现实世界中还存在比一对多关系更复杂的两种常见情况:事实表和维度表之间的多对多关系。维度表之间的多对多关系。这两种情况本质是相同的,但事实表和维度...

2020-04-13 10:22:56 2719

转载 缓慢变化维 (Slowly Changing Dimension) 常见的三种类型及原型设计

缓慢变化维 (Slowly Changing Dimension) 常见的三种类型及原型设计:https://www.cnblogs.com/xqzt/p/4472005.html

2020-04-10 19:08:34 1271

原创 hadoop集群角色部署安装(阿里云)

版本信息如下:HDFS 2.8.5YARN 2.8.5HIVE 3.1.1GANGLIA 3.7.2ZOOKEEPER 3.5.5SPARK 2.4.3HUE 4.4.0ZEPPELIN 0.8.1TEZ 0.9.1PRESTO 0.221SQOOP 1.4.7PIG 0.14.0RANGER 1.2.0Flink 1.7.2FLUME 1.8.0Knox 1.1...

2020-04-09 23:30:54 316

转载 美团点评酒旅数据仓库建设实践

美团点评酒旅数据仓库建设实践:https://tech.meituan.com/2017/05/26/hotel-dw-layer-topic.html

2020-04-09 16:57:42 213

原创 数仓开发代码git管理规范

2020-04-09 16:55:07 219

原创 资深大数据工程师技术栈

2020-04-09 10:57:25 324

原创 基本的bash shell命令

/etc/passwd 文件包含了所有系统用户账户列表以及每个用户的基本配置信息。示例:df -Thman 命令用来访问存储在Linux系统上的手册页面如何不记得命令名怎么办?可以使用关键字搜索手册页。语法是:man -k 关键字。例如,要查找与终端相关的命令。可以输入man -k terminal。Linux文件系统介绍...

2019-09-07 22:55:06 212

转载 java内存分配和String类型的深度解析

一、引题在java语言的所有数据类型中,String类型是比较特殊的一种类型,同时也是面试的时候经常被问到的一个知识点,本文结合java内存分配深度分析关于String的许多令人迷惑的问题。下面是本文将要涉及到的一些问题,如果读者对这些问题都了如指掌,则可忽略此文。1、java内存具体指哪块内存?这块内存区域为什么要进行划分?是如何划分的?划分之后每块区域的作用是什么?如何设置各个区域的大小?...

2019-08-30 10:28:23 140

原创 Linux Shell全面学习

嘎嘎嘎

2019-08-27 23:50:00 132

原创 HDFS机架感知原理

MapReduce现在只是在HDFS之上处理Hive的一种方式。 MapReduce是一种传统的面向批量任务的处理框架借助机架感知想HDFS写入块:最后一次写入是为了减少网络流量,因为在一个机架内的节点之间进行IO通信要比在不同机架的节点之间快得多。...

2019-04-14 10:22:06 440

原创 数据管理之计算管理

系统优化在任务稳定的情况下,可以考虑基于任务的历史执行情况进行资源评估, 即采用HBO (History-Based Optimiz町, 基于历史的优化器)。CBO (Cost-Based Optimizer , 基于代价的优化器),首先会想到 Oracle 的 CBO 。 Oracle 会根据收集到的表、分区、索引等统计信息来计算每种执行方式的代价( Cost ),进而选择其中最优的执行方式...

2019-04-03 22:43:01 617

原创 物联网专业名词

MQTT介绍与使用:https://www.cnblogs.com/sxkgeek/p/9140180.htmlMQTT协议MQTT(Message Queue Telemetry Transport) 遥测传输协议,其主要提供了订阅/发布两种消息模式,更为简约、轻量,易于使用,特别适合于受限环境(带宽低、网络延迟高、网络通信不稳定)的消息分发,属于物联网(Internet of Thing)...

2019-04-03 22:42:37 9643

原创 数据管理之元数据

元数据概述元数据定义按照传统的定义,元数据( Metadata )是关于数据的数据。元数据打通了源数据、数据仓库、数据应用,记录了数据从产生到消费的全过程。元数据主要记录数据仓库中模型的定义、各层级间的映射关系、监控数据仓库的数据状态及 ETL 的任务运行状态。将元数据按用途的不同分为两类:技术元数据( Technical Metadata)和业务元数据( Business Metada...

2019-03-31 09:59:54 494

原创 维度建模的事实表设计

事实表基础事实表特性事实表作为数据仓库维度建模的核心,紧紧围绕着业务过程来设计,通过获取描述业务过程的度量来表达业务过程,包含了引用的维度和与业务过程有关的度量。事实表中一条记录所表达的业务细节程度被称为粒度。通常粒度可以通过两种方式来表述:一种是维度属性组合所表示的细节程度:一种是所表示的具体业务含义。作为度量业务过程的事实(事实表属性),一般为整型或浮点型的十进制数值,有可加性、半可...

2019-03-29 09:32:35 3441

原创 关系型数据库增量数据同步调研

业务需求:需要将Mysql,sqlServer两种数据库的增量数据进行同步。调研工具主要调研Flume、Sqoop、Canal三种数据同步工具。工具的优缺点Flume优点:○1利用Flume采集关系数据库表数据最大的优点是配置简单,不用编程;○2再有该方案采用普通SQL轮询的方式实现,具有通用性,适用于所有关系库数据源。缺点:○1在源库上执行了查询,具有入侵性;○2通过轮询的方...

2019-03-15 16:01:48 705

转载 Sqoop数据迁移

学习地址:https://www.cnblogs.com/qingyunzong/p/8807252.html#_label01.概述sqoop 是 apache 旗下一款“Hadoop 和关系数据库服务器之间传送数据”的工具。导入数据:MySQL,Oracle 导入数据到 Hadoop 的 HDFS、HIVE、HBASE 等数据存储系统导出数据:从 Hadoop 的文件系统中导出数据到关...

2019-03-14 18:30:01 188

原创 EI企业智能

名词解释EI:(Enterprise Intelligence)企业智能DIS: (Data Interface Service)数据接入服务CDM:(Cloud Data Migration)云数据迁移MRS: (MapReduce Service) 大数据集群云服务DLI: (Data Lake Insight)数据湖探索CloudTable: 表格存储服务DWS:(Dat...

2019-03-13 18:31:31 443

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除