自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

原创 一名数据仓库工程师的自我修养

一名数据仓库工程师的自我修养第一次写文章该学的一些技术框架(注意,是必须要会啊。至于怎么学,之后帖子会写的。)第一部分:首先是工具类的介绍(划重点,要考的!!!!!!!)第二部分:编程语言类第三部分:数据仓库建模理论一、模型设计二、数仓分层第四部分:BI工具类第五部分:数据质量监控和元数据管理第六部分:结合实际的业务进行数据仓库建模(划重点!!!!!!)简单写个总结吧第一次写文章首先自我介绍一...

2019-10-21 21:44:05 7625 4

原创 数据岗位方向的职业走势

之前说了数仓开发的技术梳理,今天给大家做一些职业规划吧,包括要用到的技术栈。东西有点多,所以就用xmind的形式给大家了。数据工程师的知识图谱数据工程师的职责分工数据平台(弱业务、强技术)数据仓库(强业务、强宏观体系)数据分析(强业务、强分析)数据挖掘(强业务、强算法、强技术)数据工程师的发展建议热爱技术,选择平台或者算法热爱业务,选择分析或者仓库期望全面发展,推荐数据仓库...

2020-05-17 18:57:02 598

原创 数仓的理解(二)

四、OLAP&即席查询常见的OLAP场景&选型Druid 时序型数据的实时OLAP分析不关心事件明细数据产生速率快、原始数据量大以简单指标(sum/count/min/max)为主,去重指标不多(1~2个)Kylin 基于预计算支持固化查询:指标提取、多维分析、dashboard等查询模式比较固定、SQL表达数据规模大、指标数量多、高基数精确去重对响应时间要求比较严苛(TP99 < 3秒)Diros 基于MPP高性能计算提供灵活高效的OLAP分析[主要现场计算]

2020-05-10 17:01:37 530

原创 数仓的理解(一)

一、数仓的意义为什么要有数据仓库说起数据仓库存在的意义就必须得说企业面临的数据问题。结构复杂数据脏乱理解困难缺少历史总结一句话就是:多源异构、脏乱差的数据现象。数据仓库的价值体现效果诊断预警二、数据体系数据体系构成常见技术架构偏离线:适用于业务初期,迅速形成数仓雏形,快速交付满足业务离线+实时:适合业务中后期,形成扩展性极强的技术架构偏实时:适合特...

2020-05-05 15:28:24 1149

原创 计算每周第一天和最后一天

计算每周第一天和最后一天select day ,dayofweek(day) as dw1 ,date_add(day,1 - dayofweek(day)) ...

2020-04-13 14:13:00 807

转载 UDF解析json

Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。本文描述了HIve的一些基本操作,如有错误之处还请指出。常用语法#显示相关...

2020-03-08 21:45:14 665

转载 hive中UDF开发:解析json对象和解析json数组对象

  查阅hive的UDF函数指南可知,虽然udf中...

2020-03-08 21:38:57 634

原创 数据集市层面重构的一些再补充

优化目的主要分为以下几点:缩短画像整体的SLA。减少中间表层级。减少中间表数量。减少计算资源。减少存储资源。方便后续迭代。避免后续下游使用歧义,减少case。在重构过程中,可以从以下2个层面进行:数据治理层面表结构——在非必要情况下,尽可能不对表结构和字段名称进行更改。最大限度对下游使用无感知,以达到重构成本最低。字段命名——除去命名极其不规范,或对下游极易造成歧义的字...

2020-02-29 12:40:02 384

原创 关于数仓里画像层的构建的一些思考

写一些关于数据仓库里面,数据集市(画像层)的东西吧最近一直都没写文章,因为太忙了,公司很多事情,主要画像层的一些重构,搞得我死去活来,所以写一篇文章给大家分享一下,如何构建一个良好的数据集市。情况呢是这样的,现在有很多的B端画像(交易,流量,什么的这种),但是呢,这些个画像,几年前就构建好了,而且SQL写的极其复杂,导致SLA已经很晚了,所以要优化重构。我这里主要说几点吧。1.中间表尽量少—...

2020-02-15 11:59:06 332 2

原创 关于数据质量的自己一些想法

之前很多人都在催我,让我写一些关于数据质量管理的东西,今天就稍微整理一点吧(仅为个人意见,不喜勿喷。欢迎指点交流。)个人认为呢,数据质量管理(DQC)分为以下几点。一、表级别的监控可以用同环比之类的进行校验,根据实际业务情况设定告警阈值:比方说一些公司,工作日的订单和流量就是一般,而到了双休日就会猛增,此时如果仅仅用单纯的固定阈值来进行监控,(如:大于50%)。那对于事实表和数据集市的表...

2020-01-04 22:42:57 559

原创 给大家随便出点数仓面试题

#最近工作太忙了,有很多人和我说,哎呀博主啊,你这个是阉割了嘛,怎么就写了一篇啊,没下文了啊?其实不是的,最近工作真的是太忙了,到新公司,很多事情,而且家里事情很多。那现在就给大家出点数仓的面试题吧,希望帮到大家。之后具体的学习流程呢,我会出的。有时间一定出。##本面试题仅仅为本人和别人讨论下来的面试题,不作为任何公司的面试题。(如有雷同,纯属巧合)...

2019-12-26 14:04:19 1127

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除