自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

云祁QI

人生,海海,破浪前行。

  • 博客(590)
  • 资源 (2)
  • 收藏
  • 关注

转载 数仓实践:构建数仓高质量建设指标体系

大家好,我是云祁。一个企业的数据仓库或者数据中台建设,往往都需要经历前期混沌摸索的阶段,踩过无数的坑之后,才会逐渐建设完善,形成适合自己的一套数仓体系和建设规范。今天就和大家分享一篇构建高质量数仓的踩坑好文章~一、 大数据仓库较差的建设先来回忆一下数仓建设经常遇到的一些坑或现象。二、构建数仓建设质量指标体系还在为如何评估数仓建设质量而犯愁么?本文在常规的分层建设、划分主题外将带大家一起探索出了一条...

2023-07-11 21:03:01 654 1

原创 数仓实践:企业级 CDP 数据工程实践经验

大家好,许久未见,我是云祁~今天想和大家分享下企业级CDP项目建设中的数据工程实践。在很多情况下,大家可能会将数据工程与ETL的过程画上等号,但实际上ETL只是数据工程的一部分,其工作量通常仅占整个数据项目的30%左右。而一个数据工程项目,本质上是要解决三大问题:客户有什么?客户想要什么?怎样设计最合理?因此,在数据工程项目中,数据现状梳理、业务理解和数据模型设计等工作量通常占据了项...

2023-07-06 21:08:44 986 1

原创 企业级CDP数据工程实践(一):建设中的最佳实践

大家好,许久未见,我是云祁~今天想和大家分享下企业级CDP项目建设中的数据工程实践。在很多情况下,大家可能会将数据工程与ETL的过程画上等号,但实际上ETL只是数据工程的一部分,其工作量通常仅占整个数据项目的30%左右。而一个数据工程项目,本质上是要解决三大问题:客户有什么?客户想要什么?怎样设计最合理?因此,在数据工程项目中,数据现状梳理、业务理解和数据模型设计等工作量通常占据了项...

2023-07-06 21:08:44 172

转载 自我探索:2022年,拼命找到自己的使命

—1—使命(personal mission)是什么?到底、到底、到底什么是使命(mission)?有人说,使命就是“做什么”。愿景是“做成什么样”。这没错,但是这样的表述,会让人觉得使命和目标,工作范围,是差不多的意思,并没有真地讲清楚使命的“灵魂”。使命的灵魂是什么?我们常听说,“天将降大任于斯人也,必先苦其心志,劳其筋骨,饿其体肤,空乏其身,行拂乱其所为。”哇,...

2022-05-23 10:00:49 732 4

原创 数仓实践:浅谈 Kimball 维度建模

我们不管是基于 Hadoop 的数据仓库(如 Hive ),还是基于传统 MPP 架构的数据仓库(如 Teradata ),抑或是基于传统 Oracle 、MySQL 、SQL Server 关系型数据库的数据仓库,其实都面临如下问题:怎么组织数据仓库中的数据?怎么组织才能使得数据的使用最为方便和便捷?怎么组织才能使得数据仓库具有良好的可扩展性和可维护性?Kimball ...

2022-05-21 10:51:08 1296 1

转载 数据思考:数据驱动业务的四个层次

在实际工作中,不能驱动业务的数据分析是无效的。我们需要从数据出发,发现业务中不能直接发现的问题,辅助业务决策或者给出建议,这些建议和洞察能够切实推动业务的工作。这被称为数据驱动业务能力,是企业数据分析人员的关键能力。数据驱动业务可分为4个层级,辅助→协同→主导→洞察,从浅入深:level1 辅助数据辅助业务,支撑业务解决问题熟悉业务流程,掌握数据分析技能,能将数据和业务结...

2022-05-15 12:54:43 1606

原创 数仓实践:总线矩阵设计

如何设计一套切实可行的数据仓库呢?我们要明白,对于数据仓库的设计是不能完全依赖于业务的需求,但往往又必须要服务于业务的价值。因此,在构建数据仓库前,我们往往会通过总线矩阵设计,来快速理解业务并规划数据仓库体系。以求从宏观的角度来描述企业的业务和数据现状,并指导后续的数据仓库建模。不妨先来看看,祖师爷 Kimball 在书中对总线矩阵的定义:总线矩阵:提供一种分解企业DW/...

2022-05-10 21:30:26 2618

原创 数仓建设:数据域和主题域是什么关系?

为什么会有域的概念呢?首先来看看数据仓库的定义吧,数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。主题域已经体现出来了主题域用于将数据集市按照分析视角进行划分,通常是联系较为紧密的数据主题的集合。可以根据业务的关注点,将这些数据主题划分至不同的主题域。当然,还有另外一种说法。数据仓库是面向主题(数据综合、归类并进行分析利用的抽象)的...

2022-04-24 22:52:59 6265

转载 浅谈网易严选用户行为分析

在一二级市场萎靡的大环境下,新消费品的商业模式需要从早期的 流量-转化-留存 中解放出来,转而更专注于服务体验产品价值。商品品质和服务体验做得好,才能带来长期价值,要优于通过烧钱拉新的方式扩大短期规模。本文中数据均为脱敏/虚构数据。1商业模式在做用户分析前,通常需要对商业模式做一个基本的了解,我们先来看经典的5W1H问题。对于网易严选:Who:用户是谁?- 精品电商的用户...

2022-04-12 09:34:00 432

转载 基于阿里(OneData)的数仓体系建设

点击上方"蓝字"关注,“星标”一起成长本文目录:一、指导思想二、数据调研三、架构设计四、指标体系搭建五、模型设计六、维度设计七、事实表设计八、其他规范OneData 是阿里巴巴内部进行数据整合和管理方法体系和工具,其方法论对数仓建模依然有借鉴之处,一起来温故下来自《大数据之路:阿里巴巴大数据实践》的经验之谈吧。一、指导思想首先,要进行充分的业务调研和需求分析。其次,进...

2022-04-11 09:30:00 923

转载 数据架构建设方法及案例

数据架构的本质是数据模型和数据流(或叫数据分布),《华为数据之道》将数据架构分为数据资产目录、数据标准、数据模型及数据分布,DAMA将数据架构分为数据模型和数据流设计,差不多就是这个意思。但数据架构到底如何构建?有没有现成的案例可以参考呢?今天就结合企业管理信息域MSS具体案例跟大家讲一讲数据架构建的建设方法论,主要分为五个步骤:架构现状分析、数据实体梳理、数据主题域划分...

2022-04-08 09:30:00 3374

转载 来看看 ETL 和数仓建模的设计思路!

点击上方"蓝字"关注,“星标”一起成长什么是ETL?ETL是数据抽取(Extract)、转换(Transform)、加载(Load )的简写,它是将OLTP系统中的数据经过抽取,并将不同数据源的数据进行转换、整合,得出一致性的数据,然后加载到数据仓库中。简而言之ETL是完成从 OLTP系统到OLAP系统的过程数据仓库的架构数据仓库(Data Warehouse \ D...

2022-04-07 09:30:00 652

转载 关于数仓建设及数据治理的超全概括

进入主页,点击右上角“设为星标”比别人更快接收好文章本文分为两大节介绍,第一节是数仓建设,第二节是数据治理,内容较长,还请耐心阅读!在谈数仓之前,先来看下面几个问题:数仓为什么要分层?用空间换时间,通过大量的预处理来提升应用系统的用户体验(效率),因此数据仓库会存在大量冗余的数据;不分层的话,如果源业务系统的业务规则发生变化将会影响整个数据清洗过程,工作量巨大。通过数据分...

2022-04-05 09:30:00 744

转载 用户运营指标体系建设实践 by 千冰仪

一、用户运营做什么?企业的生存和发展的根本是用户,用户的规模和增速可以决定一个公司的生死存亡。所以,各行各业,不管在做什么业务,都绕不开对用户的运营。今天主要讲讲,对于电商行业,用户运营主要做什么,如何构建数据化驱动的用户运营指标体系。数据指标体系的规划设计之前,必须要先搞清楚业务过程,“业务数据化,数据业务化”,强调的是数据和业务紧密的关系。对于用户运营来说,主要在做什...

2022-04-02 09:30:00 551

转载 淘宝APP用户行为数据分析 by 一只废鹅

大家好,我是云祁!今天和大家分享一篇淘宝用户行为数据分析的文章,干货内容值得收藏。一. 提出问题和应用模型1.本次分析的目的是想通过对淘宝用户行为进行数据分析,为以下问题提供解释和改进建议:(1)分析用户使用APP过程中的常见电商分析指标,确定各个环节的流失率。(2)利用假设检验思想分析流失原因,找到需要改进的环节。(3)研究用户在不同时间尺度下的行为规律,分析不同尺度下...

2022-03-31 09:30:00 2267 1

原创 如何构建用户画像,给用户打“标签”?

前言大家好,我是云祁!和大家分享一本近期读完的非常不错的技术书籍,赵宏田老师的《用户画像:方法论与工程化解决方案》。用户画像是目前在技术公司广泛使用的技术,是根据客户人口统计信息、社交关系、偏好习惯和消费行为等信息而抽象出来的标签化画像。常常用在精准营销、圈定人群、发送短信消息、APP弹窗等等,用户画像的准确性往往会直接影响运营的效果和获客成本。用户画像另一个不太为普通人所知的用处是风控,建设用户画像是互联网金融领域风险控制的基础和关键,直接影响到公司的营收。这本书整体介绍了用户画像的实现方案.

2022-03-27 23:35:06 6690

转载 知乎用户画像与实时数据架构实践

大家好,我是云祁!今天和大家分享知乎侯容老师关于用户画像和实时数据架构实践的干货。侯容:知乎数据赋能组 Leader,主要负责实时数据、用户理解方向。一、前言‍‍‍‍‍‍‍‍知乎业务中,随着各业务线业务的发展,逐渐对用户画像和实时数据这两部分的诉求越来越多。对用户画像方面,期望有更快、更准、更方便的人群筛选工具和方便的用户群体分析能力。对于实时数据方面,期望拥有可以实时响...

2022-03-25 09:30:00 1001

原创 人生海海,山山而川,不过尔尔。

《人生海海》这是一本书的名字,似乎是有点奇怪的书名。它是茅盾文学奖得主麦家老师耗时8年,经过5年打磨的最终呈现。身处互联网的我,最近两年总感觉焦虑与无奈。偶然看到这本书的预售,腰封上写着 “人生海海,敢死不是勇气,活着才需要勇气。你要替我记住这句话,我要不选到它,死几回都不够。” ,被这句话深深吸引,迫切想要读一读这本书。整本书围绕着主人公——蒋正南(有人叫他“上校”,也有人叫他“太监”)在时代穿行缠斗的一生,他是救死扶伤的“金一刀”,亦是深入虎穴的抗日英雄,同样也是乡亲们眼中无所不能的神人。他这一.

2022-03-23 23:05:17 1213

转载 开源大数据 OLAP 引擎最佳实践

本篇内容将通过六个部分来介绍开源大数据OLAP引擎最佳实践。01开源OLAP综述 如今的开源数据引擎多种多样,不同种类的引擎满足了我们不同的需求。现在ROLAP计算存储一体的数据仓库主要有三种,即StarRocks(DorisDB),ClickHouse和Apache Doris。应用最广的数据查询系统主要有Druid,Kylin和HBase。MPP引擎...

2022-03-23 09:30:00 415

原创 Hive 调优集锦,让 Hive 调优想法不再碎片化

一、前言1.1 概念Hive 依赖于 HDFS 存储数据,Hive 将 HQL 转换成 MapReduce 执行,所以说 Hive 是基于Hadoop 的一个数据仓库工具,实质就是一款基于 HDFS 的 MapReduce 计算框架,对存储在HDFS 中的数据进行分析和管理。1.2 架构1.用户接口:ClientCLI(hive shell)、JDBC/ODBC(java访问hive)、WEBUI(浏览器访问hive)2.元数据:Metastore元数据包括:表名、表所属的数据库(默认

2022-03-23 00:03:40 1023

原创 我的2021年终回顾:一如少年,眼眸有星辰,心中有山海

大家好,我是云祁。好久不见呀~

2022-01-03 23:23:44 848 1

转载 搞了三年,再看数据中台的价值与解决方案

一、数字化转型面临的痛点问题1.指标口径不统一产品部门和财务部门一起开会给老板汇报,APP下单用户数产品1021W,财务1000W,产品说我的数据是数据团队出的,财务说我的也是,那数据为什...

2021-12-17 21:00:00 865 1

转载 终于有人把大数据架构讲明白了

导读:如何存储、如何利用大规模的服务器集群处理计算才是大数据技术的核心。作者:李智慧来源:大数据DT(ID:hzdashuju)大数据技术其实是分布式技术在数据处理领域的创新性应用,其本质...

2021-12-16 21:51:27 366

转载 数据开发的技术提升之道

数据开发的技术提升之道|0x00 数据开发数据开发在大型互联网公司中,通常是贴近业务的角色,因为数据相关的工具,比如开发工具、监控工具、血缘工具、质量工具,都做的非常完善了,甚至能够对外提...

2021-12-08 21:54:54 315

转载 数据治理:商品主数据怎么管?

来源:谈数据,作者:石秀峰全文共3096个字,建议阅读5分钟Hi,大家好!之前写过一篇文章《一文讲透,工业企业的物料主数据管理》,时隔了一年多,突然公众号后台收到一条消息:石老师看了您工业...

2021-12-06 22:35:55 675

转载 125页PPT看完《华为数据之道》

随着数字化转型的深入开展,数据成为新的生产要素。对于非数字原生企业,数据治理的重要性越来越突出。如何有效地开展数据治理工作、提升数据质量、打破数据孤岛、充分发挥数据的业务价值,成了业界的热...

2021-11-25 22:30:00 2621 1

转载 数据中台的OneID是个什么鬼,主数据它不香吗?

来源:谈数据,作者:石秀峰全文共3188个字,建议阅读6分钟如题!这个问题一直困扰了我很久,在阿里的数据中台中,有三个主要的组成部分OneID、OneData和OneService。我之前...

2021-11-23 21:00:00 2674

转载 信息化、数字化与数字化转型的区别,终于有人讲明白了

作者:唐湘民来源:大数据DT(ID:hzdashuju)在信息化时代,人们的活动是在物理世界进行的,借助信息技术提高效率。信息化是为物理世界活动服务的,例如出租车管理系统是为出租车运营服务...

2021-11-22 21:00:00 517

转载 中台的本质及中台建设的4点思考

导读:“中台”现在是很热的一个词,朋友圈都在说,而且是一说就是好评,每天都有几个朋友四处打听,特别着急,感觉像是业绩距离坐上飞机,就差一个中台。大家迫不及待,不过请等一下,在开始之前,我们...

2021-11-09 10:54:23 296

转载 数据分析避坑指南-小白兔踩坑记

从一开始的数据分析“小白兔”,不断进坑、弹跳出坑,练就健壮有力的小腿,逐步变成一只拥有了防御能力、没有那么弱小的“小灰兔”。成长和职业发展的过程,就是进阶打怪的过程。进阶初始,由于经验不足...

2021-11-01 22:07:36 475

转载 数据开发如何巧妙解决业务问题

数据开发如何巧妙解决业务问题|0x00 数据研发的技能栈“你的价值是什么?”这可能是做数据的同学,最经常被问到的问题。早期数据从业者是比较开心的,能够应用Hadoop框架做工具,就已经能够...

2021-10-27 11:26:54 289

转载 Hive 知识体系保姆级教程

Hive涉及的知识点如下图所示,本文将逐一讲解:正文开始:一. Hive概览1.1 hive的简介Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并...

2021-10-24 22:15:52 1908

原创 数据能力的构建过程

数据能力的构建过程|0x00 数据能力是什么我们经常问自己“什么是数据能力,数据能力如何构建”?我想,没有哪个业务,一开始就是明确知道自己想要什么,都是经过一定时间的摸索之后,才能积累出丰...

2021-10-10 15:15:46 319

转载 关于《数据仓库知识体系》的超全指南(建议收藏)

文章很长,前言一定要看拥有本篇文章,意味着你拥有一本完善的书籍,本篇文章整理了数据仓库领域,几乎所有的知识点,文章内容主要来源于以下几个方面:源于资深数据仓库工程师的交流讨论,如《sql行...

2021-10-09 20:28:00 1350

转载 就一个数据人,老板说要搞数据中台......

我曾经自诩数据界的脱口秀达人,直到我遇上了这帮数据彭友......在这燥热的夏天,把我笑得跟泥潭里的猪一样叫起因是这样的。在彭友会的一个群里,有个哥们问了这样一个问题:这哥们实在是太惨了!...

2021-09-23 21:00:00 157

原创 “年少当攀第一流,恰如明月冠中秋”

大家好啊,又是一年中秋节,云酱先在这里祝大家阖家团圆,中秋快乐啦。连轴转的半个月,今天假期终于有时间稍稍休息下。(没错,我的半天假期才刚刚开始 )上周上海那边项目刚刚完成 UAT,马不停蹄...

2021-09-21 14:46:14 1391

转载 数据中台为什么要建标签体系,分类它不香吗?

来源:谈数据,作者:石秀峰全文共3678个字,建议阅读6分钟大家好,我是云祁,好久不见????最近一直忙于新工作填坑 ing ...原创更新的频率变低了不少,掐指一算上一篇原创 emmmm...

2021-09-14 19:33:09 329

转载 主数据项目实施方法与核心步骤

点击上方"云祁QI"关注,“星标”一起成长01 主数据定义与主数据项目先说说数据的层次模型,根据数据的特征、作用以及管理需求的不同,将数据分为6个层次,即:元数据、引用数据、企业结构数...

2021-09-06 12:55:00 997

原创 如何快速构建自己的数据中台知识体系

最近订阅学习了《数据中台实战课》专栏,一口气学完之后,做了一些总结笔记形成此文,特分享与你,希望对你有所帮助!本文为上半部分,主要总结了数据中台的核心要点。

2021-07-14 13:16:38 613 2

原创 如何优雅的设计DWS层?

对于数仓的分层,大家最耳熟能详的就是基于OneData方法论的三层数仓划分,分别是:数据引入层(ODS,Operational Data Store)、数据公共层(CDM,Common Dimenions Model)和数据应用层(ADS,Application Data Store)。​当然,涉及到每一层具体该怎么建模,可能大家都有自己的理解。数据建模无疑是重中之重,如果我们把指标比作树上的果实,那么模型就好比是大树的躯干,想让果实结得好,必须让树干变得粗壮。​我们先来回想下,构建数据中台的初衷是

2021-06-30 09:46:17 1315 3

阿里云云计算ACP.xmind

阿里云云计算ACP认证学习思维导图,个人整理的,分享给大家。阿里云云计算专业认证考试(Alibaba Cloud Certified Professional,ACP)是面向使用阿里云云计算产品的架构、开发、运维人员的专业技术认证。

2020-05-27

阿里云大数据ACP.xmind

阿里云大数据ACP认证考试思维导图,本人学习考证过程中亲自整理的,耗时一周,都是精华所在,阿里云大数据ACP考试认证应该会有帮助。

2020-05-22

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除