4 大数据私房菜

我要认证

数据开发,欢迎交流!!! 微信公众号:大数据私房菜

等级
TA的排名 2w+

一文探究数据仓库体系(2.7万字建议收藏)

​一什么是数据仓库1.1数据仓库概念数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它出于分析性报告和决策支持目的而创建。1.2数据仓库特点1.2.1面向主题普通的操作型数据库主要面向事务性处理,而数据仓库中的所有数据一般按照主题进行划分。主题是对业务数据的一种抽象,是从较高层次上对信息系统中的数据进行归纳和整理。面向主题的数据可以划分成两部分--...

2020-10-19 10:02:41

HBase-Rowkey设计

​1什么是Rowkey Hbase中一条数据的唯一标识就是Rowkey,类似于关系型数据库中的主键,HBase中的数据是根据Rowkey的字典顺序来排序的。 那么这条数据存储于哪个分区,取决于Rowkey处于哪一个预分区的区间内,设计Rowkey的主要目的 ,就是让数据均匀的分布于所有的Region中,在一定程度上防止数据倾斜。尽量在访问的时候不会出现热点现象2什么是热点 因为HBase中的行是按照Rowkey的字典顺序排序...

2020-10-15 17:25:11

数据建模知多少?

​1前言 数据建模乍一听的时候感觉非常的有技术性,并且外行感觉非常的高大上,高深莫测。 在目前的时代下,数据量可以说是海量,并且还在持续增长,那么对于企业来说,如何快速的准确的从这些数据中获取自己想得到的信息呢?2什么是数据建模 数据建模简单来说就是基于对业务的理解,将各种数据进行整合和关联,并最终使得这些数据可用性,可读性增强,让使用方能快速的获取到自己关心的有价值的信息并且及时的作出响应,为公司带来效益。3为什么要建模 数据...

2020-10-09 21:33:12

如何写好一篇数据部门规范文档

​一 为什么要编写规范文档 部门技术沉淀 开发人员开发时必须遵守的规范,减少后续维护成本 新入职同事可以快速了解部门各流程规范,减少学习成本 二 如何编写规范文档(提供简易大纲)1 数据模型规范 1.1账户权限 1.1.1表查询权限 1.1.1.1服务器远程连接HIVE查询权限 1.1.1.2 即席查询权限 1.1.2表操作权限 ...

2020-10-09 21:30:05

如何优化整个数仓的执行时长(比如7点所有任务跑完,如何优化到5点)

​ 1前言 对于数据部门来说,数据的及时产出是需要保证的,数据产出时间过晚可能会影响公司正常运营,涉及运营团队,数据分析师团队,搜索团队等,也会影响公司高层的决策,甚至可能会带来用户的投诉。 那么,应该怎么做才能保证数据的及时产出甚至提前产出呢? 下面是小伙伴们的讨论,看样子大家都是很有心得的,加机器加内存加满,这位小伙伴肯定能拿提成,要不然不会下这么猛的药。言归正传,那么到底该怎么做呢.....这是个问题。...

2020-09-27 10:19:54

从0-1建设数仓遇到什么问题?怎么解决的?

这个应该算是比较高频的高级的面试题了,第一次听到这个面试题是几个月以前,朋友面试华为阿里滴滴啥的都有问到,近期老徐面微店蚂蚁美团都问到了,所以还是应该引起重视 在交流群发起这个话题的时候,有响应但是没啥答案,可能是因为大家都不是从0-1搭建数仓的,或者不是数仓方向的,所以大家都在等待有经验的人来讨论一下这个问题,等啊等,硬是没等到。 非常遗憾,我也没从0-1搭建过数仓,但是刚好遇到公司模型优化迁移以及数仓内部建设,所以就勉为其难来说说我的看法...

2020-09-27 10:18:24

多值维度及交叉维度最佳解决方案

​ 公众号:大数据私房菜1前言 正常情况下,维表和事实表之间是一对多的关系,维表中的一行记录会连接事实表中的多行记录,事实表中的一行记录在维度表中只能关联上一条记录,不会发生数据发散的现象 想法是美好的,但是事实总是不尽人意。因为现实中不但事实表和维度表之间存在多对多的关系,维度表和维度表之间也存在多对多的关系 这两种情况本质是相同的,但事实表和维度表之间的多对多关系少了唯一描述事实和维度组的中间维度。 对于这两种情况,一种称为...

2020-09-22 09:51:42

大表join小表,独钟爱mapjoin

在Hive调优里面,经常会问到一个很小的表和一个大表进行join,如何优化。​ Shuffle 阶段代价非常昂贵,因为它需要排序和合并。减少 Shuffle 和 Reduce 阶段的代价可以提高任务性能。 MapJoin通常用于一个很小的表和一个大表进行join的场景,具体小表有多小,由参数hive.mapjoin.smalltable.filesize来决定,该参数表示小表的总大小,默认值为25000000字节,即25M。 Hive0.7...

2020-09-22 09:50:27

数据质量那点事

​1数据质量基本概念 数据质量管理(Data Quality Management),是指对数据从计划、获取、存储、共享、维护、应用、消亡生命周期的每个阶段里可能引发的各类数据质量问题,进行识别、度量、监控、预警等一系列管理活动,并通过改善和提高组织的管理水平使得数据质量获得进一步提高 数据质量管理不是一时的数据治理手段,而是循环的管理过程。其终极目标是通过可靠的数据,提升数据在使用中的价值,并最终为企业赢得经济效益 2影响因素 数据问题的来源可能产生...

2020-09-15 18:01:23

你真的了解全量表,增量表及拉链表吗?

​1Mysql数据准备第一天 9月10号数据1,待支付,2020-09-10 12:20:11,2020-09-10 12:20:112,待支付,2020-09-10 14:20:11,2020-09-10 14:20:113,待支付,2020-09-10 16:20:11,2020-09-10 16:20:11第二天 9月11号数据1,待支付,2020-09-10 12:20:11,2020-09-10 12:20:112,已支付,2020-09-10 14:20:11,2020-09

2020-09-14 10:03:32

全方位解读星型模型,雪花模型及星座模型

​1背景 在多维分析的商业智能解决方案中,根据事实表和维度表的关系,又可将常见的模型分为星型模型,雪花型模型及星座模型。在设计逻辑型数据的模型的时候,就应考虑数据是按照星型模型,雪花型模型还是星座模型进行组织。2星型模型 星形模型中有一张事实表,以及零个或多个维度表,事实表与维度表通过主键外键相关联,维度表之间没有关联,当所有维表都直接连接到“事实表”上时,整个图解就像星星一样,故将该模型称为星型模型。星形模型是最简单,也是最常用的模型。由于星形模型只有一...

2020-09-14 10:01:08

sqoop or datax

​1前言 sqoop和datax作为2款优秀的数据同步工具,备受数据开发人员喜爱,如何选择也是件非常头疼的事,下面就这两种工具来分析分析吧...2sqoop1定义 sqoop 是 apache 旗下一款“Hadoop中的各种存储系统(HDFS、HIVE、HBASE) 和关系数据库(mysql、oracle、sqlserver等)服务器之间传送数据”的工具。 导入数据:MySQL,Oracle 导入数据到 Hadoop 的 HDFS、HIVE、HBASE 等...

2020-09-12 22:54:44

大厂高频面试题-连续登录问题

1背景 对于数据开发人员来说,手写sql是比较熟悉的了,就有这样一道题,面试时需要手写sql,这就是非常经典的连续登录问题,大厂小厂都爱问,这种题说简单也不简单,说难也不难,关键是要有思路。2真题hql统计连续登陆的三天及以上的用户这个问题可以扩展到很多相似的问题:连续几个月充值会员、连续天数有商品卖出、连续打车、连续逾期。数据提供 用户ID、登入日期 user01,2018-02-28 user01,2018-03-01 user01,2018-03-02 user...

2020-09-08 15:16:59

博客迁移至微信公众号了!!!

博客将不再更新,公众号已经更新了很多最新面试题 关注公众号即可获得免费学习资源,海量面试题,获得免费指导!!! 公众号后续将会持续更新clickhouse,sparkstreaming,flink,数仓建模,用户画像,实时计算,推荐系统,实时数仓等内容,感兴趣的朋友可以关注 不定期会有朋友的面经分享 微信公众号:大数据私房菜...

2020-08-28 17:32:41

朋友面试数据专家岗遇到的面试题

spark_1.X与spark_2.X区别 说说spark与flink datax与sqoop的优缺点 datax抽数碰到emoji表情怎么解决 工作中碰到什么困难,怎么解决的 未来5年的规划 如何用数据给公司带来收益 需求驱动和业务驱动,数据开发和ETL开发,实战型选手和博客型选手 如何用数据实现业务增长,黑客增长? 什么是大数据?千万级别的数据完全可以用传统的关系型数据库集群解决,为什么要用到大数据平台。 ...

2020-08-20 09:08:58

Spark之task序列化问题

一 问题现象二本质原因 封装数据的bean没有实现序列化 封装数据的bean需要写入本地磁盘和在网络中传输,没有实现序列化出出错 rdd的算子中传入的函数用到了外部引用类型,且没有实现序列化 本质原因的Task是在Driver端生成的,函数也是在Driver端定义的,但是真正执行是需要将Task和Task中引用都序列化,如果有没法序列化的,就会出现Task没有序列化异常三案例3.1在Driver端初始化一个ObjectDriver初始化一个ob...

2020-08-17 20:04:00

2020大数据面试真题(持续更新)

一.Hadoop二.Hive三.Spark四.Kafka五.Hbase六.Flink七.Java八.Elasticsearch九.Flume十.Sqoop十一.Z...

2020-04-02 17:14:11

如果不是那次面试,你也许不会意识到jvm的重要性

JVM它是Java Virtual Machine 的缩写,主要是通过在实际计算机模仿各种计算机功能来实现的,组成部分包括堆、方法区、栈、本地方法栈、程序计算器等,其中方法回收堆和方法区是共享区,也就是谁都可以使用,而栈和程序计算器、本地方法栈区是归JVM的。Java能够被称为“一次编译,到处运行”的原因就是Java屏蔽了很多的操作系统平台相关信息,使得Java只需要生成在JVM虚拟机运行的目标代码也就是所说的字节码,就可以在多种平台运行。一.运行时数据区域程序计数器 ...

2020-06-23 17:07:53

Spark处理数据倾斜,您读懂了吗?

前言本文是介绍的是开发spark极其核心的地方,可以说懂得解决spark数据倾斜是区分一个spark工程师是否足够专业的标准,在实际开发中,几乎天天面临这个问题。原理以及现象先来解释一下,出现什么现象的时候我们认定他为数据倾斜,以及他数据倾斜发生的原理是什么?比如一个spark任务中,绝大多数task任务运行速度很快,但是就是有那么几个task任务运行极其缓慢,慢慢的可能就接着报内存溢出的问题了,那么这个时候我们就可以认定他是数据倾斜了。接下来说一下发生数据倾斜的底层理论,其实可以非常肯

2020-06-16 09:18:01

Flink Kafka读取数据并写入Redis实现Exactly-Once

pom.xml<!--Licensed to the Apache Software Foundation (ASF) under oneor more contributor license agreements. See the NOTICE filedistributed with this work for additional informationregarding copyright ownership. The ASF licenses this fileto yo

2020-06-02 23:24:33

查看更多

勋章 我的勋章
  • 脉脉勋章
    脉脉勋章
    绑定脉脉第三方账户获得
  • 签到王者
    签到王者
    累计签到获取,不积跬步,无以至千里,继续坚持!
  • 新人勋章
    新人勋章
    用户发布第一条blink获赞超过3个即可获得
  • 阅读者勋章Lv3
    阅读者勋章Lv3
    授予在CSDN APP累计阅读博文达到30天的你,是你的坚持与努力,使你超越了昨天的自己。
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv4
    勤写标兵Lv4
    授予每个自然周发布9篇以上(包括9篇)原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。
  • 学习力
    学习力
    《原力计划【第二季】》第一期主题勋章 ,第一期活动已经结束啦,小伙伴们可以去参加第二期打卡挑战活动获取更多勋章哦。