2 孟知之

尚未进行身份认证

我要认证

知之为知之

等级
TA的排名 10w+

数据中台学习摘录-关键支撑技术

文章目录1. 元数据管理1.1 数据地图1.2 指标管理1.2.1 现状:指标混乱1.2.2 规范化定义指标1.2.3 构建全局的指标字典2. 数据模型设计3. 数据质量3.1 提高数据质量方法4. 成本优化5. 数据安全6. 数据研发流程管理1. 元数据管理数据中台的支撑技术大致可以分为元数据管理,指标管理,模型设计,数据质量等。首先先说说在数据中台占首要位置的元数据管理。在提到数据中台的构建,必然提到元数据,那元数据都涉及什么呢?比如,为了确保全局指标的业务口径一致,要把原先口径不一致的、重复的指

2020-06-22 15:17:36

数据中台学习摘录-数据中台建设

文章目录1 数据中台建设1.1 数据只处理一次1.2 数据即服务1.3 数据中台方法论总结1 数据中台建设1.1 数据只处理一次在未做数据中台之前,每个部门都会有一些小的数仓去完成本部的数据分析任务。而数据中台就是要在整个业务形成一个公共数据层,消灭这些跨部门的小数仓,实现数据复用,强调的是数据只加工一次。那么要实现数据只加工一次,需要做五个方面的工作:分主题域管理命名规范定义指标一致数据模型复用数据完善1.2 数据即服务数据中台的数据用该是通过API接口的方式被访问。这么做有什

2020-06-19 16:17:41

anaconda上GUI启动zsh环境终端错误

很久没有在mac上折腾tensorflow了,用anaconda的GUI来登终端,出现了问题。之前其实遇到过,但是忘了怎么处理了。具体处理方法参考:https://iaside.com/archives/455第一步,打开iterm2,切换bash环境。bash第二步,手动启动环境。source activate tensorflow37(虚拟环境名)搞定!...

2020-06-16 16:56:55

数据中台学习摘录-数据采集

文章目录1. 数据采集1.1 日志采集1.2 数据同步1.2.1 批量数据同步1.2.2 实时数据同步1.3 数据同步遇到的问题与解决方案1. 数据采集1.1 日志采集数据采集为大数据系统体系的第一环,建立一套标准的数据采集体系方案,可以全面、高性能、规范地完成海量数据的采集,并将其传输到大数据平台。数据采集分为日志采集和数据库同步两部分,其中日志采集主要指的是埋点数据,其数据来源可来自浏览器与无线客户端。《阿里大数据之路》书中分享了两个案例,分别对应了两个思想。日志分流与定制处理考虑到阿里日

2020-06-14 18:47:02

数据中台学习摘录-纵观数据中台

文章目录1. 做数据中台的前提1.1 那如何如何挖掘业务的痛点呢?1.2 推进数据中台项目落地这段时间将极客时间上的网易的《数据中台实践》与《阿里的大数据之路》粗略的看了一遍(两本书写的内容涉及面非常之多,也有很多细节没有展开,但都是非常好的数据中台指南,两本内容侧重点不同,网易的更偏实践,阿里更偏理论,都适合放在案台用作工具书翻看),也将整个数据架构梳理了一遍,对数据中台有了更深层次的理解,也看清了数据中台在整个公司中的战略位置。下面我将梳理一些我所学到,理解的数据中台及实现方案。首先,先说明结论,数

2020-06-07 12:04:39

Redis要点总结

文章目录1. 缓存穿透1.1 带来的问题1.2 解决办法1.2.1 缓存空值1.2.2 BloomFilter1.2.3 如何选择2. 缓存击穿2.1 带来的问题2.2 解决办法3. 缓存雪崩3.1 解决办法3.1.1 事前:使用集群缓存,保证缓存服务的高可用3.1.2 事中:使用 ehcache 本地缓存 + Hystrix 限流&降级 ,避免 MySQL 被打死的情况发生3.1.3 事后:开启 Redis 持久化机制,尽快恢复缓存集群4. 热点数据集中失效4.1 解决办法4.1.1 设置不同的失

2020-06-01 10:19:40

Spark和Hive中数据倾斜的情况分析及解决方案

文章目录1. 数据倾斜是什么2. 数据倾斜的表现2.1 Hive中的数据倾斜2.2 spark中的数据倾斜3. 数据倾斜的原因3.1 Shuffle3.2 数据本身3.3 业务逻辑4. 数据倾斜的解决方案5.举个栗子5.1 由空值造成的数据倾斜5.2 count(distinct)的倾斜问题5.3 不同数据类型关联产生数据倾斜5.4 小表不小不大,怎么用 map join 解决倾斜问题6.总结1. 数据倾斜是什么数据倾斜就是我们在计算数据的时候,数据的分散度不够,导致大量的数据集中到了集群中的一台或者几

2020-05-23 22:58:20

Hive外部表的适用场景及原因

在实际的生产环境中,建议在ods层使用外部表。原因:外部表不会加载数据到Hive的默认仓库(挂载数据),减少了数据的传输,同时还能和其他外部表共享数据。使用外部表,Hive不会修改源数据,不用担心数据损坏或丢失。Hive在删除外部表时,删除的只是表结构,而不会删除数据。...

2020-05-23 22:57:14

Flink要点总结

文章目录1. 什么是Flink?2. Flink的组件栈3. Flink集群运行时的角色及其作用4. Flink分区策略5. Flink容错机制6. Flink计算资源的调度是如何实现的?1. 什么是Flink?Flink 是一个框架和分布式处理引擎,用于对无界和有界数据流进行有状态计算。并且 Flink 提供了数据分布、容错机制以及资源管理等核心功能。Flink 提供了诸多高抽象层的 API 以便用户编写分布式任务:DataSet API, 对静态数据进行批处理操作,将静态数据抽象成分布式的数据集

2020-05-21 00:12:03

Hbase数据读取与写入过程

文章目录1. 特点2. Hbase数据读取与数据写入2.1 数据读取2.2 数据写入HBase是一个高可靠性,高性能,面向列、可伸缩的分布式存储系统,利用HBase技术可以在廉价的PC Sever上搭建起大规模结构化存储集群。1. 特点海量存储,适合存储PB级别的海量数据,在PB级别的数据以及采用廉价pc存储的情况下,能在几十到百毫秒内返回数据。列式存储,HBase是根据列族拉开存储数据的,列族下面可以有非常多的列,列族在创建表的时候就必须制定。极易扩展,其扩展性主要表现在两个方面,一个是基础上

2020-05-20 09:37:52

实时计算相关问题及解决方案

文章目录1. 怎么处理 Spark structured streaming 慢速变化数据 join 的问题?2. kafka不稳定导致Spark Streaming不稳定1. 怎么处理 Spark structured streaming 慢速变化数据 join 的问题?问题:从 MySQL 的一个表里面提取 metadata 然后和 structured streaming 的实时数据做 ...

2020-05-07 09:22:04

Hbase Rowkey设计-总结与举个栗子

文章目录Hbase RowKey设计三个设计原则及相应实现方法其他经验举个栗子Hbase RowKey设计想要设计一个合适的Rowkey,首先需要了解Hbase通过RowKey检索数据的三种方式:通过单个row key访问:即按照某个row key键值进行get操作;通过row key的range进行scan:即通过设置startRowKey和endRowKey,在这个范围内进行扫描;...

2020-04-24 20:43:40

AB测试&&灰度发布

文章目录AB测试灰度测试(发布)AB测试所谓的AB测试其实与高中生物中实验对照组的概念一样,主要就是将实验对象进行分桶。打个比方,可以假设实验对象为用户,那么AB测试主要就是将实验对象进行分桶,即将实验对象分成实验组和对照组,对实验组的用户施以新模型,对对照组的用户施以旧模型,再分桶的过程中,要注意样本的独立性和采样方式的无偏性,确保同一个用户每次只能分到同一个桶中,在分桶过程中所选取的use...

2020-04-22 22:35:39

拿到新数据分析需求不知如何下手?可以试试5W2H分析法

5W2H分析法又称七何分析法,广泛应用于企业管理和技术研发上。其中:what:目的是什么?做什么工作?how:怎么做?如何提高效率?如何实施?方法怎样?why:为什么?为什么要这么做?理由何在?原因是什么?造成这样的结果为什么?when:何时?什么事件完成?什么时机最适宜?where:在哪里做?从哪里入手?who:谁来做?由谁来实施?谁负责?how much:多少?做到什么程度?...

2020-04-19 23:50:55

如何实现SparkStreaming程序的高可用与断点续传

文章目录解决7*24小时稳定运行解决在程序升级的条件下,实现断点续传解决7*24小时稳定运行首先,为了保证实时计算程序可以7*24小时能稳定运行,则第一个考虑就是要实现SparkStreaming对接Kafka实时计算程序HA高可用。保证master高可用,worker节点的失败是具有容错性的(迄今为止,Spark自身而言对于丢失部分计算工作是有容错性的,它会将丢失的计算工作迁移到其他w...

2020-04-19 22:06:36

Github有趣项目集锦(持续更新中)

dolphinscheduler分布式易扩展的可视化DAG工作流任务调度系统。致力于解决数据处理流程中错综复杂的依赖关系,使调度系统在数据处理流程中开箱即用。...

2020-04-15 14:13:49

spark任务参数配置优化真实案例记录

文章目录1.Spark 任务调度优化2.Spark 应用配置优化3.硬件优化4.SQL优化方法1.Spark 任务调度优化将4台Worker机器的 CPU 使用率进行对比分析,发现 CPU 使用率有些蹊跷的地方,通过观察其CPU使用率,可以发现在第一个 job 的第二个阶段,第三台机器的 CPU 使用率和其他机器明显不同,也就是说计算资源利用不均衡,这种有忙有闲的资源分配方式通常会引起性能问题...

2020-04-13 22:45:16

Java-Hashmap JDK1.7&&1.8

文章目录java 常见数据结构hashmapjava 常见数据结构数组:采用一段连续的存储单元来存储数据。对于指定下标的查找,时间复杂度为O(1);通过给定值进行查找,需要遍历数组,逐一比对给定关键字和数组元素,时间复杂度为O(n),当然,对于有序数组,则可采用二分查找,插值查找,斐波那契查找等方式,可将查找复杂度提高为O(logn);对于一般的插入删除操作,涉及到数组元素的移动,其平均复杂...

2020-04-12 00:20:24

Kafka要点总结

文章目录Kafka1. 消息队列2. Kafka架构3. kafka 高吞吐量的原因4. Kafka监控5. Kafka丢不丢数据?6. Kafka幂等性7. Kafka消息数据积压,Kafka消费能力不足怎么处理?Kafka在流式计算中,kafka一般用来缓存数据,Storm通过消费Kafka的数据进行计算。kafka是一个分布式消息队列,kafka对消息保存时根据Topic进行归类,发送消...

2020-04-11 19:03:34

数据治理工具-元数据管理

数据治理里面最关键的元数据管理,元数据打通数据源、数据仓库、数据应用,记录了数据从产生到消费的完整链路。它包含静态的表、列、分区信息(也就是MetaStore);动态的任务、表依赖映射关系;数据仓库的模型定义、数据生命周期;以及ETL任务调度信息、输入输出等。元数据是数据管理、数据内容、数据应用的基础。例如可以利用元数据构建任务、表、列、用户之间的数据图谱;构建任务DAG依赖关系,编排任务执行序...

2020-04-07 18:40:33

查看更多

勋章 我的勋章
  • 签到新秀
    签到新秀
    累计签到获取,不积跬步,无以至千里,继续坚持!
  • 阅读者勋章Lv2
    阅读者勋章Lv2
    授予在CSDN APP累计阅读博文达到7天的你,是你的坚持与努力,使你超越了昨天的自己。
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv2
    勤写标兵Lv2
    授予每个自然周发布4篇到6篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。
  • 原力新人
    原力新人
    在《原力计划【第二季】》打卡挑战活动中,成功参与本活动并发布一篇原创文章的博主,即可获得此勋章。