8 北海大型帆船

尚未进行身份认证

我要认证

数据工程师

等级
TA的排名 8w+

用户行为指标分析思路

行为事件分析模型行为事件分析法来研究某行为事件的发生对企业组织价值的影响以及影响程度用户留存分析模型留存分析是一种用来分析用户参与情况/活跃程度的分析模型,考察进行初始行为的用户中,有多少人会进行后续行为。这是用来衡量产品对用户价值高低的重要方法。漏斗分析模型漏斗分析是一套流程式数据分析,它能够科学反映用户行为状态以及从起点到终点各阶段用户转化率情况的重要分析模型。用户行为路径分析模型用户路径分析,顾名思义,用户在APP或网站中的访问行为路径。为了衡量网站优化的效.

2020-09-24 14:47:32

34个ETL系统总结 P13 事实表加载器

13. 事实表加载器事实表可以分为几种:交易事实、周期快照事实、累计快照事实表

2020-09-24 11:40:09

34个ETL系统总结 P12 专用维管理器

12. 专用维管理器日期时间维度杂项维微型维度缩小维小型静态维用户维护的维度

2020-09-23 16:41:45

IT项目管理常用知识与工具

PMP五大过程组:启动、规划、执行、监控、收尾十大知识领域:整合管理、范围管理、进度管理、成本管理、质量管理、人力资源管理、沟通管理、风险管理、采购管理、干系人管理项目范围定义: 项目应该包括什么和不应该包括什么步骤:范围计划、范围定义、范围核实、变更控制工具:WBS项目进度定义:项目是否可以按时完成步骤:网络图、关键路径工具:甘特图项目风险定义:不确定性与破坏性步骤:风险识别、风险分析、风险评价、风险应对工具:因果分析图项目质量定义:满足要求的程度步骤:监控、改进工具:

2020-09-21 17:19:38

34个ETL系统总结 P11 层次维度构建系统

11. 层次维度构建系统层次结构的数据常常会出现在同一个维度中齐整的数据可以使用一个固定的层次结构来边准话数据,对数据按层次进行编号。非齐整的数据可能会使用到一个包含组织图的交接表来处理。...

2020-09-21 17:06:45

34个ETL系统总结 P10 代理键生成系统

10. 代理键生成系统自然键:自然键是已经存在的一个或多个属性,它在业务概念中是唯一的。代理键:引入一个不具有业务含义的列作为键。引入代理键增加了业务的复杂行,减少键与业务的耦合程度。目前比较流行的做法是不引入代理键增加复杂性,在业务抽象过程中存在巨大优势的时候再进行代理键的引入。实现代理键有几个常用的选择:使用数据库赋值。大多数主要的数据库供应商–例如Oracle、Sybase以及Informix–实现了被称为递增键的代理键策略。基本理念是在数据库服务器中维护一个计数器,将当前值写入一个隐

2020-09-21 16:54:23

34个ETL系统总结 P9 缓慢变化维度处理

9. 缓慢变化维度处理缓慢变化维(SCD)问题是ETL设计中的一个核心问题。常用的有三种解决思路:Type 1 : 直接覆盖,不记录历史数据,新数据覆盖旧数据,逻辑简单。Type 2 : 创建一个新行,使用flag列来标识数据有效性。一般会有OpTime,StartTime,EndTime,变化说明 字段来对变化过程进行描述。Type 3:添加一个新列,用不同的字段保存变化痕迹,例如 Current Column 和 Previous Column。它只能保存两次变化记录.适用于变化不超过两次的维

2020-09-21 16:22:04

34个ETL系统总结 P8 数据一致性

8. 数据一致性数据仓库的数据源经常来自与多个异构系统,数据在进入数据仓库的时候需要做标准化处理,保证数据的一致性。可以使用适配器对数据源进行处理,改造成标准化的格式可以使用代理键来处理...

2020-09-21 15:28:53

34个ETL系统总结 P7 排除重复记录系统

7. 排除重复记录系统去重是ETL最常见的需求之一,每个系统在设计之初都应该将重复数据处理纳入规划中。处理存量重复数据:利用SQL中的rowid(可能需要利用窗口函数生成)、group by、distinct 去重处理增量重复问题:维护关键列到历史记录表,然后将增量数据进行比对。或者利用Merge来更新历史数据,防止重复的产生。可以利用唯一性约束来确保数据不重复...

2020-09-18 13:57:47

34个ETL系统总结 P6 装配审计维度

6. 装配审计维度给事实表增加与业务逻辑无关的审计维度表,用来分析事实表的状态。

2020-09-18 13:43:00

34个ETL系统总结 P5 错误事件处理

5. 错误事件处理错误在ETL系统设计之处就应该纳入考虑的范畴,错误可以分成两类:Error和Exception。Error等级的错误,ETL系统会停止运行或跳过某个核心模块,这类错误一般需要设置报警机制,比如邮件或者webhook报警。Exception等级的错误可以记录日志,考虑后续进行修改或维护。例如异常数据值的出现与过滤。一般的ETL工具都会集成完善的错误日志功能错误事件报警表样例:错误事件错误事件id表名时间戳批次号ETL模块严重程度

2020-09-17 14:07:28

34个ETL系统总结 P4 数据清洗和质量处理系统

4. 数据清洗和质量处理系统发现数据中的口径不一致、缺失值、异常值等问题,加以处理。几种可用的方案加入审计维度标记剔除数据加入错误日志将错误值置为预先定义的特殊值直接删除异常数据...

2020-09-16 16:06:32

FS-LDM十大主题

当事人 party资产 Asset财务 Finance区域 Location营销活动 Campaign协议 Agreement事件 Event内部组织 Internal Org产品 Product渠道 Channel

2020-09-16 14:55:10

数据仓库入门经典书籍

两位理论奠基人:Bill H.Inmon 比尔恩门Ralph Kimball 拉尔夫金保经典书籍:《Building the Data Warehouse》《The Data Warehouse Toolkit》《The Data Warehouse ETL Toolkit》《The Data Warehouse Lifecycle Toolkit》

2020-09-16 14:49:12

34个ETL系统总结 P3 抽取系统

3. 抽取系统常见的有基于流与基于文件的抽取系统需要注意的问题 1、一次性装载原始数据 2、任务失败后的处理方案

2020-09-16 14:36:10

34个ETL系统总结 P2 变化数据捕获系统

2. 变化数据捕获系统常用的四种方式审计列快照对比日志对比触发器审计列:使用一个字段来标识变化的数据,如修改时间,修改人等。一般需要设计触发机制在入库或修改的时候来维护审计列。快照对比:利用核心列的变化做对比来获取变化的数据,可以使用一些DBMS提供的线程方式,比如Oracle中的物化视图(Materialized View)刷新来进行捕获。日志对比:利用解析数据库的日志来获取变化,比较常用的有Mysql的Binlog+Canal的方式,Oracle可以考虑使用GoldenGate触发

2020-09-16 14:19:34

34个ETL系统总结 P1 数据探查系统

数据探查系统主要探查表的数据量与数据质量,根据业务需求形成审计表可以利用状态值来表示核心字段的覆盖情况变化数据捕获系统一般思路:建立审计列,通过审计列判断定时抽取T+1不是好的方案:时间戳(弱点:要求业务系统的表必须一个可以标识新旧数据的字段)完全差异比较(弱点:高网络负载、性能代价高、无法反映数据的历史状态)日志监视,日志对比(binlog)触发器(优点:抽取性能高。缺点:需要业务表建立触发器,对业务系统有一定的影响)消息队列监视...

2020-09-15 17:43:08

34个ETL系统总结 P0

34个ETL子系统总结ETL系统的四大块:抽取、清洗、提交、管理一、抽取数据探查系统变化数据捕获系统抽取系统二、清洗数据清洗和质量处理系统错误事件处理装配审计维度排除重复记录系统数据一致性三、数据发布缓慢变更维度处理代理键生成系统层次维度构建特殊维度生成系统事实表加载代理键管道多值维度桥接表生成系统迟到数据处理维度管理系统事实表管理系统聚集构建Cube构建系统数据整合管理系统四、管理作业调度备份系统恢复和重新启动系统版本控制子系统从

2020-09-14 22:20:14

IT环境英文简称

环境简称规范化命名IT系统环境英文缩写英文中文DEVdevelopment开发SITSystem Integrate Test系统整合测试(内测)UATUser Acceptance Test用户验收测试PETPerformance Evaluation Test性能评估测试(压测)SIMsimulation仿真PRDproduction产品/正式/生产...

2020-09-14 22:11:30

使用并发队列处理文件

public class FilePip { static AtomicInteger sum = new AtomicInteger(); public static void main(String[] args) { final int concurrent = 6; final int capacity = 10000; int[] fib = {1, 1, 2, 3, 5, 8, 13, 21, 34, 55, 89, 144, 2

2020-08-19 15:25:25

查看更多

勋章 我的勋章
  • GitHub
    GitHub
    绑定GitHub第三方账户获取
  • 新人勋章
    新人勋章
    用户发布第一条blink获赞超过3个即可获得
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv2
    勤写标兵Lv2
    授予每个自然周发布4篇到6篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。