jialun0116-CSDN博客

原创宏观视角下的浏览器

如果你通过JavaScript或者CSS修改元素的几何位置属性，例如改变元素的宽度、高度等，那么浏览器会触发重新布局，解析之后的一系列子阶段，这个过程就叫重排。无疑，重排需要更新完整的渲染流水线，所以开销也是最大的。如果修改了元素的背景颜色，那么布局阶段将不会被执行，因为并没有引起几何位置的变换，所以就直接进入了绘制阶段，然后执行之后的一系列子阶段，这个过程就叫重绘。相较于重排操作，重绘省去了布局和分层阶段，所以执行效率会比重排操作要高一些。

2024-02-22 17:46:33 645

原创如何用 500 行 SQL 实现 GPT2学习

目录理论背景实现过程GenerationTokenizerEmbeddingsAttention为什么我们需要有因果掩码？为什么矩阵是 Q，K 和 V？BlocksTokens为什么要使用 softmax 转换概率？Inference俄罗斯有个大佬每年都会用 SQL 来实现一个挑战庆祝新年，已经坚持了 10 多年了。而 2023 年年底他完成了一件非常了不起的事情，即用 500 行 SQL 实现了 GPT2：https://explainextended.com/2023/12/31/happy-new-

2024-01-22 17:25:14 1256 1

原创用增方法论小结

用户生命周期是培养用户的一个容器，然后针对周期做无数的运营策略，用户生命周期的延长其实也带来了更多盈利机会，对于企业来说是非常看重的。■ 当发现一个Good的人群的时候，放大效应去扩大增长效果，算法自动进行人群分析并放大人群数据，提高已验证策略对相似特征人群的增长力。○ 细分人群与大盘人群做对比，针对性的去做低于大盘的转化节点优化，干预并提高细分人群效果，积少聚多促进大盘增长。○ 留存颗粒度：计算用户关键行为的天然使用周期，计算2次行为时间间隔的均值，确定日留存、周留存还是月留存。

2024-01-22 11:43:04 369

原创逆向思维，去重Cube计算优化新技巧

因此我们联想到，是否可以采用类似于用户打标签的数据打标方案，先进行数据去重生成UID粒度的中间数据，同时让需要的结果维度组合反向附加到UID粒度的数据上，在此过程中并对结果维度进行编号，用更小的数据结构去存储，避免数据计算过程中的大量数据传输。但在省维度下，需要按用户去重，只能为浙江省计1。核心计算思路如上图，普通的数据膨胀计算cube的方法，中间需要对数据进行膨胀，再聚合，其中结果统计需要的组合维度数就是数据膨胀的倍数，比如上述的“省、省+市”共计两种维度组合，数据预计要膨胀2倍。

2024-01-19 16:26:08 1317

原创如何进行产品数据分析一——移动应用APP分析方法

产品是指能够供给市场，被人们使用和消费，并能满足人们某种需求的任何东西，包括有形的物品、无形的服务、组织、观念或它们的组合。简而言之，产品是满足用户诉求的。在移动互联网端，APP是产品，比如微信APP，主要是满足用户社交诉求，手淘APP，主要是满足用户生活消费和线上购物需求的，APP中某一具体前台场景也是产品，比如充值icon，满足用户充话费的刚性需求，产品是一个相对比较宽广的定义。一个好的产品是能解决用户痛点，为用户提供核心价值的产品，APP是一个产品，APP里的各项子产品和功能也是一个产品。

2023-12-13 15:13:48 129

原创 Cohort Analysis是什么

Cohort Analysis 可以翻译成群体分析或分组分析，其实是一种通过细分来研究数据的方法。如下表就是一个从每日新增维度细分的 Cohort Analysis 表格。第一列是分组的维度，下表以用户新增的日期作为细分的维度；第二列是对应的新增用户数；其余列为对应分组下的用户留存率；

2023-12-12 14:51:21 76

原创流批一体历史背景及基础介绍

当数据出现错误，或是业务逻辑发生变更时，启动另一个流处理层，利用消息队列的重播机制，重新消费先前的数据并输出到另一个结果表中，当确定可以替换线上表时，完成替换。这是Watermark一种非常经典的用法，因为数据自带的时间字段是上游系统添加的，等数据到了下游系统时，又会花费一定的时间，如果这时再用处理时间来作为判断迟到的标准，则所有数据都会被判定为迟到，因此用此时系统中数据的最大时间减去一个值作为Watermark的值就十分的合理，如果超过这个时间还没有达到的数据，才会被判定为迟到数据。

2023-11-30 11:43:34 233

原创 bitmap基础介绍+holo实现离线UV计算

RoaringBitmap主要为了解决UV指标计算的问题。旨在建立一种可以多维分析的精准UV数据模型，并且可以低成本地实现交并差等集合运算UV指标。PV和UV指标一直是各类业务中广泛存在并且重点关注的实时指标。其中对于PV指标而言，由于其具备可加性，因此当对维度组合或者时间维度进行上卷时，可以直接求和得出我们所要的累计结果。但是去重指标UV则具备不可加性，他是一种对UID去重计数的指标，如果在维度上卷时直接求和会导致结果偏大。即UV指标一旦定制化生成，就很难具备再计算的能力，需要用户事先计算好。例如。

2023-11-21 16:58:29 391

原创 bitmap实践-留存计算

bitmap

2023-11-20 16:56:19 169

原创【MySQL实战45讲-基础篇】

MySQL的基本架构示意图：MySQL可以分为Server层和存储引擎层两部分。但是大多数情况下我会建议你不要使用查询缓存，为什么呢？因为查询缓存往往弊大于利。引擎扫描行数跟rows_examined并不是完全相同的。

2023-10-07 14:16:18 199

原创数据仓库工具箱第三章——零售业务

第三章——零售业务3.1 维度建模设计的4步过程3.1.1 选择业务过程3.1.2 声明粒度3.1.3 确定维度3.1.4 确定事实3.2 销售业务案例研究3.2.1 选择业务过程3.2.2 声明粒度3.2.3 确定维度3.2.4 确定事实3.3 维度表设计细节3.3.1 日期维度3.3.2 产品维度3.3.3 商店维度3.3.4 促销维度3.3.5 事务号码的退化维度3.4 实际的销售模式3.5 零售模式的扩展能力3.6 无事实的事实表3.7 维度与事实表键3.7.1 维度表代理键3.7.2 日期维度的智

2021-12-04 10:13:38 888

原创 MOLAP——Kylin总结

Kylin总结1. OLAP分类1.1 MOLAP1.2 ROLAP1.3 HOLA2. 概述2.1 定义2.2 Kylin架构2.3 工作原理和过程2.4 特点2.4 和Druid 比较3. Cube 构建原理3.1 维度和度量3.2 Cube 和 Cuboid3.3 Cube 存储原理3.4 Cube构建方法3.4.1 逐层构建算法 layer3.4.2 快速构建算法(inmem)4. Cube构建优化4.1 检查问题Cube4.2 并发粒度优化4.3 使用聚合组(Aggregation group)

2021-12-01 23:04:11 3122

原创数据仓库工具箱——数据仓库、商业智能及维度建模初步

第一章——数据仓库、商业智能及维度建模初步1.1 数据获取与数据分析的区别1.2 数据仓库与商业智能的目标1.3 维度建模简介1.3.1 星型模式和OLAP多维数据库1.3.2 用于度量的事实表1.3.3 用于描述环境的维度表1.3.4 星型模型中维度与事实的连接1.4 Kimball的DW/BI架构1.4.1 操作型源系统1.4.2 ETL系统1.4.3 用于支持商业智能决策的展现区1.4.4 商业智能应用1.4.5 餐厅举例描述Kimball框架1.5 其他DW/BI架构1.5.1 独立数据集市架构1.

2021-11-27 19:27:29 1047 1

原创大数据之路——数据质量

十五、数据管理——数据质量15.1 数据质量保障原则15.2 数据质量方法概述15.2.1 消费场景知晓15.2.2 数据生产加工各个环节节点校验15.2.3 风险点监控15.2.4 质量监控15.2.5 质量配套工具数据质量时数据分析结论有效性和准确性的基础，也是一切的前提。确保数据可用性15.1 数据质量保障原则完整性。数据完整性是数据最基础的保障；指数据的记录和信息是否完整，是否存在缺失的情况。数据缺失包括记录的缺失和记录中某个字段信息的缺失准确性。数据汇总记录的信息和数据是否准

2021-11-22 14:25:45 1652 1

原创大数据之路——存储和成本管理

十四、数据管理——存储和成本管理14.1 数据压缩14.2 数据重分布14.3 存储治理优化14.4 生命周期管理14.4.1 生命周期管理策略14.4.2 通用的生命周期管理矩阵14.5 数据成本计算对于数据爆炸式的增长，有效地降低存储资源的消耗，节省存储成本。14.1 数据压缩背景：在分布式系统中为了提高数据的可用性与性能，通常会将数据存储三份。方案：在MaxCompute中提供了archive压缩方法，默认值（6，3）即6份数据 + 3份校验块。能够把存储比例从1:3变成1:1.5。但是恢

2021-11-22 13:16:09 1824

原创大数据之路——计算管理

十三、数据管理——计算管理13.1 系统优化13.1.1 HBO History-Based Optimizer13.1.2 CBO Cost-Based Optimizer13.2 任务优化13.2.1 Map倾斜及优化13.2.2 Join倾斜及优化13.2.3 Reduce 倾斜及优化降低计算资源的消耗，提高任务执行的性能，提升任务产出的时间13.1 系统优化通过分析计算系统的数据运行情况，判断计算系统对内存、CPU、Instance 个数这些资源的运用是否合理(指计算时间更短，使用的资源

2021-11-21 11:21:28 1980 2

原创大数据之路——元数据

十二、数据管理篇——元数据12.1 元数据概述12.2 元数据价值12.3 统一元数据体系建设12.4 数据建模12.5 产品12.5.1 Data Profile12.5.2 元数据门户12.5.3 应用链路分析12.1 元数据概述传统的定义：元数据是关于数据的数据。打通了元数据、数据仓库、数据应用，记录了数据从生产到消费的全过程。<>元数据主要记录数据仓库中模型的定义、各层级间的映射关系、监控数据仓库的数据状态及ETL的任务运行状态。技术元数据（Technical Meta

2021-11-19 09:33:57 808

原创大数据之路—— 事实表设计

十一、数据模型篇—— 事实表设计11.1 事实表基础11.1.1 事实表特性11.1.2 事实表设计原则11.1.3 事实的设计准则11.1.4 事实表设计方法11.2 事务事实表11.2.1 单事务事实表11.2.2 多事务事实表11.2.3 两种事实表比较11.3 周期快照事实表11.3.1 特性11.3.2 设计步骤11.3.3 注意事项11.4 累计快照事实表11.4.1 特性11.4.2 设计步骤11.4.3 特殊处理11.4.4 物理实践11.5 三种事实表比较11.6 无事实的事实表11.7

2021-11-18 08:00:00 1435 1

原创大数据之路—— 维度设计

十、数据模型篇—— 维度设计10.1 维度设计基础10.1.1 基本概念10.1.2 维度的基本设计方法10.1.3 层次结构10.1.4 规范化和反规范化10.1.5 一致性维度和交叉探查10.2 维度设计高级10.2.1 维度整合10.2.2 维度拆分10.2.3 历史归档10.3 维度变化10.3.1 缓慢变化的维度10.3.2 快照维表10.3.3 极限存储10.3.4 微型模型10.4 特殊维度10.4.1 递归层次10.4.2 行为维度表10.4.3 多值维度10.4.4 多值属性10.4.5

2021-11-16 18:50:02 2077

原创大数据之路—— 数据整合和管理体系

九、数据模型篇—— 数据整合和管理体系9.1 体系架构图9.2 名词术语9.3 指标体系9.4 模型设计9.4.1 基本原则9.5 模型实施大数据建设方法论的核心：从业务架构设计到模型设计，从数据研发到数据服务，做到数据可管理性、可追溯、可规避重复建设。<>建设统一的、规范的数据接入层和中间层，完成数据公共层建设，提供标准化的、共享的、数据服务能力，降低成本等。9.1 体系架构图9.2 名词术语数据域：指面向业务分析，将业务过程或者维度进行抽象的集合。是要抽象提炼，并且长期维

2021-11-15 16:26:50 1962

原创大数据之路—— 建模综述

八、数据模型篇—— 建模综述8.1 OLTP和OLAP讲解8.2 典型的数据仓库建模方法论8.2.1 ER模型8.2.2 维度模型 Kimball8.2.3 Data Vault模型8.2.4 Anchor模型8.3 数据模型实践数据建模就是数据组织和存储档案，强调从业务、数据存取和使用角度存储数据。数据模型十分重要，好处有：性能。能快速查询想要的数据，减少数据的I/O吞吐成本。减少不必要的数据冗余，实现计算结果复用，降低计算和存储成本效率。改善用户使用数据体验，提高使用数据效率质量。改善

2021-11-15 16:22:57 2196

原创大数据之路——数据挖掘

七、数据技术篇—— 数据挖掘7.1 数据挖掘算法平台7.2 数据挖掘中台体系7.2.1 挖掘数据中台7.2.2 挖掘算法中台7.3 数据挖掘案例7.3.1 用户画像7.3.2 反作弊数据挖掘技术与数据仓储和计算技术发展相辅相成，挖掘有效数据信息企业级数据挖掘包含两个要素：面向计算器学习算法的并行计算框架与算法平台；面向企业级数据挖掘的算法资产管理体系。7.1 数据挖掘算法平台汇集了大量优质的分布式算法，包括数据处理、特征工程、机器学习算法等，可高效地完成海量、亿级维度数据的复杂计算（海量

2021-11-12 20:40:24 1562

原创大数据之路—— 数据服务

六、数据技术篇—— 数据服务6.1 架构演进6.2 技术架构@6.3 最佳实践@6.3.1 性能6.3.2 稳定性6.1 架构演进DWSOA由需求驱动，一个需求开发几个接口，编写接口文档，开放给业务方调用。缺点：接口力度粗，灵活度低，扩展性差，复用率低，开发效率低OpenAPI数据按照统计粒度聚合，同样维度的数据形成一张逻辑表，能有效收敛接口数量。SmartDQOpenAPI接口变多，且带来大量对象关系映射的维护工作量。这里再抽象一层，用DSL（Domain Specific L

2021-11-12 15:00:00 1667

原创大数据之路—— 实时技术

五、数据技术篇—— 实时技术5.1 简介5.2 流式技术架构@5.2.1 数据采集5.2.2 数据处理5.2.3 数据存储5.2.4 数据服务5.3 流式数据模型5.3.1 数据分层5.3.2 多流关联5.3.3 维表使用@5.4 大促挑战5.4.1 大促特征5.4.2 大促保障@5.1 简介流计算，业务希望能在第一时间拿到经过加工的数据，实时监控状态作出运营决策，引导业务往好的方向发展。特征：实效性高，延时可能到达毫秒级常驻任务，流式任务数据属于常驻进程任务，启动后会一直运行（数据源是无界

2021-11-11 19:36:52 2022

原创大数据之路—— 离线数据开发

四、数据技术篇—— 离线数据开发4.1 数据开发平台4.1.1 统一计算平台@4.1.2 统一开发平台4.2 任务调度4.2.1 核心设计模型4.2.2 任务状态机模型@4.2.3 工作状态机模型4.2.4 调度引擎工作原理4.2.5 执行引擎逻辑架构图@4.2.6 调度系统的特点数据存储及计算、数据整合及管理体系4.1 数据开发平台了解需求 -> 模型设计 -> ETL开发 -> 测试 -> 发布上线 -> 日常运维 -> 任务下线4.1.1 统一计算平台@

2021-11-11 19:34:16 2022

原创大数据之路——数据同步

三、数据技术篇—— 数据同步3.1 数据同步基础 @3.1.1 直连同步3.1.2 数据文件同步3.1.3 数据库日志解析同步3.2 数据仓库同步方式3.2.1 批量数据同步3.2.2 实时数据同步3.3 同步遇到的问题3.3.1 分库分表3.3.2 增量全量同步的合并@3.3.3 数据漂移的处理 @有多种不同应用场景：主数据库和备份数据库之间的数据备份，主系统和子系统的数据更新，不用地域、数据库类型的数据传输交换3.1 数据同步基础 @关系型数据库，结构化数据：MySQL、Oracle、DB2非关

2021-11-11 10:16:26 4650

原创大数据之路——日志采集

二、数据技术篇—— 日志采集2.1 浏览器日志采集2.1.1 页面型的日志采集分类2.1.2 页面访问过程2.1.3 页面浏览日志采集流程@2.1.4 页面交互日志采集2.1.5 页面交互日志清洗和预处理2.2 无线客户端的日志采集2.2.1 页面事件2.2.2 控件点击事件2.2.3 特殊场景2.2.4 H5 & Native日志统一 @2.2.5 日志传输2.3 日志采集的挑战2.3.1 日志分流和定制处理2.3.2 大促保障 @日志本身不是日志采集的目的，服务于基于日志的后续应用，才是正确的

2021-11-10 14:13:56 2407

原创阿里大数据之路总述

大数据之路一、总述数据有序、有结构地分类和存储，从而产生价值。实时：数据量大，要实时、准确离线：采集、存储、计算数据模型、数据研发、数据质量和运维保障工作难点：高效的数据模型和体系，数据易用，避免重复建设和不一致性，数据的规范性高效的数据开发工具，数据质量保障管理和控制存储和计算消耗数据服务的稳定和性能数据体系：1. 数据采集日志采集体系：Web端日志采集技术APP端日志采集技术各个场景的埋点数据传输体系：数据传输包括增量数据传输、日志数据传输支持实

2021-11-10 14:11:09 1681

原创 Flink 总结三 Window

Flink的WindowWindow概述Window类型滚动窗口 Tumbling Windows滑动窗口(Sliding Windows)会话窗口(Session Windows)Window API概述窗口分配器创建不同类型的窗口TimeWindowCountWindowwindow function增量聚合函数全窗口函数其它可选API代码测试增量聚合函数全窗口函数滑动计数窗口的增量聚合函数可选API代码片段时间语义和WatermarkFlink中的时间语义EventTime的引入Watermark概念

2021-07-05 11:05:51 357

原创 Flink 尚硅谷总结二流处理API

Flink 尚硅谷总结二Flink 流处理APIEnvironmentgetExecutionEnvironmentcreateLocalEnvironmentcreateRemoteEnvironmentSource从集合读取数据从文件读取数据从Kafka读取数据自定义SourceTransform基本转换算子map、flatMap、filter聚合操作算子keyByRolling Aggregationreduce多流转换算子ConnectCoMapUnion算子转换支持的数据类型实现UDF函数——更

2021-07-02 10:06:13 321 2

原创 Flink 尚硅谷总结一

Flink 尚硅谷总结一Flink介绍Fink是什么为什么选择Flink数据处理框架历史Flink的特点Flink vs Spark Streaming快速上手批处理实现WordCount流处理实现流式数据源测试Flink 部署task slot 多线程Web UI提交命令行提交jobYarn模式Sesstion Cluster模式Per Job Cluster 模式Flink运行框架运行时的组件任务提交流程任务调度原理TaskManger与Slots与共享组Slot和并行度程序与数据流执行图数据传输形式

2021-06-30 14:35:36 565 1

原创 Elasticsearch ES进阶总结

Elasticsearch 进阶核心概念系统框架进阶扩容路由计算写流程读流程分片原理倒排索引动态更新索引近实时搜索文档分析文档冲突ES优化硬件选择分片策略路由选择写入速度优化内存设置核心概念索引 Index一个索引就是一个拥有几分相似特征的文档的集合。一个索引由一个名字来标识（必须全部是小写字母），在一个集群中，可以定义任意多的索引。新华字典前面的目录就是索引的意思，目录可以提高查询速度。elasticsearch 索引的精髓：一切设计都是为了提高搜索的性能。类型 Type在一个

2021-06-29 12:09:25 659 1

原创 Elasticsearch Java API操作总结

Elasticsearch Java API操作创建Maven项目索引操作创建索引查询和删除索引文档操作新增文档修改文档查询文档删除文档批量增加和删除高级查询查询所有索引数据条件查询分页查询数据排序过滤字段组合查询范围查询模糊查询高亮查询聚合查询创建Maven项目修改pom文件，增加Maven依赖关系<dependencies> <dependency> <groupId>org.elasticsearch</groupId> &lt

2021-06-28 19:47:21 585

原创 Java 总结二

Java 总结二Java核心类字符串和编码StringBuilderStringJoiner包装类型JavaBean枚举类记录类BigInteger 和 BigDecimal集合CollectionListMapTreeMapPropertiesSetQueueDequeStackCollectionsJava核心类字符串和编码Java字符串String是不可变对象；字符串操作不改变原字符串内容，而是返回新字符串；常用的字符串操作：提取子串、查找、替换、大小写转换等；Java使用

2021-06-28 10:44:49 81

原创 Elasticsearch ES使用总结

Elasticsearch ES安装入门数据格式索引操作文档操作映射操作高级查询官方视频介绍CSDN官网个人博客Elasticsearch 是一个开源的搜索引擎，建立在一个全文搜索引擎库 Apache Lucene™ 基础之上。一个分布式的实时文档存储，每个字段可以被索引与搜索一个分布式实时分析搜索引擎能胜任上百个服务节点的扩展，并支持 PB 级别的结构化或者非结构化数据Elasticsearch是分布式的搜索、分析引擎，是Elastic Stack的核心。Logstash

2021-06-23 15:27:01 366 1

原创 Java基础总结一

Java基础总结一流程控制输入判断switchfor数组操作遍历数组排序面向对象基础类和实例方法构造方法方法重载 Overload继承多态抽象类接口静态字段和静态方法包作用域内部类classpath 和 jar第一个程序public class Hello { public static void main(String[] args) { System.out.println("Hello, world!"); }}数组public class Mai

2021-06-23 10:25:34 199

原创 Python大数据处理库 PySpark实战总结四

Python大数据处理库 PySpark实战四ETL 实战实验数据来源数据加载观察资料选择、筛选与聚合机器学习实战实验数据来源数据加载统计描述清洗与变形Pipeline逻辑回归预测决策树预测ETL 实战实验数据来源https://groupllens.org/datasets/movielens/下载一个精简数据集。rating.csv 电影评分记录：userId给电影评价的用户ID movieId 电影的ID rating 打分5分满分，timestamp时间戳数据加载from pysp

2021-06-19 22:10:04 1298

原创 Python大数据处理库 PySpark实战总结三

Python大数据处理库 PySpark实战总结三共享变量DataFrames 与 Spark SQL创建DataFramesSpark SQL基本用法编写Spark程序并提交共享变量广播变量 broadcast广播变量允许程序缓存一个只读变量在集群的每台机器上，而不是每个任务保存一个拷贝。借助广播变量，可以用一种更高效的方法来共享一些数据，比如一个全局配置文件。from pyspark.sql import SparkSessionspark = SparkSession.buil

2021-06-18 10:00:26 566 1

原创 Python大数据处理库 PySpark实战总结二

Python大数据处理库 PySpark实战二Pyspark建立Spark RDDpyspark shellVScodeJupyter notebook动作算子变换算子Pyspark建立Spark RDD每个RDD可以分成多个分区，每个分区可以看作是一个数据集片段，可以保存到Spark集群中的不同节点上RDD自身具有容错机制，且是一种只读的数据结构，只能通过转换生成新的RDD；一个RDD通过分区可以多台机器上并行处理；可将部分数据缓存在内存中，可多次重用；当内存不足时，可把数据落到磁盘上创建RDD

2021-06-17 12:30:45 630 1

原创 A Dynamic Resource Allocation Scheme in Vehicular Communications论文ppt

A Dynamic Resource Allocation Scheme in Vehicular Communications

2021-06-16 12:30:59 97

阿里大数据之路——关键总结版.pdf

推荐系统的总结——持续更新.md

空空如也