自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(50)
  • 收藏
  • 关注

原创 数据指标体系方法—新海盗模型

海盗模型,即 AARRR 模型,是 Acquisition(获取)、Activation(激活)、Retention(留存)、Revenue(收益)、Referral(推荐传播),这个五个单词的缩写,分别对应用户生命周期中的5个重要环节。在这个阶段,要关注的数据指标无非就是渠道质量和成本,比如渠道的广告点击率、广告转化率、平均每个新用户的获取成本等。无论是什么类型的电商,最关注的无非就是 GMV 了,而在跨境独立站方向,因为涉及到广告,还会关注到 ROI 或者 ROAS 等衡量收益和成本比例的指标。

2024-03-16 17:00:09 356

原创 数据指标体系方法—UJM模型

UJM 模型也不仅仅适用于做数据指标体系的规划,还可以用于做需求挖掘与分析,从用户旅途地图中挖掘用户的痛点,探索用户的需求。另外,UJM 也可以和 OSM 模型结合起来使用,其中 UJM 的机会点可以转换为 OSM 模型的策略。

2024-03-16 16:50:57 361

原创 数据指标体系方法—OSM模型

S 代表业务策略,这里指的是要实现 O 需要采用的策略,比如 Object 是提高 GMV,那么 Strategy 就可能包含了卖出更多的货品、拉来更多的新客户或者提升老客户的复购等。M 则代表了业务度量,主要是衡量业务策略的效果好坏以及业务目标完成的情况,比如 Strategy 是拉来更多的新客户,那么 Measure 就是新用户注册数、新用户下单数量等,其实就是相当于给 Strategy 设定了 KPI,给 Object 设定了 Target。第一,优化广告投放的策略,让用户看到他/她更偏好的产品;

2024-03-16 16:35:21 418

原创 数据指标体系

建设指标体系,需要回答以下几个问题为什么建设数据指标体系如何评价数据指标体系,一个好的数据指标体系是要需要回答两个问题,它是不是有助于业务发展,以及说这个指标体系拆解是不是可具备、可落地、可实操的可能性。如何建设数据指标体系,这就需要我们的建设方法论了如何维护和管理指标,指标的维护和管理是有套路的,最简单的指标管理方法——指标字典,我们在此基础上可以做指标管理系统OSM 实现了业务目标结构化,UJM 实现了业务目标流程化。数据指标体系其实只是数据赋能业务的万里长征的第一步。

2024-03-16 14:48:46 758

转载 层次分析法(AHP)

层次分析法(The analytic hierarchy process)简称AHP,在20世纪70年代初期由美国匹兹堡大学运筹学家托马斯·塞蒂(T.L. Saaty)在为美国国防部研究“根据各个工业部门对国家福利的贡献大小而进行电力分配”的课题时提出。它是一种应用网络系统理论和多目标综合评价方法,提出的一种层次权重决策分析方法。是在对复杂的决策问题的本质、影响因素及其内在关系等进行深入分析的基础上,利用较少的定量信息使决策的思维过程数学化,从而为多目标、多准则或无结构特性的复杂决策问题提供简便的决策方法。

2024-01-08 23:43:15 716 1

原创 类别型特征的编码方法

机器学习模型中除了决策树等少数模型能直接处理字符串形式的类别型特征输入外,逻辑回归、支持向量机等模型的输入必须是数值型特征才能在矩阵上执行线性代数计算,所以参加计算的特征必须是数值型的,对于非数值型的特征需要进行编码处理。对于离散属性(也称为分类变量或类别特征)的编码,我们可以使用5种方式来实现,分别是标签编码、序列编码、独热编码、频数编码和目标编码。

2024-01-08 23:15:04 871

原创 AQI分析与预测

空气质量总体分布上来说,南部城市优于北部城市,西部城市优于东部城市。临海城市的空气质量整体上好于内陆城市。是否临海,降雨量与纬度对空气质量指数的影响较大。我国城市平均空气质量指数大致在(70.55 ~ 80.12)这个区间内,在该区间的可能性概率为95%。通过历史数据,我们可以对空气质量指数进行预测。通过历史数据,我们可以对城市是否临海进行预测。

2024-01-07 00:21:39 920

原创 逻辑斯蒂回归

逻辑斯蒂回归(Logistic Regression)是一个非常经典的算法,虽然被称为回归,但其实际上是分类模型,并常用于二分类。因为通过逻辑回归模型,我们得到的计算结果是0-1之间的连续数字,可以把它称为“可能性”(概率),然后,给这个可能性加一个阈值,就成了分类。逻辑回归因其简单、可并行化、可解释强深受工业界喜爱。

2024-01-05 21:42:34 1043

原创 机器学习的分类与经典算法

监督学习是指在给定的训练集中“学习”出一个函数(模型参数),当新的数据到来时,可以根据这个函数预测结果。监督学习的训练集要求包括输入和输出,即特征值和目标值(标签),训练集中数据的目标值(标签)是由人工事先进行标注的。监督学习流程图如下图所示,其中包括准备数据、数据预处理、特征提取和特征选择、训练模型和评价模型。图1:监督学习流程图Step1:准备数据。监督学习首先要准备数据,没有现成的数据就需要采集数据或者爬取数据,或者从网站上下载数据。可以将准备好的数据集分为训练集、验证集和测试集。

2024-01-01 22:58:35 1207 1

原创 手工计算层次分析法的最大特征根和特征向量

层次分析法在实际应用时,可以用成对比较阵A的列向量的平均值近似代替特征向量,称为和法,其步骤是:先将A的每一列向量归一化,按行求和后再归一化,得到。,用和法计算近似特征向量和近似最大特征根,并判断A是否为一致阵。(可以看例子理解)作为近似最大特征根。即为近似特征向量,并将。

2024-01-01 12:53:38 1925

原创 linux磁盘空间清理

查看磁盘分区上可以使用的磁盘空间$ df -h若要查看文件类型和block,使用下面的命令$ df -T查看每个文件和目录的磁盘使用空间,也就是文件的大小。

2023-12-14 23:30:05 146

原创 windows批处理脚本(.bat)如何激活Anconda Prompt虚拟环境

通过call 来调用激活脚本, activate myenv指的是要激活的环境,若省略,则激活的是base环境。call : 从另一个批处理程序调用一个批处理程序,而不停止父批处理程序。若已配置系统环境变量,可简写命令。

2023-12-11 23:07:10 1044

原创 SparkSQL远程调试(IDEA)

【代码】SparkSQL远程调试(IDEA)

2023-11-29 22:15:06 304

原创 SparkSQL之Optimized LogicalPlan生成过程

在分析Rule体系时就已经提到,Optimizer同样继承自RuleExecutor类,本身没有重载RuleExecutor中的execute方法,因此其执行过程仍然是调用其父类RuleExecutor中实现的execute方法。在QueryExecution中,Optimizer会对传入的Analyzed LogicalPlan执行execute方法,启动优化过程。

2023-11-25 20:28:03 373 1

原创 SparkSQL之Analyzed LogicalPlan生成过程

而在对Project中的表达式name属性进行分析时,因为Project的子节点Filter此时仍然处于unresolved状态(注:虽然age列完成了分析,但是整个Filter节点中还有“18”这个Literal常数表达式未被分析),因此解析操作无法成功,留待下一轮规则调用时再进行解析。本小节对这些规则仅做概述性的分析,从宏观层面介绍规则所起到的主要作用,旨在把握规则体系的轮廓,后续章节在具体的查询分析时会对其中常用的重要规则进行讲解。经过上述3个规则的解析之后,剩下的规则对逻辑算子树不起作用。

2023-11-13 23:01:01 998

原创 SparkSQL之Catelog体系

本质上,SessionCatalog起到了一个代理的作用,对底层的元数据信息、临时表信息、视图信息和函数信息进行了封装。如上图所示,SessionCatalog的构造参数包括6部分,除传入Spark SQL和Hadoop配置信息的CatalystConf与Configuration外,还涉及以下4个方面的内容。在关系数据库中,Catalog是一个宽泛的概念,通常可以理解为一个容器或数据库对象命名空间中的一个层次,主要用来解决命名冲突等问题。

2023-11-12 11:21:48 240

原创 SparkSQL之Rule体系

RuleExecutor的apply(plan:TreeType):TreeType方法会按照batches顺序和batch内的Rules顺序,对传入的plan里的节点进行迭代处理,处理逻辑由具体Rule子类实现。凡是涉及树型结构的转换过程(如Analyzer逻辑算子树分析过程、Optimizer逻辑算子树的优化过程和后续物理算子树的生成过程等),都要实施规则匹配和节点处理,都继承自RuleExecutor[TreeType]抽象类,如下图所示。

2023-11-12 11:06:25 150

原创 SparkSQL之LogicalPlan概述

逻辑计划阶段在整个流程中起着承前启后的作用。在此阶段,字符串形态的SQL语句转换为树结构形态的逻辑算子树,SQL中所包含的各种处理逻辑(过滤、剪裁等)和数据信息都会被整合在逻辑算子树的不同节点中。

2023-10-23 20:42:13 237

原创 Scala函数式编程

函数式编程把函数当做一等公民,充分利用函数,支持的函数的多种使用方式。 “函数式编程"是一种"编程范式”(programming paradigm)。它属于"结构化编程"的一种,主要思想是把运算过程尽量写成一系列嵌套的函数调用。函数式编程中,将函数也当做数据类型,因此可以接受函数当作输入(参数)和输出(返回值)。

2023-08-14 21:50:40 510 2

原创 SQL面试题-近30日内用户最新观看电影题材

用户登录视频网站,有时当日未观看电影,但需要分析用户喜欢的电影题材,就需要补充近30日内最新观看电影的题材。

2023-07-23 18:46:41 58

原创 SQL面试题-留存率

留存率是衡量用户质量的最重要指标之一,因此计算用户留存率是用户数据分析中必须掌握的技能之一,同样也成为了面试经典sql之一。

2023-07-23 15:36:06 273

原创 Scala中this的用法与作用

在Scala中,this是一个关键字,用于引用当前类的对象。可以使用this关键字访问类的成员,比如调用实例变量,方法,构造函数。

2023-07-08 20:44:30 732

原创 Scala之isInstanceOf与asInstanceOf

isInstanceOf 能判断出对象是否为指定类以及其子类的对象,而不能精确的判断出,对象就是指定类的对象;如果要求精确地判断出对象就是指定类的对象,那么就只能使用 getClass 和 classOf 了。

2023-07-08 18:35:41 559

原创 Scala之泛型详解

泛型用于指定类或方法可以接受任意类型参数,参数在实际使用时才被确定,泛型可以有效地增强程序的适用性,使用泛型可以使得类或方法具有更强的通用性。

2023-07-01 18:36:38 819 2

原创 Scala中的隐式参数、隐式函数和隐式类

使用implicit修饰的内容是隐式内容, 隐式的特点就是遇到适应的类型会自动的应用。隐式可以使得静态类型动态化,为现有类库添加功能,隐式的代理增强一个类或者一个方法。

2023-06-28 21:57:11 500 5

原创 编程常用缩写

在编程中我们经常会为了减小标识符的长度而采用缩写,这通常是通过去掉一些元音字母完成的,但更多的时候我们使用一些常用、通用的缩写。

2023-06-27 19:05:42 205

原创 Scala集合与Java集合的互转函数asScala与asJava

集合之间互转默认使用asScala和asScala,特殊的在表格中做了标记。其中 <=> 代表可以互转,而 => 和 <= 代表只能单方向转换。只有引入隐式转换类 JavaConverters,才能使用Scala集合与Java集合之间的转换函数。

2023-06-27 12:51:24 827

原创 Scala的foldLeft与foldRight详解

foldLeft与foldRight是特质TraversableOnce定义的高阶函数,直译过来为向左折叠和向右折叠。

2023-06-27 00:12:33 640

原创 SparkSQL之AstBuilder

左边的一系列节点对应select表达式中选择的列,中间的From ClauseContext为根节点的系列节点对应数据表,右边的一系列节点则对应where条件中的表达式。MyVisitor中访问方法的类型为String(AstBuilder中的SqlBaseBaseVisitor为AnyRef类型,返回LogicalPlan类型),但不会返回字符串,仅用于输出访问的路径和对AST的理解。上述语法树的结构比较通用,其他类型的SQL语句生成的语法树大同小异,这里假设在上述语句中加入排序的操作。

2023-06-24 23:49:31 538

原创 ANTLR实战

ANTLR(Another Tool for Language Recognition)是目前非常活跃的语法生成工具,用Java语言编写,基于LL(∗)解析方式,使用自上而下的递归下降分析方法。ANTLR可以用来产生词法分析器、语法分析器和树状分析器(Tree Parser)等各个模块,其文法定义使用类似EBNF(Extended Backus-Naur Form)的方式,简洁直观。ANTLR本身使用switch-case逻辑来匹配字符(Token),形成记号序列流。

2023-06-22 08:54:19 491

原创 设计模式之访问者模式

这种模式的工作方法如下:假设拥有一个由许多对象构成的对象结构,这些对象的类都拥有一个accept方法用来接受访问者对象;访问者是一个接口,它拥有一个visit方法,这个方法对访问到的对象结构中不同类型的元素做出不同的反应;在对象结构的一次访问过程中,遍历整个对象结构,对每个元素都实施accept方法,在每个元素的accept方法中回调访问者的visit方法,从而使访问者得以处理对象结构的每个元素;需要注意,在该接口中包含访问所有城市的visit方法,分别代表该访问者在不同城市的具体活动。

2023-06-20 23:11:37 217

原创 Hadoop的shuffle过程及调优

今天这章,我们详细介绍了 Shuffle 过程,关注 Shuffle 过程的性能对整个 MR 作业的性能调优至关重要。经过这章的介绍,我们能够掌握 Shuffle 过程的关键技术点,虽然还不算深入。同时,我们介绍了常见的参数以及调优方法,希望能够在实际应用中不断的尝试、总结,写出性能最佳的任务。

2023-06-17 18:54:39 1484

原创 3范式理论

满足第三范式(3NF)需要的条件:(1) 每个属性值唯一,不具有多义性。 即数据表的每一列都是不可分割的原子数据项,而不能是集合,数组,记录等非原子数据项。(2) 每个非主属性必须完全依赖于整个主键,而非主键的一部分。(3) 每个属性不能依赖于其他非主属性。第一范式(1NF):数据库表中的字段都是单一属性的,不可再分。这个单一属性由基本类型构成,包...

2023-06-17 08:50:30 362

原创 Spark源码编译与部署

Spark源码编译与部署

2023-06-05 09:46:18 228

原创 集群辅助脚本JPSALL与XSYNC

为了方便管理集群,可制作一些工具脚本,比如jpsallxsync等,下面会说明自制过程。

2023-06-04 20:34:15 331

原创 oracle日常学习整理

Oracle日常工作中遇到的新知识

2022-07-25 16:40:06 158

原创 最优化算法-梯度下降法

梯度下降法是机器学习中的一种最优化算法,广泛应用于线性回归和逻辑回归中。它的核心思想是:要获得函数的最小值,最好的方法是沿着该函数的梯度的反方向探寻。

2020-06-27 16:15:11 1533

原创 一文读懂EM算法

EM算法是含有隐变量的概率模型极大似然估计算法,每次迭代由两步组成:E步,求期望;M步,求极大,反复迭代,直到收敛。

2020-06-25 21:09:17 371

原创 如何理解泰勒公式?

泰勒公式用一句话描述:就是用多项式去逼近光滑函数。

2020-05-26 23:30:48 1689

原创 如何通俗的理解最大似然估计法

最大似然估计就是,利用已知的样本结果,反推最有可能导致这样结果的参数值。

2020-05-23 16:56:20 5361

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除