自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(14)
  • 收藏
  • 关注

原创 SQL留存分析(次日留存,多日留存)和连续活跃人数的优化方案

1. 指标口径说明次日留存:第一天使用产品的用户,在第二天依旧使用的用户数多日留存:第一天使用产品的用户,在多日后依旧使用的用户数连续活跃人数:连续多少天使用产品的人数2. 次日留存与多日留存2.1 表字段说明:表共有四个字段:uid,action,product,dateuid:用户id,用户的唯一标识action:用户在某产品中的行为product:用户使用的某产品iddate:用户使用某产品的日期2.2 原始sql实现方案 - 左连接思路:在uid,

2021-06-23 07:06:32 4473 2

原创 【机器学习】最大熵模型

1. 思想假设所有未知的事件出现概率都相等,在有约束的条件下求最优解。2. 解释在投骰子的案例中,我们知道骰子有六个面,若我们不知道骰子每个面朝上的概率,那么最安全的选择是假设每个面朝上的概率都相等,即1/6,这样保留了所有的可能性,确保了最大的不确定性。这样的原理就是最大熵原理,将该原理应用到分类得到找出最大熵模型,也是最好的分类模型。3. 数学表达3.1 公式3.2 解释3.2.1 最大熵原理在信息论中,熵用于表示随机变量的不确定性大小,熵越大,不确定性则越大。假设离

2021-10-15 21:54:48 441

原创 【机器学习】熵与KL散度(Kullback-Leibler divergence)

1. 信息量1.1 定义信息量是对一个概率P(θ)中所包含的信息的量化。1.2 解释假设我们要判断一个人是好人还是坏人的概率。现在有两个概率P(好人)=0.8,(好人)=0.5。P1包含的信息量少,P2包含的信息量多。为什么后者信息量多呢?因为我们做出决策所需要的考虑会越多,换句话说就是信息量太多,我们不知道怎么做决策。而前者概率为0.8,判断一个人是好人还是坏人的所需要的额外信息量少,因此越接近1的概率信息量越少。1.3 数学表达1.3.1 符号说明通常信息量表示为一个关于的.

2021-10-14 23:41:07 720

原创 【机器学习】朴素贝叶斯(Naive Bayes)

1. 思想通过贝叶斯公式,计算最大后验MAP2. 贝叶斯公式3. 前提假设朴素贝叶斯之所以称之为"朴素",原因在于它的前提假设是条件独立性。在数据集中,它假设在已知观测值(我们的预测值)的情况下,各个特征两两相互独立3.1 公式表达3.2 图表达说明:在已知Y的情况下,X1~XN与Y的链子就会断裂,从而导致X1~XN相互独立。3.3 案例解释现我们有如下字段:智力():(低),(高)考试成绩():(及格),(良好),(优秀)高考成绩():(低),(

2021-10-14 18:59:48 291

原创 【机器学习】线性判别分析LDA(Linear Discriminant Analysis)

1. 数据说明:指n个样本,每个样本有p个维度:指n个样本所形成的矩阵的转置,为n*p维矩阵,即样本矩阵w:指关于X的线性方程的参数,如一维表达中,y = wx + b2. 思想LDA主要用于分类,主要思想为:类内小,类间大,即不同的类别高内聚,低耦合。3. 数学表达3.1 方法说明LDA通过将样本投影的方式,得到投影后的样本均值统计量和样本方差统计量,通过计算不同类别样本均值的差判断是否类间距离大或是否低耦合,通过计算每一类别的样本内的方差判断是否类内小或是否低内聚。.

2021-10-14 17:22:30 328

原创 【机器学习】感知机算法

1. 思想感知机的思想是错误驱动,即将分类错的样本数目作为损失函数,目的是使分类错的样本最少,即使损失函数的值最小。2. 激活函数假设需要分类的样本为二分类,为了将样本分为两类。我们选取激活函数为: 通过该激活函数,我们可以将线性回归的结果a映射到+1和-1,也就是要分的两个类别。其中,3. 损失函数的选择3.1损失函数为不连续函数3.1.1 公式3.1.2 公式说明由激活函数可知,当分类正确时,与同号,此时;当分类错误时,与异号,此时。表示当分类错误时取值.

2021-10-13 22:57:06 290

原创 【机器学习】梯度下降和牛顿法

1. 先验知识1.1 麦克劳林公式1.1.1 公式1.1.2 作用我们可以使用麦克劳林公式所构成的函数去近似拟合出在X=0附近任意一个函数。由于拟合出的是近似函数,所以麦克劳林公式的最后还要加上1.1.3 案例假设我们现在有一个关于函数的图像如下:现在我们试图一阶麦克劳林公式去近似模拟这个函数在X=0附近的图像。近似模拟的一阶麦克劳林公式:f(x) = 1 + x,图像如下:如果放大观察x=0附近的两个函数的图像,会发现在x=0的极小范围内,...

2021-10-13 17:47:27 290

原创 【机器学习】决策树及其优缺点

0. 前言因文笔能力有限,本文不适用于决策树初学者入门,适用于稍有基础或寻找理解决策树新思路的看官。1. ID3决策树1.1 基本概念决策树指的是一颗多叉树,如图所示1.2 作用通俗来讲,决策树可以帮助我们降低选择的混乱程度。什么意思呢?举个例子来说,今天我们出不出去玩。在不考虑其他因素的情况下,出去玩和不出去玩的概率假设分别是50%,这意味着我们此时的大脑很混乱,对于出去玩这一问题,没有一颗坚定的心。但如果我们此时有A→B,A→C,A→D三种选择(晴天,阴天,雨天)。那么我们就

2021-08-07 06:39:59 2348

原创 【统计学】各统计量及其抽样分布(z分布,t分布,卡方分布)

1. 前言数据分析行业不可避免会与统计学打交道。常见的分析总体的过程如图所示:常见的假设检验中,AB测试是最为出名的假设检验的过程,而需要深刻理解假设检验,先验知识统计量及其抽样分布的理解至关重要,这会为我们学习假设检验打下坚实的基础,本文章便是关于统计量及其抽样分布的讲解。2. 统计量建议专业讲解和大白话结合一起看,更易理解。2.1 专业讲解设X1, X2, ..., Xn是从总体X中抽取的容量为n的一个样本,如果由此样本构造一个函数T(X1, X2, ..., Xn),不依赖

2021-07-01 00:43:17 8258

原创 Pandas小知识

1. pandas的概述pandas基于list,将各个series结合的更好,使数据更加结构化,利于观察。2. Pandas的索引2.1 取出第四列的数据(category)方法:data.category data.iloc[:,4] data.loc[:,"category"]注意点:开发过程中尽量使用.loc的方式查询数据,可读性会更好2.2 取出第四行的数据方法:data[3:4] data.iloc[3:4,:]错误写法:data[4]错误原因:如

2021-06-27 08:02:07 331

原创 【统计学】标准差,标准误解释与标准误分母为根号n的原因

前言相信有不少初学者在刚接触到标准误差时,都会有这样的疑惑——“标准误和标准差有什么区别呢”样本均值的标准差是样本均值的标准误

2021-06-18 00:27:39 4760

原创 【机器学习】频率派和贝叶斯派

1. 频率派1.1 核心思想频率派主张根据已知分布的样本,反推该分布中的未知参数1.2 案例说明

2021-06-16 22:38:00 670

原创 【机器学习】线性回归最小二乘估计与正则化岭回归

借用李航老师的思想,我们将按模型+策略+方法的步骤来介绍内容1. 最小二乘估计我们将从几何角度和概率视角来看待最小e1.1 几何角度从几何

2021-06-16 20:01:51 407 1

原创 小面试总结

1. 决策树相关1.1 一句话概括决策树原回答:决策树是根据信息增益选择局部最优特征进行分解,从而逐渐拆解为一颗最优树

2021-05-30 05:23:08 575

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除