养老村村长-CSDN博客

原创 SQL留存分析（次日留存，多日留存）和连续活跃人数的优化方案

1. 指标口径说明次日留存：第一天使用产品的用户，在第二天依旧使用的用户数多日留存：第一天使用产品的用户，在多日后依旧使用的用户数连续活跃人数：连续多少天使用产品的人数2. 次日留存与多日留存2.1 表字段说明：表共有四个字段：uid，action，product，dateuid：用户id，用户的唯一标识action：用户在某产品中的行为product：用户使用的某产品iddate：用户使用某产品的日期2.2 原始sql实现方案 - 左连接思路：在uid，

2021-06-23 07:06:32 4473 2

原创【机器学习】最大熵模型

1. 思想假设所有未知的事件出现概率都相等，在有约束的条件下求最优解。2. 解释在投骰子的案例中，我们知道骰子有六个面，若我们不知道骰子每个面朝上的概率，那么最安全的选择是假设每个面朝上的概率都相等，即1/6，这样保留了所有的可能性，确保了最大的不确定性。这样的原理就是最大熵原理，将该原理应用到分类得到找出最大熵模型，也是最好的分类模型。3. 数学表达3.1 公式3.2 解释3.2.1 最大熵原理在信息论中，熵用于表示随机变量的不确定性大小，熵越大，不确定性则越大。假设离

2021-10-15 21:54:48 441

原创【机器学习】熵与KL散度（Kullback-Leibler divergence）

1. 信息量1.1 定义信息量是对一个概率P(θ)中所包含的信息的量化。1.2 解释假设我们要判断一个人是好人还是坏人的概率。现在有两个概率P（好人）=0.8，（好人）=0.5。P1包含的信息量少，P2包含的信息量多。为什么后者信息量多呢？因为我们做出决策所需要的考虑会越多，换句话说就是信息量太多，我们不知道怎么做决策。而前者概率为0.8，判断一个人是好人还是坏人的所需要的额外信息量少，因此越接近1的概率信息量越少。1.3 数学表达1.3.1 符号说明通常信息量表示为一个关于的.

2021-10-14 23:41:07 720

原创【机器学习】朴素贝叶斯（Naive Bayes）

1. 思想通过贝叶斯公式，计算最大后验MAP2. 贝叶斯公式3. 前提假设朴素贝叶斯之所以称之为"朴素"，原因在于它的前提假设是条件独立性。在数据集中，它假设在已知观测值（我们的预测值）的情况下，各个特征两两相互独立3.1 公式表达3.2 图表达说明：在已知Y的情况下，X1~XN与Y的链子就会断裂，从而导致X1~XN相互独立。3.3 案例解释现我们有如下字段：智力（）：（低），（高）考试成绩（）：（及格），（良好），（优秀）高考成绩（）：（低），（

2021-10-14 18:59:48 291

原创【机器学习】线性判别分析LDA（Linear Discriminant Analysis）

1. 数据说明：指n个样本，每个样本有p个维度：指n个样本所形成的矩阵的转置，为n*p维矩阵，即样本矩阵w：指关于X的线性方程的参数，如一维表达中，y = wx + b2. 思想LDA主要用于分类，主要思想为：类内小，类间大，即不同的类别高内聚，低耦合。3. 数学表达3.1 方法说明LDA通过将样本投影的方式，得到投影后的样本均值统计量和样本方差统计量，通过计算不同类别样本均值的差判断是否类间距离大或是否低耦合，通过计算每一类别的样本内的方差判断是否类内小或是否低内聚。.

2021-10-14 17:22:30 328

原创【机器学习】感知机算法

1. 思想感知机的思想是错误驱动，即将分类错的样本数目作为损失函数，目的是使分类错的样本最少，即使损失函数的值最小。2. 激活函数假设需要分类的样本为二分类，为了将样本分为两类。我们选取激活函数为：通过该激活函数，我们可以将线性回归的结果a映射到+1和-1，也就是要分的两个类别。其中，3. 损失函数的选择3.1损失函数为不连续函数3.1.1 公式3.1.2 公式说明由激活函数可知，当分类正确时，与同号，此时；当分类错误时，与异号，此时。表示当分类错误时取值.

2021-10-13 22:57:06 290

原创【机器学习】梯度下降和牛顿法

1. 先验知识1.1 麦克劳林公式1.1.1 公式1.1.2 作用我们可以使用麦克劳林公式所构成的函数去近似拟合出在X=0附近任意一个函数。由于拟合出的是近似函数，所以麦克劳林公式的最后还要加上1.1.3 案例假设我们现在有一个关于函数的图像如下：现在我们试图一阶麦克劳林公式去近似模拟这个函数在X=0附近的图像。近似模拟的一阶麦克劳林公式：f(x) = 1 + x，图像如下：如果放大观察x=0附近的两个函数的图像，会发现在x=0的极小范围内，...

2021-10-13 17:47:27 290

原创【机器学习】决策树及其优缺点

0. 前言因文笔能力有限，本文不适用于决策树初学者入门，适用于稍有基础或寻找理解决策树新思路的看官。1. ID3决策树1.1 基本概念决策树指的是一颗多叉树，如图所示1.2 作用通俗来讲，决策树可以帮助我们降低选择的混乱程度。什么意思呢？举个例子来说，今天我们出不出去玩。在不考虑其他因素的情况下，出去玩和不出去玩的概率假设分别是50%，这意味着我们此时的大脑很混乱，对于出去玩这一问题，没有一颗坚定的心。但如果我们此时有A→B，A→C，A→D三种选择（晴天，阴天，雨天）。那么我们就

2021-08-07 06:39:59 2348

原创【统计学】各统计量及其抽样分布（z分布，t分布，卡方分布）

1. 前言数据分析行业不可避免会与统计学打交道。常见的分析总体的过程如图所示：常见的假设检验中，AB测试是最为出名的假设检验的过程，而需要深刻理解假设检验，先验知识统计量及其抽样分布的理解至关重要，这会为我们学习假设检验打下坚实的基础，本文章便是关于统计量及其抽样分布的讲解。2. 统计量建议专业讲解和大白话结合一起看，更易理解。2.1 专业讲解设X1, X2, ..., Xn是从总体X中抽取的容量为n的一个样本，如果由此样本构造一个函数T(X1, X2, ..., Xn)，不依赖

2021-07-01 00:43:17 8258

原创 Pandas小知识

1. pandas的概述pandas基于list，将各个series结合的更好，使数据更加结构化，利于观察。2. Pandas的索引2.1 取出第四列的数据(category)方法：data.category data.iloc[:,4] data.loc[:,"category"]注意点：开发过程中尽量使用.loc的方式查询数据，可读性会更好2.2 取出第四行的数据方法：data[3:4] data.iloc[3:4,:]错误写法：data[4]错误原因：如

2021-06-27 08:02:07 331

原创【统计学】标准差，标准误解释与标准误分母为根号n的原因

前言相信有不少初学者在刚接触到标准误差时，都会有这样的疑惑——“标准误和标准差有什么区别呢”样本均值的标准差是样本均值的标准误

2021-06-18 00:27:39 4760

原创【机器学习】频率派和贝叶斯派

1. 频率派1.1 核心思想频率派主张根据已知分布的样本，反推该分布中的未知参数1.2 案例说明

2021-06-16 22:38:00 670

原创【机器学习】线性回归最小二乘估计与正则化岭回归

借用李航老师的思想，我们将按模型+策略+方法的步骤来介绍内容1. 最小二乘估计我们将从几何角度和概率视角来看待最小e1.1 几何角度从几何

2021-06-16 20:01:51 407 1

原创小面试总结

1. 决策树相关1.1 一句话概括决策树原回答：决策树是根据信息增益选择局部最优特征进行分解，从而逐渐拆解为一颗最优树

2021-05-30 05:23:08 575

aSmallFish的博客