好好学习的星熊-CSDN博客

原创【推荐算法】如何利用用户行为数据为其做推荐？

如何利用用户行为数据做推荐，简单介绍基于邻域的算法、LFM、基于图的模型

2022-08-07 13:11:15 2344 1

原创【业务分析】如何设计A/B test，以及如何对实验结果检验、结果分析？

本章内容：A/B测试流程简介如何确立实验目标？如何设计实验？如何对实验的合理性进行检验？如何分析实验结果？如何处理实验不严谨的情况？1. A/B测试的流程📖A/B测试严格流程确立目标实验设计运行实验，收集数据合理性检验数据分析得到见解2. 如何确立目标？📖如何确立目标？确定A/B测试要解决的问题需要结合产品、运营、推广等角度的需求。比如：VP的要求为增加广告，从而增加收入；而产品的要求为，增加广告不能影响用户体验；结合两方的需求，确立问题为如何增加广.

2022-03-16 21:30:00 1508

原创【机器学习】如何理解AdaBoost，及相关参数使用？

本章内容如何理解AdaBoost基本原理？（理论）如何使用sklearn.ensemble.AdaBoostRegressor/AdaBoostClassifier参数？（案例：手写数据集）如何理解Adaboost回归的数学求解流程？（附：流程示意图）1 AdaBoost的基本参数与损失函数1.1 （理论）AdaBoost基本原理、代码📖 Adaboost原理在全样本上建立一棵决策树；根据该决策树预测的结果和损失函数值，增加被预测错误的样本在数据集中的样本权重；让加权后的数据集被.

2022-03-10 22:15:00 3725

原创【集成学习】如何理解Bagging和Boosting的差异，以及Boosting算法基本原理？

本章内容：Bagging和Boosting的对比区别；Boosting算法的3要素和原理；sklearn中常见的Boosting算法类（仅罗列）1 Bagging pk Boosting☑️ Bagging和Boosting对比装袋法 Bagging提升法 Boosting弱评估器相互独立，并行构建相互关联，按顺序依次构建先建弱分类器的预测效果影响后续模型的建立集成的结果回归平均分类众数每个算法具有自己独特的规则，一般来说： (1) 表现为某种分数的加.

2022-03-09 21:30:00 923

原创【机器学习】如何使用Bayes_opt、HyperOpt、Optuna优化网格搜索？如何使用贝叶斯搜索调参？

本章内容：如何使用Bayes_opt实现参数优化，及案例？如何使用HyperOpt实现参数优化，及案例？如何使用Optuna实现参数优化，及案例？HPO库优劣评价推荐指数bayes_opt✅实现基于高斯过程的贝叶斯优化 ✅当参数空间由大量连续型参数构成时⛔包含大量离散型参数时避免使用⛔算力/时间稀缺时避免使用⭐⭐hyperopt✅实现基于TPE的贝叶斯优化✅支持各类提效工具✅进度条清晰，展示美观，较少怪异警告或报错✅可推广/拓展至深度学习领域⛔不支持基于高斯.

2022-03-08 20:45:00 8240 23

原创如何根据样本估计总体的均值、比例与方差？如何进行参数估计及选择对应公式？

7.1 参数估计的基本原理7.1.1 估计量与估计值_名词解释📌 参数估计用样本统计量去估计总体的参数。📌 估计量用来估计总体参数的统计量称为估计量，用θ^\hat{\theta}θ^表示。样本均值、样本比例、样本方差都可以是一个估计量。📌 估计值根据一个具体的样本计算出来的估计量的数值，称为估计值。比如用样本量计算出来的平均值作为总体的平均值，那么这个平均值在这时就称为估计值。7.1.2 点估计与区间估计💡 excel中计算指定概率对应的面积公式：=normsinv(指定的概率)例：

2022-03-07 22:30:00 11074

原创【机器学习】如何使用对半网格搜索，以缩短网格搜索速度？

本章内容：对半网格搜索的原理、运行流程（理论说明）sklearn中HalvingGridSearchCV参数说明🤷‍♀️案例：对半网格搜索_房价数据集_python索引🔣 函数及参数🗣 案例🤷‍♀️ 案例📖 摘抄1（理论）对半网格搜索的原理与流程📖 对半网格搜索主要解决数据量较大导致的运算时间长的问题📖 对半网格搜索原理通过每次抽取部分数据集，达到减少每次建模使用的数据量，从而减少计算量。需要注意的是，为了保证减少的数据量能有效反映整体的数据情况，故抽取的少量数据集分.

2022-03-03 21:45:00 1500

原创【统计学笔记】如何判断变量间相关关系，并建立一元线性回归模型？

书籍：《统计学（第六版）》书籍作者：贾俊平内容思维导图索引📌 专业名词🔑 公式记忆📖 摘抄☑️ 有序事项11.1 变量间是否有相关关系，且关系强度如何？11.1.2 相关关系的描述与测量📌 相关关系：变量之间存在的不确定的数量关系，称为相关关系。📖 相关分析就是对两个变量之间线性关系的描述与度量，要解决的问题如下：变量之间是否存在关系？如果存在关系，它们之间是什么关系？变量之间的关系强度如何？样本反映的变量之间的关系能否代表总体变量之间的关系？进行相关分析时，.

2022-03-02 21:15:00 10983

原创【机器学习】如何使用随机网格搜索，以缩短网格搜索速度？

> 随机网格搜索RandomSearchCV学习笔记，内容包括：> 1. 随机网格搜索的基本原理> 2. 随机网格搜索的skelarn应用（案例：房价数据集_python）> 3. 随机网格搜索中连续型分布的应用（案例：房价数据集_python）

2022-03-01 20:00:00 2001

原创【统计学笔记】第6章统计量及其抽样分布

统计量及其抽样分布

2022-02-23 20:00:00 750

原创【统计学笔记】第12章多元线性回归

书籍：《统计学（第六版）》书籍作者：贾俊平索引 ???? **专业名词：方便查找，解释说明** ???? **专业名词** ???? 公式推导：解释说明 ???? **公式记忆：方便查找** ???? 摘抄 ???? 案例 12.1 多元线性回归模型12.1.1 多元回归模型与回归方程 ???? **多元回归模型**设因变量为y，k个自变量分别为x1，x2，…，xk，x_1，x_2

2022-02-22 20:00:00 1708

原创如何进行内容分析？（部分内容分析理论）

前言：本文内容以游戏产品为基础进行讲解。内容为以下6部分：1. 如何制定有效推送，以提升留存、活跃？2. 如何建立流失预测模型？（理论简述）3.如何设计批量购买？4.如何让用户注意到版本更新？5. 如何运营长尾需求？6.活动运营指标及流程（理论简述）以上内容主要讲解理论概述、简单案例介绍，没有具体操作步骤如何制定有效推送，以提升留存、活跃？1. 引导用户需求为什么引导用户需求有助于有效推送？关于用户需求，通常会使用挖掘的方式找到用户想要的东西；但现实情况可能是，用户...

2021-11-30 22:30:00 2943

原创如何分析留存率？（案例：留存率堆积直方图+留存率下降分析）

前言：本文内容以游戏产品为基础进行讲解，内容为以下4部分：1. 留存率的定义、3个阶段、3个要素理解（案例：留存率堆积直方图）2. 如何分析留存率（案例：如何分析留存率下降）3.如何优化留存率4.什么是付费留存、留存作弊留存率的定义、3个阶段、3个要素理解（案例：留存率堆积直方图）定义：第i天的留存率=第i天留存用户\第i天新增用户定义时需要注意的点：1. 讨论的留存率是否是分批次（分天）；2. 计算的时间点要充分定义；3. 用户群要充分定义；留存率也可以分2类来...

2021-11-29 20:00:00 10397 1

原创如何理解LTV（单个用户整个生命周期价值）的5种计算方法？

前言：本文内容以游戏产品为基础进行讲解，内容为LTV的5中计算方法。定义：LTV值单个用户整个生命周期所产生的价值。说明：在谈论LTV的计算方法时，容易混淆的点：指标限定的时间范围。LTV的每种计算方法，都一定要明确到底在谈论单批用户的LTV，还是整个游戏所有用户的LTV。第一种计算方法：LTV=每用户平均生命周期（单位：天）*每天每用户平均收入；限定的时间范围为：从每天的数据计算整体的数据。用户生命周期（LT）如何计算？生命周期（LT）定义分类：1. 线上算法，即在线时间；.

2021-11-27 20:00:00 31471

原创如何理解、分析DNU/DAU？（案例：DNU、DAU面积图）

前言：本文内容以游戏产品为基础进行讲解，内容为以下4部分：1. 如何理解DNU和DAU2. 如何使用python绘制DNU和DAU的面积图3. 如何分析DNU/DAU4.如何计算当日DAU有多少由往日N日DAU贡献的，并简单计算用户生命周期？DNU/DAU是活跃度指数，也称为新用户占比。另外还需要了解的公式为DNU（新增用户）+DOU（老用户）=DAU。如何理解DNU和DAU？下面以每日DNU和DAU折线图对比案例来说明，新用户占比如何分析：如何使用python绘制...

2021-11-26 20:00:00 8149

原创如何通过DAU分析活跃用户？（案例：python绘制箱体图）

前言：本文内容以游戏产品为基础进行讲解，内容为以下4部分：1. 如何理解DAU反映了哪些问题？2. 有哪些因素会影响DAU变动？3.如何解读DAU的“箱体图”？4.如何使用python绘制“箱体图”？DAU的定义不是绝对的，通常会使用登录用户数作为DAU计算的基础。如果希望DAU更反映有效登录用户，则可以使用“登录时长超过1分钟的用户”；如果是角色扮演游戏，还可以使用“账号数”、“角色数”等指标；也可以使用唯一指标表示，比如日活设备数。1. 如何理解DAU反映了哪些问题？ ...

2021-11-26 10:57:18 16151

原创如何对新增用户下载到激活环节进行分析？（案例：时长奖励激励方案）

前言：本文适用于游戏产品。文中提及的新增用户，指从下载到注册后初次使用的用户，具体分析也围绕该环节展开。下载到激活过程中，主要会经历的环节为下载-安装-激活-注册。这个过程可能面临的问题可分为两类：用户能够感知的、用户无法感知的。用户能够感知的：下载安装、更新卸载、流量损耗、电量损耗、设备发热、运营闪退、无法连接、UI异常用户无法感知的：兼容适配、连接超时、CPU使用率、内存泄露、不良接口发现以上问题有如下方法：用户评价和反馈自动化测试工具建立数据追踪（追踪错误日志）综合数.

2021-11-25 11:23:11 452

原创如何理解线性回归的多重共线性、岭回归和Lasso（案例：波士顿房价数据集）

前言：本文主要介绍多重共线性、岭回归和Lasso的概念、公式推导及sklearn应用，使用的数据集为波士顿房价数据集、加利福尼亚房价数据集。目录如何从行列式理解多重共线性？如何理解使用岭回归解决多重共线性？如何在sklearn中使用linear_model.Ridge岭回归？（案例：波士顿房价数据集）如何使用岭迹图选择最佳正则化参数？（案例：希尔伯特矩阵）如何在sklearn中使用linear_model.RidgeCV，带交叉验证的岭回归？（案例：波士顿房价数据集）如何理解.

2021-11-18 14:07:39 3230

原创如何使用MSE、R平方对线性回归模型进行评估？（案例：加利福尼亚数据集）

如何查看均方误差判断预测结果是否正确？（案例：线性回归、随机森林_加利福尼亚房价数据集）为什么要使用均方误差，之前的准确率不行吗？因为回归类模型结果是连续型变量，无法直接使用正确或错误来判断。但可以用预测值与真实值之间的差异来判断模型的优劣，差异越小，说明模型越好。这种衡量差异的公式可以写为：其中m表示特征数量，i表示样本数量，表示预测值；这个公式称为均方误差，在sklearn的metrics模块中为mean_squared_error；cross_val_score为scorin...

2021-11-16 22:21:30 5535

原创如何推导最小二乘法，求解多元线性回归参数？

本文主要内容：1. 最小二乘法损失函数求解推导；2. sklearn中linear_model.LinearRegression参数介绍+案例最小二乘法损失函数求解推导最小二乘法的思路：对损失函数求导，令其为0，求得损失函数最小值时的参数，但前提条件：导数为凸函数。多元线性回归参数求解是一个矩阵求导的过程，所以需要知道一些矩阵运算、求导运算的公式：然后对多元线性回归的损失函数进行求导，公式如下：（其中w、y、X都是矩阵）令其为0：其中倒数最后一步...

2021-11-14 17:21:19 5913

原创如何理解混淆矩阵，以及预测少数类的评估指标？

前言：本文介绍混淆矩阵，以及召回率、精确率和F1-score。主要解决：混淆矩阵记忆不方便记忆，指标容易混淆2个问题。为什么要使用混淆矩阵来评估模型？通常模型会使用准确率来评估模型，但要注意准确率失效问题当数据集中99个标签为0，1个标签为1，模型全部判断为0，准确率也达到了99%。如果建模的目的是为了捕捉为少数类，在样本极度不平衡的情况下，准确率则会失效。另一种情况，模型A认为样本90%的可能性为1，模型B认为样本60%的可能性为1。如果将对标签的判断概率定为50%，那么模型A和模型B都.

2021-11-12 15:44:13 1306

原创如何使用决策边界评估逻辑回归？

前言：本文主要为简单介绍决策边界，以及使用自定义函数绘制决策边界，不涉及决策边际的深度探讨。内容分为两个模块：1. 介绍什么是决策边界；2. 如何通过自定义函数绘制逻辑回归的决策边界。如何理解决策边界？定义：在二维空间中，通过一条线将二分类的标签划分为两个部分，这条线称为决策边界。特点：不同的模型决策边界的形态不一样；比如KNN的决策边界可能是曲线；可以直观体现模型效果；比如是否过拟合，如果边界两侧融合的数据较多，那么模型可能存在过拟合；可视化只适用..

2021-11-10 22:05:29 1586

原创如何求解逻辑函数的损失函数，及代码实现？

前言：本文使用的损失函数为KL离散构建的损失函数，无公式推导部分；代码部分为自定义函数，非sklearn。逻辑回归KL离散构建的损失函数为：其中m表示样本数量；p_1表示标签为1的概率；y^{(i)}表示第i条样本的真实值；x^{(i)}表示第i条样本数据（包含多个特征，即一行数据；最后一个值为1）。损失函数求导（梯度表达式）为：公式推导思路：BCE可以拆解为对和分别对w、b求导；将上述结果带入、逻辑回归自定义函数：def logit_gd(X,w,y)...

2021-11-09 23:06:29 1031

原创如何通过梯度下降的方法求解损失函数？

如何通过梯度下降的方法求解损失函数？求解损失函数的方式有：最小二乘法（即对参数求偏导，令其为0后联立方程组求解），但只适用于损失函数为凸函数的情况。当损失函数不是凸函数的时候如何求解呢？可以采用梯度下降的方法；其思路为：随机选择初始参数值，带入损失函数进行计算，然后梯度下降这个参数值，迭代一定次数，使其逼近最优解参数。如何梯度下降？如何确定迭代次数？为什么能保证这样的结果能够逼近最优解？通过人为设定学习率，作用于初始参数，使其按照一定的方向移动一定的距..

2021-11-08 22:27:47 2101

原创如何通过极大似然估计方法衡量逻辑回归损失函数？

如何通过极大似然估计方法衡量逻辑回归损失函数？逻辑回归模型：线性模型只能拟合模型的线性关系，为了能够拟合更多关系，通过添加联系函数的方式，将线性模型拓展为广义线性模型。当对数几率作为联系函数时，这样的广义线性模型称为逻辑回归模型。逻辑回归公式：为什么要求解逻辑回归的参数？如果数据能够通过逻辑回归模型拟合模型关系，那么只要解出逻辑回归的参数，就能得到x与y之间的关系，从而对新数据推测出对应的y。如何求解模型参数？通过损失函

2021-11-08 22:21:23 625

原创有哪些多分类学习方法，其拆分集成策略分别是什么？

OvO 拆分策略：将多个标签拆分两两成对的基评估器。集成策略：将新数据代入，计算在二分类的基评估器下，模型更倾向对哪个标签进行投票，汇总所有基评估器的结果，投票数量最多的为最终标签。基评估器数量：需要的基评估器数量为 OvR 拆分策略：将多个标签分为01标签，得到标签数量个基评估器。集成策略：将新数据带入基评估器，最终得到1的基评估器对应的标签为预测结果。如果有多个标签为1的基评估器，则根据基评估器本身的准确率来判断。基评估器数量...

2021-11-08 22:15:14 424

原创查看RandomForestClassifier源码方法

1. 查看sklearn代码的路径输入以下代码，会得到一个路径（每台电脑的路径不一样）import sklearnsklearn.__file__2. 在上一步的路径下，找到ensemble文件夹，打开_forest3. 打开_forest，搜索RandomForestClassifier，这个classs开头下面的部分就是了。这个类里面还调用了其他的模块，需要根据提示一步步倒回去找。比如这一条需要找到DecisionTreeClassifier()，继续在...

2021-09-08 10:59:00 439

原创 jupyter notebook 显示无法连接服务器

问题情况：1. 打开任意ipynb，如图右上角都显示在连接服务器，并且过一段时间后显示无法连接2. 这个窗口和平时显示的内容不一样↑这个是正常情况↑这个是不正常情况，会显示：name 'XXX' is not defined问题原因：因为我用pycharm写了code.py这个代码文件，这个文件导致的jupyter不能用了，具体原因不太清楚。解决办法：在pycharm里面删除code.py，然后再次重新打开jupyther，就可以了（如果需要删除的代码文件是比较重要的，.

2021-07-13 10:11:08 4085

原创 pip已安装但Jupyter报错No module named ‘mlxtend’解决方案

我在安装mlxtend的时候发现，已经在CMD窗口pip install mlxtend，但Jupyter报错：解决方案：1. 打开anaconda2. 以下路径点那个三角形，选择open Terminal，会打开一个窗口3. 在新的窗口输入pip install mlxtend4. 再检查一下，anaconda里面是否有mlxtend，有了就OK了...

2021-05-14 15:07:08 6351 3

好好学习的星熊的博客