爱学习的老青年-CSDN博客

原创每天学点统计学——频率和累计频数

每天学点统计学-频数、频率、累计频数

2022-01-08 12:11:38 10358

“平均”这个术语是统计中使用最频繁的指标，但它并不总是具有相同的意义，今天我们一起聊聊几种“平均数”。一、均值、中位数、众数均值是我们大多数时候所说的平均数，它的定义如下：均值=所有数值的总和所有数值的个数总和均值=\frac{所有数值的总和}{所有数值的个数总和}均值=所有数值的个数总和所有数值的总和中位数是分类数据组中间值（如果数据个数为偶数，则是两个中间数值和的一半）。众数是数据组中出现次数最多的值（或者一组数）。在统计计算中的舍入保留规则：通常相对于原始数据而言，应该多保留一位小

2020-05-19 20:17:53 2438

原创机器学习笔记（十）——入门支持向量机（SVM）

一、SVM原理与模型数学推导支持向量机，SVM(Support Vector Machine)，其实就是一个线性分类器。在最初接到这个算法时，我们可能会一头雾水：这个名词好奇怪[问号脸]，怎么“支持”？什么“向量”，哪来的“机”？（一）由决策边界开始1 分类中的“不适定问题”首先，我们看一个简单的二分类问题。在二维的特征平面中，所有的数据点分为了两类：蓝色圆形和黄色三角。我们的目标是找到了...

2020-04-28 18:24:15 978

原创机器学习笔记（九）——数据降维：主成分分析法（PCA）

一、主成分分析法（PCA）思想及原理（一）什么是主成分分析法PCA(Principal Component Analysis)，即主成分分析方法，是一种使用最广泛的数据降维算法（非监督的机器学习方法）。其最主要的用途在于“降维”，通过析取主成分显出的最大的个别差异，发现更便于人类理解的特征。也可以用来削减回归分析和聚类分析中变量的数目。（二）为什么要做主成分分析在很多场景中需要对多变量...

2020-04-22 17:33:43 63757 15

原创机器学习笔记（八）——决策树

一、初识决策树决策树是一个非常有意思的模型，它的建模思路是尽可能模拟人做决策的过程。因此决策树几乎没有任何抽象，完全通过生成决策规则来解决分类和回归问题。因为它的运行机制能很直接地被翻译成人类语言，即使对建模领域完全不了解的非技术人员也能很好地理解它。因此在学术上被归为白盒模型（white box model）。（一）决策树的思想1.什么是决策树决策树是一种常见的机器学习算法，它的思想十分...

2020-04-19 20:30:49 1335

原创机器学习笔记（七）——逻辑回归算法

逻辑回归（Logistic Regression，LR）。在Kaggle竞赛的统计中，LR算法以63.5%的出产率，荣获各领域中“出场率最高的算法”这一殊荣。在实际场景中，逻辑回归同样应用广泛，大到国家各项经济政策的制定，小到计算广告CTR，都能看到LR算的身影。除了应用广泛外，LR的建模过程还体现了数据建模中很重要的思想：对问题划分层次，并利用非线性变换和线性模型的组合，将未知的复杂问题分解为...

2020-04-12 20:38:16 663 1

原创机器学习笔记（六）——机器学习概念：多项式回归与pipeline、偏差和方差、L1正则与L2正则

一、多项式回归与sklearn中的Pipeline之前已经学习了简单线性回归，其输入特征值有一维，即y=θ0+θ1x1;y=\theta_0+\theta_1x_1;y=θ0+θ1x1;当推广到多维特征，即多元线性回归：y=θ0+θ1x1+θ2x2+…+θnxn。y=\theta_0+\theta_1x_1+\theta_2x_2+…+\theta_nx_n。y=θ0+θ1x1+θ2...

2020-04-05 17:03:12 936

原创每天学点统计学——指数

我们经常听说过指数，例如居民消费价格指数（CPI）、生产价格指数或消费信心指数等。指数在统计学中非常常见，是比较不同时间、不同地点的测量值提供的一种简单方法。一、指数的概念概念：为比较不同时间、不同地点的测量值提供了一种简单的方法。必须选择某一时间（或地点）的数值为参考值（或基础值），其他时间（或地点）的指数是：指数=数值参考值×100指数=\frac{数值}{参考值}\times100指数...

2020-04-02 07:44:29 1408

原创机器学习笔记（五）——最优化方法：梯度下降（BGD&SGD）

一、概念（一）为什么需要梯度下降算法仅从数学抽象的角度来看：每个模型都有自己的损失函数，不管是监督式学习还是非监督式学习。损失函数包含了若干个位置的模型参数，比如在多元线性回归中，损失函数： (y−Xb⋅θ)T(Xb⋅θ) (y-X_b\cdot\theta)^T(X_b\cdot\theta)(y−Xb⋅θ)T(Xb⋅θ) ，其中向量表示未知的模型参数，我们就是要找到使损失函数尽可能...

2020-03-29 18:10:24 2077

原创机器学习笔记（四）——简单线性回归&最小二乘法&多元线性回归

一、模型之母线性回归模型可以说是最重要的数学模型之一，很多模型都是建立在它的基础之上，可以被称为是“模型之母”。kNN算法属于分类(Classification)，即label为离散的类别型(categorical variable)，如：颜色类别、手机品牌、是否患病等。单线性回归是属于回归(regression)，即label为连续数值型(continuous numerical vari...

2020-03-22 20:27:00 3787

原创机器学习笔记（三）——归一化、KD树、数值型特征无量纲化、数值型特征分箱等

一、数据归一化（一）使用数据归一化的目的在数据处理中，不同评价指标往往具有不同的量纲和量纲单位，这样的情况会影响到数据分析的结果，为了消除指标之间的量纲影响，需要进行数据标准化处理，以解决数据指标之间的可比性。原始数据经过数据标准化处理后，各指标处于同一数量级，适合进行综合对比评价。通常的数据归一化方法有两种：最值归一化（normalization）:把所有数据映射到0-1之间。最值...

2020-03-15 22:45:14 3552

原创每天学点统计学——百分数

统计结果一般都用百分数来表示。一、使用百分数描述变化绝对变化是指从参考值到新值的实际增加或减少。绝对变化=新值 —参考值相对变化是绝对变化的大小与参考值之比，可以表示为百分比。相对变化=（新值-参考值）/参考值 * 100...

2020-03-11 18:42:59 3131 1

原创每天学点统计学——统计测量

一、数据类型和测量尺度（一）数据类型数据有两个基本类型：定性数据和定量数据。定性数据：是由非数值类别的值组成的。比如：鞋子的颜色，性别。定量数据：是由代表数量或者尺度的值组成的。比如：考试的分数。（二）离散数据与连续数据离散数据：只能取特定的、个别的值，而不能取这些值中间的值。连续数据：能够在给定的区间中取任何值。比如说，农场中奶牛的数量，由于只能取整数，所以数据是离散的。而农...

2020-03-10 14:52:20 1491

原创机器学习笔记（二）—— 判断模型的好坏

一、划分训练集和测试集训练集：用于训练模型的集合测试集：用于测试训练模型的集合。常见的数据集拆分方法：1. 留出法留出法（hold-out）直接将数据集D拆分成两个互斥的集合，其中一个作为训练集S，另一个作为测试集T。即D=S∪T，S∩T=∅。在S上训练出模型后，用T来评估其测试误差，作为对泛化误差的估计。注意：（1）训练/测试集的划分要尽可能保持数据分布的一致性，避免因数据划分...

2020-03-08 21:53:55 5933

原创机器学习笔记（一）——KNN学习

一、概念：KNN（K-Nearest Neighber ,简称KNN）学习是一种常用的监督学习方法。（一）工作机制：给定测试样本，基于某种距离度量找出训练集中与其最靠近的k个训练样本，然后基于这k个“邻居”的信息来进行预测，其实就是所谓“近朱者赤，近墨者黑”。（二）训练过程：KNN学习，没有显式的训练过程，是典型的“懒惰学习”的技术，在训练阶段中仅仅把样本保存起来，训练时间开销为零，...

2020-03-01 12:51:00 1085

weixin_43312354的博客