自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)
  • 收藏
  • 关注

原创 每天学点统计学——频率和累计频数

每天学点统计学-频数、频率、累计频数

2022-01-08 12:11:38 10358

原创 每天学点统计学——平均

“平均”这个术语是统计中使用最频繁的指标,但它并不总是具有相同的意义,今天我们一起聊聊几种“平均数”。一、均值、中位数、众数均值是我们大多数时候所说的平均数,它的定义如下:均值=所有数值的总和所有数值的个数总和均值=\frac{所有数值的总和}{所有数值的个数总和}均值=所有数值的个数总和所有数值的总和​中位数是分类数据组中间值(如果数据个数为偶数,则是两个中间数值和的一半)。众数是数据组中出现次数最多的值(或者一组数)。在统计计算中的舍入保留规则:通常相对于原始数据而言,应该多保留一位小

2020-05-19 20:17:53 2438

原创 机器学习笔记(十)——入门支持向量机(SVM)

一、SVM原理与模型数学推导支持向量机,SVM(Support Vector Machine),其实就是一个线性分类器。在最初接到这个算法时,我们可能会一头雾水:这个名词好奇怪[问号脸],怎么“支持”?什么“向量”,哪来的“机”?(一)由决策边界开始1 分类中的“不适定问题”首先,我们看一个简单的二分类问题。在二维的特征平面中,所有的数据点分为了两类:蓝色圆形和黄色三角。我们的目标是找到了...

2020-04-28 18:24:15 978

原创 机器学习笔记(九)——数据降维:主成分分析法(PCA)

一、主成分分析法(PCA)思想及原理(一) 什么是主成分分析法PCA(Principal Component Analysis),即主成分分析方法,是一种使用最广泛的数据降维算法(非监督的机器学习方法)。其最主要的用途在于“降维”,通过析取主成分显出的最大的个别差异,发现更便于人类理解的特征。也可以用来削减回归分析和聚类分析中变量的数目。(二)为什么要做主成分分析在很多场景中需要对多变量...

2020-04-22 17:33:43 63757 15

原创 机器学习笔记(八)——决策树

一、初识决策树决策树是一个非常有意思的模型,它的建模思路是尽可能模拟人做决策的过程。因此决策树几乎没有任何抽象,完全通过生成决策规则来解决分类和回归问题。因为它的运行机制能很直接地被翻译成人类语言,即使对建模领域完全不了解的非技术人员也能很好地理解它。因此在学术上被归为白盒模型(white box model)。(一)决策树的思想1.什么是决策树决策树是一种常见的机器学习算法,它的思想十分...

2020-04-19 20:30:49 1335

原创 机器学习笔记(七)——逻辑回归算法

逻辑回归(Logistic Regression,LR)。在Kaggle竞赛的统计中,LR算法以63.5%的出产率,荣获各领域中“出场率最高的算法”这一殊荣。在实际场景中,逻辑回归同样应用广泛,大到国家各项经济政策的制定,小到计算广告CTR,都能看到LR算的身影。除了应用广泛外,LR的建模过程还体现了数据建模中很重要的思想:对问题划分层次,并利用非线性变换和线性模型的组合,将未知的复杂问题分解为...

2020-04-12 20:38:16 663 1

原创 机器学习笔记(六)——机器学习概念:多项式回归与pipeline、偏差和方差、L1正则与L2正则

一、多项式回归与sklearn中的Pipeline之前已经学习了简单线性回归,其输入特征值有一维,即y=θ0+θ1x1;y=\theta_0+\theta_1x_1;y=θ0​+θ1​x1​;当推广到多维特征,即多元线性回归:y=θ0+θ1x1+θ2x2+…+θnxn。y=\theta_0+\theta_1x_1+\theta_2x_2+…+\theta_nx_n。y=θ0​+θ1​x1​+θ2...

2020-04-05 17:03:12 936

原创 每天学点统计学——指数

我们经常听说过指数,例如居民消费价格指数(CPI)、生产价格指数或消费信心指数等。指数在统计学中非常常见,是比较不同时间、不同地点的测量值提供的一种简单方法。一、指数的概念概念:为比较不同时间、不同地点的测量值提供了一种简单的方法。必须选择某一时间(或地点)的数值为参考值(或基础值),其他时间(或地点)的指数是:指数=数值参考值×100指数=\frac{数值}{参考值}\times100指数...

2020-04-02 07:44:29 1408

原创 机器学习笔记(五)——最优化方法:梯度下降(BGD&SGD)

一、概念(一) 为什么需要梯度下降算法仅从数学抽象的角度来看:每个模型都有自己的损失函数,不管是监督式学习还是非监督式学习。损失函数包含了若干个位置的模型参数,比如在多元线性回归中,损失函数: (y−Xb⋅θ)T(Xb⋅θ) (y-X_b\cdot\theta)^T(X_b\cdot\theta)(y−Xb​⋅θ)T(Xb​⋅θ) ,其中向量表示未知的模型参数,我们就是要找到使损失函数尽可能...

2020-03-29 18:10:24 2077

原创 机器学习笔记(四)——简单线性回归&最小二乘法&多元线性回归

一、模型之母线性回归模型可以说是最重要的数学模型之一,很多模型都是建立在它的基础之上,可以被称为是“模型之母”。kNN算法属于分类(Classification),即label为离散的类别型(categorical variable),如:颜色类别、手机品牌、是否患病等。单线性回归是属于回归(regression),即label为连续数值型(continuous numerical vari...

2020-03-22 20:27:00 3787

原创 机器学习笔记(三)——归一化、KD树、数值型特征无量纲化、数值型特征分箱等

一、数据归一化(一)使用数据归一化的目的在数据处理中,不同评价指标往往具有不同的量纲和量纲单位,这样的情况会影响到数据分析的结果,为了消除指标之间的量纲影响,需要进行数据标准化处理,以解决数据指标之间的可比性。原始数据经过数据标准化处理后,各指标处于同一数量级,适合进行综合对比评价。通常的数据归一化方法有两种:最值归一化(normalization):把所有数据映射到0-1之间。最值...

2020-03-15 22:45:14 3552

原创 每天学点统计学——百分数

统计结果一般都用百分数来表示。一、使用百分数描述变化 绝对变化是指从参考值到新值的实际增加或减少。 绝对变化=新值 —参考值 相对变化是绝对变化的大小与参考值之比,可以表示为百分比。 相对变化=(新值-参考值)/参考值 * 100...

2020-03-11 18:42:59 3131 1

原创 每天学点统计学——统计测量

一、数据类型和测量尺度(一)数据类型数据有两个基本类型:定性数据和定量数据。定性数据:是由非数值类别的值组成的。比如:鞋子的颜色,性别。定量数据:是由代表数量或者尺度的值组成的。比如:考试的分数。(二)离散数据与连续数据离散数据:只能取特定的、个别的值,而不能取这些值中间的值。连续数据:能够在给定的区间中取任何值。比如说,农场中奶牛的数量,由于只能取整数,所以数据是离散的。而农...

2020-03-10 14:52:20 1491

原创 机器学习笔记(二)—— 判断模型的好坏

一、 划分训练集和测试集训练集:用于训练模型的集合测试集:用于测试训练模型的集合。常见的数据集拆分方法:1. 留出法留出法(hold-out)直接将数据集D拆分成两个互斥的集合,其中一个作为训练集S,另一个作为测试集T。即D=S∪T,S∩T=∅。在S上训练出模型后,用T来评估其测试误差,作为对泛化误差的估计。注意:(1)训练/测试集的划分要尽可能保持数据分布的一致性,避免因数据划分...

2020-03-08 21:53:55 5933

原创 机器学习笔记(一)——KNN学习

一、概念:KNN(K-Nearest Neighber ,简称KNN)学习是一种常用的监督学习方法。(一)工作机制:给定测试样本,基于某种距离度量找出训练集中与其最靠近的k个训练样本,然后基于这k个“邻居”的信息来进行预测,其实就是所谓“近朱者赤,近墨者黑”。(二)训练过程:KNN学习,没有显式的训练过程,是典型的“懒惰学习”的技术,在训练阶段中仅仅把样本保存起来,训练时间开销为零,...

2020-03-01 12:51:00 1085

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除