努力奋斗的小白-CSDN博客

原创数据挖掘学习--Adaboost和GBDT

1.前言 Adaboost和GBDT是机器学习里面两个很重要的算法，他们是集成方法（ensemble learning）中提升（boosting）的两个算法。本篇博客就讲讲对这两个算法的一些理解。2.涉及的知识2.1提升（boosting）提升是一个迭代的过程，用来自适应地改变训练样本的分布，使基分类器都聚焦再那些很难分的样本上。如下图所示，通俗的讲就是我们同样...

2019-08-18 20:44:43 304

1.前言前一篇博客《数据挖掘学习–支持向量机SVM1》写了一下我对SVM思想的一些理解。本来当时就想写下之后的这几篇博客来完成SVM算法的初步学习笔记的，但是在不断回看自己写的博客，发现我对SVM的算法推导还是有很多不是很理解的地方，也花了比较多的时间去认真解决我碰到的问题。随口一提，支持向量机真的是个很有逻辑的算法，学习过程中也不禁膜拜起发明这种算法的科学家们。本文就接着写写对SVM中软边缘...

2019-08-15 13:38:26 246

原创数据挖掘学习--支持向量机SVM1

1.前言这几天把支持向量机看了几次，从一开始碰到朦朦胧胧的感觉再到找了挺多资料看了后，现在也算是有所了解了，但是但让也存在有不太懂的地方，欢迎指出错误之处。因为SVM的内容还是很多并且也有难度，没那么容易懂，所以会打算花一些篇幅来记录我理解的思路和我发现的一些问题2.SVMSVM是我们机器学习领域一个很重要并且很常用的分类回归算法，在很多场景下的SVM都是效果很好的。SVM名称为suppor...

2019-08-13 17:57:48 501

原创数据挖掘学习--精准率和召回率

1.前言机器学习中，我们的任务通俗的来讲就是训练出更好更准确更优的模型。那么面对不同的模型，我们应该用什么样的指标来评判他的优劣呢？最简单的一个指标，就是模型准确率，通过预测值和真实值的比值直接判断模型是否准确。当然很明显这是有缺陷的。这里就有好几个更加有意义的模型评估标准：精准率，召回率，TPR，FPR，f1-score以及ROC和AUC值等。本文先介绍一下精准率和召回率。2.精准率和召回...

2019-08-10 14:03:45 1849

原创数据挖掘学习--逻辑回归3

1.前言前文所讲的逻辑回归也将逻辑回归再建模时的一些问题学习了解决的方法，我在本文讲一下为何需要逻辑回归来代替线性回归呢？以及另外一个问题，逻辑回归的实际应用能力问题----单纯的逻辑回归只能应用于二分类问题，该如何处理？2.逻辑回归代替线性回归为什么要用逻辑回归来代替线性回归呢？我们首先要明确的是逻辑回归是一种分类器，它总的来讲是要达到我们输入一个带预测的向量后，经过模型的计算输出这个向量...

2019-08-08 22:17:30 155

原创数据挖掘学习--逻辑回归2

1.前言上一篇博客写的是我初步学习逻辑回归的一些理解和看法，那么之前也讲过了逻辑回归与线性回归有异曲同工之处，回想线性回归，也会记得面对实际应用，样本中可能并没有这种线性关系，就要我们引入多项式的线性回归来解决建模问题。那么自然的，也会有多项式逻辑回归问题。2.多项式逻辑回归与多项式线性回归一样的道理，是将原本的特征空间（很可能没有线性关系的特征空间）进行次方的增加，也是维度的增加，新增加的...

2019-08-08 21:39:10 184

原创数据挖掘学习--逻辑回归1

1.前言这几天一直在学习逻辑回归（在书上是叫逻辑斯提回归），听着这个名词并没有其他的机器学习方法那么容易知道他是做什么的。而实际上，逻辑回归类似与线性回归，只不过线性回归中是将每个数据样本（可能这个样本是一个向量）进行回归，而回归的结果是一个值，是一个预测的回归值。而逻辑回归就是在线性回归的基础上将这个回归值，通过函数计算得到一个概率值，再通过概率值来进行分类，从而得到分类的效果。2.逻辑回归...

2019-08-07 16:14:45 234

原创数据挖掘学习--LASSO降维

1.前言今天碰到了多项式回归以及正则化降维的知识点，还没有全部搞懂，略微写写现在自己的理解，理解有错误多多包涵。2.背景再我们的实际处理数据中，我们会碰到很多高维的数据。这些高维的数据意思就是样本基数n要远小于数据维度p。这种情况就会叫做维灾难。维灾难也会很容易导致另一个我们机器学习里面很严重的一个问题----overfitting。要想解决维灾难，无非就是解决n << p的问题...

2019-07-28 22:15:35 8385

原创数据挖掘学习--主成分分析

1.前言花了好几天的时间去学习数据挖掘里面的主成分分析（principal component analysis , PCA）。PCA是一种常用的无监督学习方法，他作为一种数据降维的方法是很有效的。选择的数据集很经常的都是高维数据，处理起来要么就是处理时间太慢，要么就是训练出来的学习模型精度会很低。同时，这些高维数据里面就有的数据是不相关的，这些特征（维）是我们不需要的。那么对于这种情况，降维是...

2019-07-27 16:24:27 1458

原创数据挖掘学习--多元线性回归算法

1.多元线性回归算法前面学习了简单的线性回归算法，简单的线性回归算法的数据值得是属性只有一项，同时也对应有一个类别值。那么这样的数据就是在二维空间上就是一个点，那么回归后在一个二维空间上就是一条回归直线，就有回归方程。那么对应的，在碰到数据不止一个属性值（N>=2），此时就归为了多元回归算法，那么就是在N维空间中找到那个可以映射的回归图形。2.数学理论如前面所说，简单的线性回归算法里...

2019-07-19 18:55:41 1821

原创数据挖掘学习--k-近邻分类器（最近邻分类器）

1.k-近邻分类器k-近邻算法是一种最简单的数据挖掘算法，在平时使用中也很常见。k-近邻中的近邻指的是距离待预测数据的数据点，而k-近邻就指的是取前k近的数据点，例如3-近邻算法就是找到3个离待预测数据作为最近邻。k-近邻算法是一种监督学习的算法（即原本的数据集中是分类明确的）。2.k-近邻分类器的原理最近邻分类器把每个样例（训练数据、测试数据同时也有待预测的数据）当作是d维空间上的一个数据...

2019-07-18 20:00:17 7064

原创数据挖掘学习--基于最小二乘法的线性回归算法

数据挖掘学习–基于最小二乘法的线性回归算法1.前言本人是计算机专业研一学生，在机器学习数据挖掘方面是小白。近期自学数据挖掘，看到最小二乘法在回归算法中的应用，写点东西来记录自己的学习过程。2.回归算法关于回归算法，和在数据挖掘中的分类算法有着如出一辙的功能，但是他们之间为何不是同一样东西呢，原因就是分类算法解决的数据是离散的属性，也就是他们的训练数据和待分类数据是离散的。而面对连续属性...

2019-07-18 19:04:44 3103

m0_37860003的博客