yb705-CSDN博客

原创特征工程——离散化与分箱

序数据表示的最佳方法不仅取决于数据的语义，还取决于所使用的模型种类。线性模型与基于树的模型（比如决策树，梯度提升树和随机森林）是两种成员很多同时有非常常用的模型，它们在处理不同的特征表示时就具有非常不同的性质。我们先用线性模型和决策树来训练一个数据集。PS：线性模型和决策树模型之前都已经讲解过了，感兴趣的可以去点击相关链接看一下，这里就不再赘述了。训练模型1.数据来源第一人称fps游戏csgo的等分数据：https://www.kaggle.com/sp1nalcord/mycsgo-data

2021-09-13 15:37:11 648 1

原创特征工程-独热编码

序到目前为止，我们一直假设数据是由浮点数组成的二维数组，其中每一列是描述数据点的连续特征。对于许多应用而言，数据的收集方式并不是这样。一种特别常见的特征类型就是分类特征，也叫离散特征。这种特征通常并不是数值。分类特征与连续特征之间的区别类似于分类和回归之间的区别，只是前者在输入端而不是输出端。**其实，无论你的数据包含哪种类型的特征，数据表示方式都会对机器学习模型的性能产生巨大影响。**譬如说，我们之前讲过的数据缩放。其实对于某个特定的应用来说，如何找到最佳数据表示，这个问题被称为特征工程，它是数据科学

2021-09-07 14:22:40 1679 1

原创无监督学习——聚类评估

序在用聚类算法时,其挑战之一就是很难评估一个算法的效果好坏,也很难比较不同算法的结果.在讨论完k均值,凝聚聚类和DBSCAN背后的算法之后,下面我们来说一下如何对聚类进行评估.有很多地方做的不是很好，欢迎网友来提出建议，也希望可以遇到些朋友来一起交流讨论。...

2021-08-30 16:21:03 1130 1

原创无监督学习——DBSCAN

序与之前提到的凝聚聚类，K均值聚类类似，DBSCAN也是一个非常有用的聚类算法。它的主要优点是它不需要用户先验地设置簇的个数，可以划分具有复杂形状的簇，还可以找出不属于任何簇的点。DBSCAN比凝聚聚类和k均值稍慢，但仍可以扩展到相对较大的数据集。接下来，我“简单”地介绍一下算法的原理（PS：大概看一下就好）。算法原理DBSCAN的全称是具有噪声的基于密度的空间聚类应用。顾名思义，DBSCAN的原理是识别特征空间的“拥挤”区域中的点，在这些区域中许多数据点靠近在一起。这些区域被称为特征空间中的密集区

2021-08-25 16:04:03 675 1

原创无监督学习——凝聚聚类

序凝聚聚类指的是许多基于相同原则构建的聚类算法，这一原则是：算法首先声明每个点是自己的簇，然后合并两个最相似的簇，直到满足某种停止规则为止。scikit-learn中实现的停止规则是簇的个数，因此相似的簇被合并，直到仅剩下指定个数的簇。还有一些链接准则，规定如何度量”最相似的簇“。这种度量总是定义在两个现有的簇之间。有很多地方做的不是很好，欢迎网友来提出建议，也希望可以遇到些朋友来一起交流讨论。...

2021-08-13 15:53:53 888 1

原创无监督学习——K均值聚类（下）

序之前我们讲了聚类中比较常用的K均值算法，包括原理，相关参数以及实际操作。那么本篇文章，我们来讲一下更复杂一点的内容，即K均值，PCA与NMF之间的比较。希望大家在阅读下面的内容之前，已经了解了K均值，PCA与NMF算法的基础知识。如果不清楚的话，可以点击下面的链接，来简单阅读下：K均值：无监督学习——K均值聚类（上）PCA：主成分分析（PCA）应用（上）；主成分分析（PCA）应用（下）NMF：非负矩阵分解（NMF）矢量量化，或者将k均值看作分解虽然k均值是一种聚类算法，但在k均值和分解方法（

2021-08-06 15:51:04 281 1

原创无监督学习——K均值聚类（上）

序近几年在机器学习领域里面，聚类是比较热门的一个词汇。它是将数据集划分成组的任务，这些组叫做簇。其目标是划分数据，使得一个簇内的数据点非常相似且簇内的数据点非常不同。与分类算法相似，聚类算法为每个数据点分配（或预测）一个数字，表示这个点属于哪个簇。但是，与分类算法不同的是，聚类属于无监督学习，也就是说事先并不知道数据集的标签或者说特征值分类，而分类算法是监督学习，意味着已经提前知道了数据点的所属类别。接下来，我重点介绍下聚类里面比较常用的算法——k均值聚类。K均值聚类1.算法介绍k均值聚类是最简单也

2021-07-30 14:19:27 2234 1

原创数据拟合实际应用

序之前我们已经学习了很多关于监督学习的算法，但是最近博主在看有关于数据分析的书籍的时候，忽然觉得在实际应用中，我们很少会用得到机器学习，数据挖掘方面的东西。我们所需要做的就是得到实际生活中的数据，并找出数据之间的关系，然后再根据这个关系去做一些运营，决策等行为，仅此而已。所以这篇我要说一下关于数据拟合的一些东西。（其实与监督学习的那些算法相比，数据拟合可以说是非常简单了。）简介数据拟合又称曲线拟合，俗称拉曲线，是一种把现有数据透过数学方法来代入一条数式的表示方式。科学和工程问题可以通过诸如采样、实验等

2021-07-09 16:37:36 3842 2

原创无监督学习——流形学习（t-SNE）

序之前我们已经说过PCA通常是用于数据变换的首选方法，使人能够用散点图将其可视化，但这一方法的性质（先旋转然后减少方向）限制了其有效性。而有一类可用于可视化的算法叫做流形学习算法，它允许进行更复杂的映射，通常也可以给出更好的可视化。其中一个特别有用的算法就是t-SNE算法。PCA原理传送门：无监督学习与主成分分析（PCA）算法原理流形学习算法主要用于可视化，因此很少用来生成两个以上的新特征。其中一些算法（包括t-SNE）计算训练数据的一种新表示，但不允许变换新数据。这意味着这些算法不能用于测试集：准

2021-07-08 15:40:00 1363 3

原创无监督学习——非负矩阵分解（NMF）

序非负矩阵分解（NMF）是一种无监督学习算法，其目的在于提取有用的特征。它的工作原理类似于PCA，也可以用于降维。与PCA相同，我们试图将每个数据点写成一些分量的加权求和。但在PCA中，我们想要的是正负分量，并且能够解释尽可能多的数据方差；而在NMF中，我们希望分量和系数均为负，也就是说，我们希望分量和系数都大于或等于0。因此，NMF只能应用于每个特征都是非负的数据，因为非负分量的非负求和不可能变为负值。将数据分解成非负加权求和的这个过程，对由多个独立源相加（或叠加）创建而成的数据特别有用，比如多人说话

2021-07-02 15:22:26 3828 3

原创主成分分析（PCA）应用——特征提取_人脸识别（下）

主成分分析（PCA）应用——特征提取/人脸识别（下）序在上一篇文章中，我简单说了下利用python对图像进行操作的基础知识，不了解这方面的小伙伴可以去查看下。（传送门——主成分分析（PCA）应用——特征提取_人脸识别（上））接下来我们来看一下关于人脸识别的模型训练，以及PCA对机器学习流程的优化。数据集就是我们在主成分分析（PCA）应用——特征提取_人脸识别（上）中已经处理完的图像数据，这里就不再赘述了。模型训练人脸识别的一个常见任务就是看某个前所未见的人脸是否属于数据库中的某个已知人物。这在照

2021-06-25 16:33:50 1594 1

原创主成分分析（PCA）应用——特征提取_人脸识别（上）

主成分分析（PCA）应用——特征提取/人脸识别（上）序我在另一篇文章《无监督学习与主成分分析（PCA）》中已经讲过关于PCA的原理，以及它的其中一个应用——降维。那么本篇文章我来说一下PCA的另一个应用——特征提取。特征提取背后的思想是，可以找到一种数据表示，比给定的原始表示更适合分析。特征提取很有用，它的一个很好的应用实例就是最近几年很火的人脸（图像）识别。考虑到有很多小伙伴不了解图像的处理，所以我们分成上下两篇来进行讲解。本篇先讲解图像的基础以及python通常是如何处理图像的。数据来源L

2021-06-25 15:41:44 4693 1

原创无监督学习与主成分分析（PCA）

无监督学习与主成分分析（PCA）-降维序在之前的文章中，我讲了很多的监督学习的算法（线性模型，SVM，决策树，神经网络等），那么接下来，我们要开始接触无监督学习了。首先，我们先说下相关概念。无监督学习与监督学习不同，在无监督学习中，学习算法只有输入数据，并且从数据中提取需要的知识。而其中有两种常用类型：数据集变换和聚类。无监督变换是创建数据新的表示的算法，与数据的原始表示相比，新的表示可能更容易被人或其它机器学习算法所理解。而无监督变换的一个常见应用就是降维，它接受包含许多特征的数据的高维表示，并

2021-06-17 15:34:47 3584 5

原创 python机器学习之数据预处理与缩放

python 机器学习之数据预处理与缩放序之前我们在接触监督学习时了解到，有一些算法（譬如神经网络和SVM）对于数据的缩放非常敏感。因此，通常的做法是对数据集进行调节，使得数据表示更适合于这些算法。通常来说，这是对数据特征的一种简单的缩放和移动。机器学习的理论实际上是起源于概率论与数理统计，接下来，我们来简单提几个相关概念，来帮助大家更好地理解接下来的要说的几种处理方法。基础概念中位数——对于一组数字来说，中位数指的是这样的数值x：有一半的数值小于x，另一半的数值大于x。如果数据集的数据个数是偶数

2021-06-10 14:59:52 2093 3

原创分类器不确定度估计，监督学习算法小结及学习分享

python 分类器不确定度估计及监督学习算法小结序我们之前用到的所有机器学习的算法均来自于scikit—learn库，但是这个接口还有另一个用处，就是能够给出分类器预测结果的不确定性估计。有的时候，我们不仅要关心一个测试数据点究竟属于哪个类别，还要考虑这个预测的置信区间。譬如，在最近新冠疫情中出现的无症状感染，如果是假阳性预测，那么可能只会让患者接受额外的测试，但是如果是假阴性感染却有可能导致患者没有得到治疗。（机器学习的大部分算法均是建立在概率统计的基础上的，而概率等于99.9%却并不意味着事件一定

2021-06-02 16:06:55 421 1

原创神经网络（深度学习）算法之分类实操

python 神经网络（深度学习）算法之分类实操序我想接触过机器学习的人应该都听过一个高大上，但是又非常陌生的算法，就是“神经网络”。尤其是最近两年，这类被称为神经网络的算法以“深度学习”的名字再度流行。虽然深度学习在许多机器学习应用中都有非常大的潜力，但深度学习算法往往经过精确调整，只适用于特定的使用场景。接下来，我们只讨论一些相对简单的方法，即用于分类和回归的多层感知机（MLP），它可以作为研究更复杂的深度学习方法的起点。MLP也被称为（普通）前馈神经网络，有时也简称为神经网络。算法简介神经网络

2021-05-25 15:29:32 5154 1

原创支持向量机（SVM）算法之补充说明

python 支持向量机（SVM）算法之补充说明序之前我有写过一篇关于svm的使用流程和基本概念讲解——支持向量机（SVM）算法之分类实操。不过最近又接触了一些关于svm的基础概念和预处理数据的使用，所以在这里做一下简单地补充。在接触本篇文章之前，建议先去看完支持向量机（SVM）算法之分类实操，一些我之前讲过的东西，这里就不在赘述了。核技巧首先需要声明的一点是，向数据表示中添加非线性特征，可以让线性模型变得更强大。但是，通常来说我们并不知道要添加哪些特征，而添加许多特征（比如100维特征空间所有可能

2021-05-12 16:41:54 625 1

原创决策树集成-梯度提升回归树之分类实操

python 决策树集成-梯度提升回归树之分类实操基础概念集成集成是合并多个机器学习模型来构建更强大模型的方法。在机器学习算法中有许多模型属于这一类，但已证明有两种集成模型对大量分类和回归的数据集都是有效的，二者都以决策树为基础，分别是随机森林（random forest）和梯度提升决策树（gradiet boosted decision tree）。之前已经讲解过了随机森林(决策树集成-随机森林之分类实操),这次讲解梯度提升决策树。在了解梯度提升决策树之前,建议先去看一下我的另外两篇讲解决策树的文

2021-05-08 12:57:48 1071 1

原创决策树集成-随机森林之分类实操

python 决策树集成-随机森林算法之分类实操基础概念集成集成是合并多个机器学习模型来构建更强大模型的方法。在机器学习算法中有许多模型属于这一类，但已证明有两种集成模型对大量分类和回归的数据集都是有效的，二者都以决策树为基础，分别是随机森林（random forest）和梯度提升决策树决策（gradiet boosted decision tree）。本片文章先讲解一下随机森林。在了解随机森林之前建议先去看一下我的另外两篇讲解决策树的文章决策树算法之讲解实操（上）和决策树算法之讲解实操（下），重复

2021-04-28 15:18:22 943 2

原创决策树算法之讲解实操（下）

python 决策树算法之讲解实操（下）序在上篇的文章决策树算法之讲解实操（上）当中，我们主要了解了决策树的算法原理，实际应用，以及简单介绍了下决策树的复杂度参数。而这篇我们主要讲解决策树的分析可视化，特征值重要程度，以及讨论回归决策树。决策树的分析与可视化树的可视化有助于深入理解算法是如何进行预测的，也是易于向非专家解释的机器学习算法的优秀示例。我们可以利用tree模块的export_graphviz函数来将树可视化。这个函数会生成一个.dot格式的文件，这是一种用于保存图形的文本文件格式。我们设

2021-04-21 13:24:31 952 1

原创决策树算法之讲解实操（上）

python 决策树算法之讲解实操（上）序这次讲解机器学习里面非常经典的一个算法模型——分类树。由于篇幅比较长，所以特分为上下两篇讲解。本篇主要讲解决策树的原理，实际应用以及参数。算法介绍1.分类树原理决策树是广泛应用于分类和回归任务的模型。本质上，它从一层层的if/else问题中进行学习，并得出结论。想像一下，你想要区分下面四种动物：熊，鹰，企鹅和海豚。你的目标是通过提出尽可能少的if/else问题来得到正确答案。而这个提问过程可以表示为一棵决策树，如下图所示：在这张图中，树的每个结点代表一

2021-04-14 15:34:07 971 3

原创朴素贝叶斯分类器之分类实操

python 朴素贝叶斯分类器之分类实操基本概念鲁棒性Huber从稳健统计的角度系统地给出了鲁棒性3个层面的概念：1.是模型具有较高的精度或有效性，这也是对于机器学习中所有学习模型的基本要求；2.是对于模型假设出现的较小偏差，只能对算法性能产生较小的影响，如噪声；3.是对于模型假设出现的较大偏差，不可对算法性能产生“灾难性”的影响，如离群点。PS：上面的解释是从网上抄来的定义：对于聚类（分类）算法而言，鲁棒性意味着聚类结果不应受到模型中存在的数据扰动、噪声及离群点的太大影响。算法简介朴素

2021-04-09 13:30:09 1196 5

原创支持向量机（SVM）算法之分类实操

python 支持向量机（SVM）算法之分类实操算法简介SVM之前我们用了很多线性算法来做预测模型，像是逻辑算法（LogisticRegression),lasso,岭回归。但现实生活中，很多事情不是线性可分的（即画一条直线就能分类的），而SVM就是专治线性不可分，把分类问题转化为平面分类问题。这个算法中，我们将每一个数据项作为一个点，而在n维空间中(其中n是你拥有的特征数)作为一个点，每一个特征值都是一个特定坐标的值。然后，我们通过查找区分这两个类的超平面来进行分类。我们用一张图形来说明这一点：

2021-03-31 16:16:39 3184 1

weixin_43580339的博客