岳小刀-CSDN博客

原创机器学习系列手记（八）：采样之不均衡样本集的重采样

采样不均衡样本集的重采样在训练二分类模型时，例如姨姥诊断、网络入侵检测、信用卡反欺诈等，经常会遇到正负样本不均衡的问题。对于很多分类算法，如果直接采用不均衡的样本集来进行学习，会存在一些问题。例如，如果正负样本比例达到1:99，则分类器简单的将所有样本都判为负样本就能达到99%的正确率，显然这不是我们想要的，我们想让分类器...

2020-04-27 22:29:20 2927

原创机器学习系列手记（八）：采样之贝叶斯网络的采样

采样贝叶斯网络的采样贝叶斯网络，又称为信念网络或有向无环图模型，是一种概率模型，利用有向无环图来刻画一组随机变量之间的条件概率分布关系。如图1是贝叶斯网络的一个经典例子，用来刻画Cloudy、Sprinkler、Rain、WetGrass等变量之间的条件分布关系。 &nbs...

2020-04-27 22:27:19 4217 1

原创机器学习系列手记（八）：采样之马尔可夫蒙特卡洛采样法（MCMC）

采样马尔可夫蒙特卡洛采样法（MCMC） MCMC包括两个MC，即蒙特卡洛和马尔可夫链。蒙特卡洛是指基于采样的数值型近似求解方法，而马尔可夫链则用于进行采样。MCMC采样的基本思想是：针对待采样的目标分布，构造一个马尔可夫链，使得该马尔可夫链的平稳分布就是目标分布；然后，从任意一个初始状态出发，沿着马尔可夫链进行状态转移，最终...

2020-04-27 22:26:18 2194

原创机器学习系列手记（八）：采样之高斯分布采样

采样高斯分布采样首先，假设随机变量 zzz 服从标准正态分布 N(0,1)N(0,1)N(0,1)，令x=σ⋅z+μx=\sigma \cdot z + \mux=σ⋅z+μ则 xxx 服从均值为 μ\muμ、方差为 σ2\sigma^{2}σ2的高斯分布 N(μ,σ2)N(\mu, \sigma^{2})N(μ,σ2...

2020-04-27 22:19:16 12175

原创机器学习系列手记（八）：采样之常见的采样方法

采样常见的采样方法对于一个随机变量，通常用概率密度函数来刻画该变量的概率分布特性。具体来说，给定随机变量的一个取值，可以根据该力密度函数来计算该值对应的概率（密度）。反过来，也可以根据概率密度函数提供的概率分布信息来生成随机变量的一个取值，这就是采样。因此，从某种意义上来说，采样是概率密度函数的逆向应用。与根据概率密度函数...

2020-04-27 22:13:23 1606

原创机器学习系列手记（八）：采样之均匀分布随机数

采样均匀分布随机数均匀分布是指在整个样本空间中的每一个样本点对应的概率（密度）都是相等的。根据样本空间是否连续，又分为离散均匀分布和连续均匀分布。均匀帆布可以算作是最简单的概率分布。从均匀分布中进行采样，即生成均匀分布随机数，几乎是所以采样算法都需要用到的基本操作。 &nbs...

2020-04-27 22:03:04 3761

原创机器学习系列手记（八）：采样之采样的作用

采样采样，顾名思义就是从特定的概率分布中抽取相应样本点的过程。采样在机器学习中有着非常重要的应用：它可以将复杂的分布简化为离散的样本点；可以用重采样对样本集进行调整以更好地适应后期的模型学习；可以用于随机模拟已进行复杂模型的近似求解或推理。另外，采样在数据可视化方面也有很多应用，可以帮助人们快速、直观地了解数据的结构和特性。...

2020-04-27 21:51:18 2925

原创机器学习系列手记（七）：优化算法之L1正则化与稀疏性

优化算法L1正则化与稀疏性稀疏性，说白了就是模型的很多参数是0。这相当于对模型进行了一次特征选择，只留下一些比较重要的特诊个，提高模型的泛化能力，降低过拟合的可能。在实际应用中，机器学习模型的输入动辄几百上千万维，稀疏性就显得更加重要。下面我们来说说L1正则化使得模型参数具有稀疏性的原理。 &nbs...

2020-04-19 20:34:24 911

原创机器学习系列手记（七）：优化算法之随机梯度下降法的加速

优化算法随机梯度下降法的加速提到深度学习中的优化算法，人们通常会想到随机梯度下降。但随机梯度下降有时确是你算法中的一个坑。当你设计出一个深度神经网络谁，如果只知道用随机梯度下降来训练模型，那么当你得到一个比较差的训练结果时，你可能会放弃在这个模型上继续投入精力。然而，造成训练效果差的真正原因可能并不是模型的问题，而是随机梯...

2020-04-19 20:24:55 910

原创机器学习系列手记（七）：优化算法之随机梯度下降法

优化算法随机梯度下降法在机器学习中，优化问题的目标函数通常可以表示成其中 θ\thetaθ 是待优化的模型采参数， xxx 是模型输入， f(x,θ)f(x,\theta)f(x,θ) 是模型的实际输出， yyy 是模型的目标输出，函数 LLL 刻...

2020-04-19 20:12:52 928 1

原创机器学习系列手记（七）：优化算法之经典优化算法

优化算法经典优化算法经典优化算法可以分为直接法和迭代法两大类。直接法能够直接给出优化问题的最优解，但使用它有限制。直接法要求目标函数需要满足两个条件，其一是L(⋅)L(\cdot)L(⋅)是凸函数，那么θ∗\theta^*θ∗是最优解的充分必要条件是...

2020-04-19 20:08:03 751

原创机器学习系列手记（七）：优化算法之有监督学习的损失函数

优化算法实际上，机器学习算法=模型表征+模型评估+优化算法。其中，优化算法所做的事情就是在模型表征空间中找到评估模型指标最好的模型。不同的优化算法对应的模型表征和评估指标不尽相同，例如经典的支持向量机对应的模型表征和评估指标分别是线性分类模型和最大间隔，逻辑回归对应的模型表征和评估指标则分别为线性分类模型和交叉熵。随着大数...

2020-04-19 20:03:44 730

原创机器学习系列手记（七）：优化算法之机器学习中的优化问题

优化算法机器学习中的优化问题大部分机器学习模型的参数估计问题都可以写成优化问题。机器学习模型不同，损失函数不同，对应的优化问题也各不相同。1、凸优化问题凸优化：函数P(⋅)P(\cdot)P(⋅)是凸函数当且仅当对定义域中的任意两点x,yx,yx,...

2020-04-19 20:00:16 248

原创机器学习系列手记（六）：概率图模型之生成式模型与判别式模型

概率图模型生成式模型与判别式模型假设可观测到的变量集合为 XXX，需要预测的变量集合为 YYY，其他的变量集合为 ZZZ。生成式模型是对联合概率分布 P(X,Y,Z)P(X,Y,Z)P(X,Y,Z) 进行建模，在给定观测集合 XXX 的条件下，通过计算边缘分布来得到对变量集合 YYY 的推断，即 ...

2020-04-13 22:02:25 646

原创机器学习系列手记（六）：概率图模型之马尔可夫模型

概率图模型马尔可夫模型马尔可夫过程是满足无后效性的随机过程。假设一个随机过程中，tnt_ntn 时刻的状态 xnx_nxn 的条件分布，仅仅与其前一个状态 xn−1x_{n-1}xn−1 有关，即P(xn∣x1,x2,...,xn−1)=P(xn∣xn−1)P(x_n|x_1,x_2,...,x_{n-1})=P(x...

2020-04-13 22:01:14 767

原创机器学习系列手记（六）：概率图模型之主题模型

概率图模型主题模型基于词袋模型或N-gram模型的文本标识模型有一个明显的缺陷，就是无法识别出两个不同的词或词组具有相同的主题，因此产生了主题模型。主题模型能够将具有相同主题的词或词组映射到同一维度上去，是一种特殊的概率图模型。判断两个不同的词属于同一主题的依据可能是这两个词有更高的概率同时出现在同一篇文档中，或给定某一主...

2020-04-13 21:54:22 1209

原创机器学习系列手记（六）：概率图模型之概率图表示

概率图模型概率图表示1、朴素贝叶斯模型的原理及其概率图模型表示朴素贝叶斯模型通过预测指定样本属于特定类别的概率 P(yi∣x)P(y_i|x)P(yi∣x) 来预测该样本的所属类别，即y=maxyiP(yi∣x)y=max_{y_i}P(y_i|x)y=maxyiP(yi∣x)P(yi∣x)P(y_i|x)P...

2020-04-06 19:40:51 597

原创机器学习系列手记（六）：概率图模型之概率图模型的联合概率分布

概率图模型对于一个实际问题，我们希望能够挖掘隐含在数据中的知识。概率图模型构建了这样一幅图，用观测节点表示观测到的数据，用隐含节点表示潜在知识，用边来描述知识与数据的相互关系，最后基于这样的关系图获得一个概率分布。概率图中的节点分为隐含节点和观测节点，边分为有向边和无向边。从概率论的角度，节点对应于随机变量，边对应于随机变...

2020-04-06 19:40:06 2478

原创机器学习系列手记（五）：非监督学习之自组织映射神经网络

非监督学习自组织映射神经网络自组织映射神经网络（Self-Organizing Map，SOM）是无监督学习方法中一类重要的方法，可用作聚类、高维可视化、数据压缩、特征提取等多种途径。自组织映射神经网络融入了大量人脑神经元的信号处理机制，有着独特的结构特点。1、自组织映射神经网络的工作流程 &nb...

2020-04-05 21:48:24 1052

原创机器学习系列手记（五）：非监督学习之聚类算法的评估

非监督学习聚类算法的评估在无监督的情况下，我们可以通过考察簇的分离情况和簇的紧凑情况来评估聚类的效果。1、轮廓系数给定一个点 ppp，该点的轮廓系数定义为其中 a(p)a(p)a(p) 是点ppp与同一簇中的其他点 p′p'p′ 之间的平均距离...

2020-04-05 21:47:19 464

原创机器学习系列手记（五）：非监督学习之高斯混合模型

非监督学习高斯混合模型高斯混合模型（Gaussian Mixed Model，GMM）也是一种常见的聚类算法，与K均值算法类似，同样使用了EM算法进行迭代计算。高斯混合模型假设每个簇的数据都是符合高斯分布（又叫正态分布）的，当前数据呈现的分布就是各个簇的高斯分布叠加在一起的结果。理论上，高斯混合模型可以拟合出任意类型的分布...

2020-04-04 22:13:11 428

原创机器学习系列手记（五）：非监督学习之K均值聚类

非监督学习实际工作中经常遇到的一类问题是：给机器输入大量的特征数据，并期望机器通过学习找到数据中存在的某种共性特征或结构，抑或是数据之间存在的某种关联，这类问题被称为“非监督学习”问题。它并不像监督学习那样希望预测某种输出结果，有没有输入数据的标签，需要通过算法模型来挖掘数据内在的结构和模式。非监督学习主要包含两大类学习方法...

2020-04-04 20:26:49 781

原创机器学习系列手记（四）：降维之线性判别分析与主成分分析

降维线性判别分析与主成分分析相同点：若将LDA扩展到高维情况，多类的类间散度矩阵不能按照二分类的情况进行的定义，此时可以得到与PCA类似的步骤，用于求解具有多个类别标签高维数据的降维问题。（1）计算数据集中每个类别的均指向量 μj\mu_jμj ...

2020-04-03 21:41:15 256

原创机器学习系列手记（四）：降维之线性判别分析

降维线性判别分析相比于PCA，线性判别分析（Linear Discriminant Analysis，LDA）可以作为一种有监督的降维算法。PCA算法没有考虑数据的标签（类别），只是把原数据映射到一些方差比较大的方向上。假设有两类数据C1、C2C_1、C_2C1、C2，如下图所示。根据PCA算法数据应该映射到方差最大的...

2020-04-03 21:31:20 340

原创机器学习系列手记（四）：降维之PCA最小平方误差理论

降维PCA最小平方误差理论上一节介绍了从最大方差角度解释PCA的原理、目标函数和求解方法，本节将通过最小平方误差的思路对PCA进行推导。以二维空间中的点为例，上一节求解得到一条直线使得样本点投影到该直线上的方差最大。从求解直线的思路出发，容易想到数学中的线性回归问题，其目标也是求解一个线性函数使得对应直线能够更好的拟合样本点集合。如果从这个角度出发推导PCA，那么问题会转化为一个回归问题。...

2020-04-03 20:38:35 973

降维在机器学习中，数据通常需要被表示成向量形式以输入模型进行训练，有时这些向量所处在高维空间，包含很多冗余和噪声，对这样的向量进行处理和分析会极大地消耗系统资源，甚至产生维度灾难。因此，进行降维，即用一个低维度的向量表示原始高维度的特征就显得极其重要。我们希望通过降维的方式来寻找数据内部的特性，从而提升特征表达能力，降低训练复杂度。常见的降维方法有主成分分析、线性判别分析、等距映射、局部线性嵌入...

2020-04-03 20:24:07 1544 1

原创机器学习系列手记（三）：模型评估

模型评估在计算机科学特别是机器学习领域中，对模型的评估至关重要。只有选择与问题相匹配的评估方法，才能快速的发现模型选择或训练过程中出现的问题，迭代地对模型进行优化。模型评估分为离线评估和在线评估两个阶段。针对分类、排序、回归、序列预测等不同类型的机器学习问题，评估指标的选择也有不同。一评估指标的局限性1、准确率的局限性...

2020-03-13 10:49:12 1003

原创机器学习系列手记（二）：特征工程之图像数据不足时的处理方法

特征工程图像数据不足时的处理方法在机器学习中，绝大部分模型都需要大量的数据进行训练和学习，然而实际应用中经常遇到训练数据不足的问题。这里列出两个具体的问题，假设在图像分类任务中，训练数据不足会带来什么问题？如何缓解数据量不足带来的问题？1、训练数据不足会带来什么问题 &nb...

2020-03-04 19:06:20 283

原创机器学习系列手记（二）：特征工程之文本表示模型、Word2Vec

特征工程特征工程之文本表示模型、Word2Vec五、文本表示模型1、词袋模型和N-gram模型词袋模型就是将整段文本以词为单位分隔开，忽略每个词出现的顺序，然后将每篇文章表示成为一个长向量，向量中的每一维代表一个单词，而该维对应的权重则反映了这个词在原文本中的重要程度。常用TF-IDF来计算权重，公式为TF−IDF(...

2020-03-02 18:05:13 516

原创机器学习系列手记（二）：特征工程之特征归一化、类别型特征、高维组合特征的处理、组合特征

特征工程俗话说，“巧妇难为无米之炊”。在机器学习中，数据和特征就是“米”，模型和算法就是“巧妇”。没有充足的数据、合适的特征，再强大的模型结构也无法得到满意的输出。数据和特征往往决定了一个机器学习问题结果的上限，而模型、算法的选择及优化则是在逐步接近这个上限。 &n...

2020-03-02 17:50:47 1093

原创机器学习系列手记（一）：机器学习基本概念和分类

机器学习基本概念和分类一、基本概念机器学习：指计算机通过观察环境，与环境交互，在吸取信息中学习、自我更新和进步。它是基于数据建立模型并运用模型对数据进行预测和分析的一门学科。它从数据出发，提取数据的特征，抽象出数据的模型，发现数据中的知识，又回到对数据的分析和预测中。 &nb...

2020-02-27 17:22:48 576

原创统计学习方法算法学习笔记（六）之支持向量机 — SVM

支持向量机总述支持向量机是一种二类分类模型。它的基本模型是定义在特征空间上的间隔最大的线性分类器，间隔最大使它有别于感知机；支持向量机还包括核技巧，这使它成为实质上的非线性分类器。支持向量机的学习策略就是间隔最大化，可形式化为一个求解图凸二次规划的问题，也等价于一个正则化的合页损失函数的最小化问题。支持向量机的学习算法是求解凸二次规划的最优化算法。支持向量机学习方法包含构建由简至繁的模型：线...

2020-02-27 16:41:52 376

原创《统计学习方法》算法学习笔记五之逻辑斯谛回归与最大熵模型

逻辑斯谛回归与最大熵模型总述逻辑斯谛回归是统计学习中的经典分类方法。最大熵是概率模型学习的一个准则，将其推广到分类问题得到最大熵模型。逻辑斯谛回归与最大熵模型都属于对数模型。逻辑斯谛回归模型...

2020-01-08 22:33:04 197

原创《统计学习方法》算法学习笔记（四）之决策树（下）

决策树CART算法CART是在给定输入随机变量XXX条件下输出随机变量YYY的条件概率分布的学习方法。CART假设决策树是二叉树，内部节点特征的取值为“是”和“否”，左分支是取值为“是”的分支，右分支是取值为“否”的分支。这样的决策树等价于递归地二分每个特征，将输入空间即特征空间划分为有限个单元，并在这些单元上确定预测的概率分布，也就是在输入给定的条件下输出的条件概率分布。CART算法由以下...

2020-01-05 09:35:34 215

原创《统计学习方法》算法学习笔记（四）之决策树（中）

决策树3 决策树的生成3.1 ID3算法ID3算法的核心是在决策树各个节点上应用信息增益准则选择特征，递归地构建决策树。具体算法是：从根结点开始，对结点计算所有可能的特征的信息增益，选择信息增益最大的特征作为结点的特征，由该特征的不同取值建立子结点；再对子结点递归调用以上方法，构建决策树，直到所有特征的信息增益均很小或没有特征可以选择为止。ID3相当于用极大似然法进行概率模型的选择。算法：...

2020-01-02 17:06:24 134

原创《统计学习方法》算法学习笔记（四）之决策树（上）

感知机总述决策树是一种基本的分类与回归方法，本节主要讨论用于分类的决策树。决策树呈树状结构，在分类问题中，表示基于特征对实例进行分类的过程。它可以认为是if-then规则的集合，也可以认为是定义在特征空间与类空间上的条件概率分布。其主要优点是模型具有可读性，分类速度快。学习时，利用训练数据，根据损失函数最小化的原则建立决策树。预测时，对新的数据，利用决策树模型进行分类。决策树通常包含3个步骤：...

2020-01-02 08:03:31 252

原创《统计学习方法》学习笔记（三）之朴素贝叶斯法

朴素贝叶斯法总述朴素贝叶斯法是基于贝叶斯定理与特征条件独立性假设的分类方法。对于给定的训练数据集，首先基于特征独立性假设学习输入/输出的联合概率分布；然后基于此模型，对给定的输入xxx，利用贝叶斯定理求出后验概率最大的输出yyy。朴素贝叶斯法实际上学到了生成数据的机制，属于生成模型。1 朴素贝叶斯法的学习与分类1.1 基本方法设输入空间xxx包含于RnR^nRn为nnn维向量的集合，输出...

2019-12-31 10:50:25 162

原创《统计学习方法》算法学习笔记（二）之 K近邻法

K近邻法总述kkk近邻法（kkk-nearest neighbor，kkk-NN）是一种基于分类与回归的方法，本节只讨论分类问题中的kkk近邻法。kkk近邻法的输入为实例的特征向量，对应于特征空间中的点；输出为实例的类别，可以取多类。kkk近邻法假设给定一个训练数据集，其中的实例类别已定。分类时，对新的实例，根据其kkk个最近邻的训练实例的类别，通过多数表决等方式进行预测。因此，kkk近邻法不...

2019-12-30 11:18:03 213

原创《统计学习方法》算法学习笔记（一）之感知机

感知机总述感知机是二类分类的线性分类模型，其输入为实例的特征向量，输出为实例的类别，取+1和-1二值。感知机对应于输入空间（特征空间）中将实例划分为正负两类的分离超平面，属于判别模型。感知机学习旨在求出将训练数据进行线性化分的分离超平面，为此，导入基于误分类的损失函数，利用梯度下降法对损失函数极小化，求得感知机模型。感知机学习算法具有简单而易于实现的优点，分为原始形式和对偶形式。感知机预测是用...

2019-12-30 08:38:53 150

原创 anaconda创建虚拟环境安装不同深度学习框架

anaconda创建虚拟环境安装不同深度学习框架说在前面的话一使用anaconda创建虚拟环境二修改下载源三在虚拟环境中安装cuda和cudnn四在虚拟环境中安装TensorFlow和Keras五在虚拟环境中安装PyTorch六配置环境常用命令最近带一个学弟做毕设，深度学习方向，需要安装TensorFlow、PyTorch等深度学习框架。想当初自己是新手的时候可没少被配环境、安装深度...

2019-12-26 18:23:19 696

空空如也

空空如也