cute_Lily-CSDN博客

原创 CSDN-Markdown LateX 数学公式

CSDN-markdown编辑器支持基于MathJax编写LaTeX数学公式，这篇文章就是介绍如何使用LaTeX语法在 CSDN 编写数学公式。1 公式分类LaTeX 的数学公式有两种，行内公式和块级公式1.1 行内公式行内公式是放在文中与其他文字混编，标记方法：用一个美元符号 $ 包围起来例如：这是一个行内公式 $a+b=b+a$效果：这是一个行内公式 a+b=b+aa+b=b+aa+b=b+a1.2 块级公式块级公式是会单独成行的数学公式，标记方法：用两个美元符号 $$ 包围起来

2020-11-11 15:47:53 1188

原创十一、高斯混合模型（Gaussian Mixed Model, GMM）

1 高斯模型1.1 单高斯模型当样本数据 XXX 是一维数据时，XXX 服从高斯分布是指其概率密度函数（Probability Density Function）可以用下面的式子表示：P(x∣θ)=12πσexp⁡(−(x−μ)22σ2)P(x|\theta)=\frac{1}{\sqrt{2\pi} \sigma} \exp (-\frac{(x-\mu)^2}{2\sigma^2})P(x∣θ)=2πσ1exp(−2σ2(x−μ)2)其中，μ\muμ 为数据均值（期望），σ\sigmaσ

2020-11-10 13:21:44 4037 1

原创十、K 均值聚类（K-means）

聚类是在事先并不知道任何样本类别标签的情况下，通过数据之间的内在关系把样本划分为若干类别，使得同类别样本之间的相似度高，不同类别之间的样本相似度低的过程。因为没有用到样本的类别标签，因此聚类技术经常被称为无监督学习。k 均值聚类是最著名的划分聚类算法，因为其简洁和高效的特性，使得它成为所有聚类算法中最广泛使用的一种。1 基本思想K 均值聚类的基本思想是，通过迭代方式寻找 KKK 个簇（Cluster）的一种划分方案，使得聚类结果对应的代价函数最小。算法的流程如下：输入数据集合，并对数据进行预处理

2020-10-29 21:01:50 5221

原创机器学习常用的损失函数

1 回归问题1.1 均方差损失（Mean Squared Error Loss, MSE）/ L2损失均方差损失是回归任务中最常用的一种损失函数，也称为 L2 Loss，其基本形式为：JMSE=1N∑i=1N(yi−f(xi))2J_{MSE}=\frac{1}{N} \sum_{i=1}^N (y_i - f(x_i))^2JMSE=N1i=1∑N(yi−f(xi))21.1.1 原理均方差损失函数1.2 平方绝对误差损失（Mean Absolute Error Loss, MAE）

2020-10-21 19:56:09 788

原创局部敏感哈希（Locality-Sensitive Hashing, LSH）

局部敏感哈希是工程实际中主流的快速 Embedding 向量最近邻搜索方法，它属于近似最近邻查找（Approximate Nearest Neighbor, ANN）的一种。1 局部敏感哈希的基本原理局部敏感哈希的基本思想是：让相邻的点落入同一个“桶”中，在进行最近邻搜索时，只需要在一个桶，或者相邻的几个桶内进行搜索。LSH 算法基本原理是：用一个Hash 方法将数据从原空间映射到一个新的空间中，使得在原空间相似（距离近）的数据，在新的空间中也相似的概率很大，而在原空间不相似（距离远）的数据，在新的

2020-10-18 18:08:03 9294

原创 KD树（K-Dimension Tree）

当训练集很大时，计算输入实例和每个训练样本的距离既耗费资源又费时，为了提高 kkk 近邻搜索的效率，可以使用一些特殊的结构存储训练数据来减少计算距离的次数，如KD 树。KD 树（K-Dimension Tree）是对数据点在 kkk 维空间中划分的一种数据结构，主要应用于多维空间关键数据的搜索（如范围搜索和最近邻搜索）。本质上说，KD树就是一种平衡二叉树。范围查询就是给定查询点和查询距离的阈值，从数据集中找出所有和查询点距离小于阈值的数。K近邻查询是给定查询点和正整数 KKK，从数据集中找到距离

2020-10-18 15:57:47 1188

原创机器学习中常用的距离公式

距离应满足的性质：非负性同一性对称性直递性（三角不等式）：dist(i,j)≤dist(i,k)+dist(k,j)dist(i,j)\leq dist(i,k)+dist(k,j)dist(i,j)≤dist(i,k)+dist(k,j)1 两点之间的距离令两点为 X=(x1,x2,⋯ ,xn)X=(x_1,x_2,\cdots,x_n)X=(x1,x2,⋯,xn)，Y=(y1,y2,⋯ ,yn)Y=(y_1,y_2,\cdots,y_n)Y=(y1,y2,⋯,yn)1.1

2020-10-17 22:09:57 748

原创神经网络的注意力机制（Attention）

1 注意力的简介注意力机制也称为：“神经网络的注意力”，或者更简单的：“注意力”。人脑在工作时，其实是由一定的注意力的，比如我们在浏览器上搜索时，大部分的注意力都集中在搜索结果的左上角，这说明大脑在处理信号的时候是有一定权重划分的，而注意力机制的提出正是模仿了大脑的这种特性。神经网络的注意力就是说，神经网络具有将注意力集中到一部分输入（或特征）的能力。（1）为什么引入注意力机制呢？计算能力的限制：目前计算能力依然是限制神经网络发展的瓶颈，当输入的信息过多时，模型也会变得更复杂，通过引入注意力，可

2020-10-16 14:34:27 22532 1

原创生成式对抗网络（Generative Adversarial Networks, GANs）

1 GANs 的结构生成式对抗网络 GANs 包括两个部分：生成器（Generator）：用于生成“假”样本。生成器从先验分布中采得随机信号，经过神经网络的变换，得到模拟样本。判别器（Discriminator）：用于判断输入的样本是真实的还是合成的。判别器既接收来自实际数据集的真实样本，也接收来自生成器的模拟样本，判别器需要判断输入的样本是真实数据还是生成器的模拟（假）数据。从上面可以看出，生成器和判别器是对抗的关系，生成器要尽可能生成出让判别器失败的样本，而判别器要尽可能识别出生成器的假

2020-10-14 20:39:47 1812

原创梯度下降法与牛顿法的比较

两种方法的详细讲解可以参考：梯度下降算法（Gradient Descent Optimization）牛顿法（Newton Methods）、阻尼牛顿法和拟牛顿法相同点二者都是求解无约束最优化问题的常用方法不同点（1）原理方面梯度下降法的搜索方向是沿着等高线的法向量方向进行搜索，每次迭代优化方向为梯度方向，即当前点所在等高线的法向。但往往等高线很少是正圆形，这种情况下搜索次数会过多。牛顿法搜索方向为椭圆中心方向，这个方向也叫做牛顿方向，牛顿法的更新方程 Hk−1∇f(Xk)H_k^{-1}

2020-10-10 11:08:06 1545

原创牛顿法（Newton Methods）、阻尼牛顿法和拟牛顿法

令 X=(x1,x2,⋯ ,xN)T∈RNX=(x_1,x_2,\cdots,x_N)^T \in {\bf R}^NX=(x1,x2,⋯,xN)T∈RN，目标函数 f:RN→Rf:{\bf R}^N \rightarrow {\bf R}f:RN→R， fff 为凸函数，且二阶连续可微，我们希望求解如下的无约束极小化问题：min⁡Xf(X)\min_X f(X)Xminf(X)1 牛顿法为了简单起见，这里先考虑 N=1N=1N=1 的情形，此时目标函数 f(X)f(X)f(X) 变为 f(x

2020-10-10 10:36:49 8213

原创梯度下降算法（Gradient Descent Optimization）、随机梯度下降SGD与小批量梯度下降MBGD

梯度下降算法（Gradient Descent Optimization）是求解损失函数最小值最常用的方法之一，根据计算目标函数采用数据量的不同，梯度下降算法又可以分为批量梯度下降算法（Batch Gradient Descent），随机梯度下降算法（Stochastic Gradient Descent）和小批量梯度下降算法（Mini-batch Gradient Descent）。1 梯度下降法1.1 梯度下降法原理梯度下降法（Gradient Descent）是一种常用的一阶（First Ord

2020-09-30 19:48:12 503

原创伯努利分布、二项分布和多项分布

1 伯努利分布（Bernouli Distribution）伯努利分布（Bernoulli distribution）又名两点分布或 0-1分布，在讲伯努利分布前首先需要介绍伯努利试验（Bernoulli Trial）。1.1 伯努利试验伯努利试验是只有两种可能结果的单词随机试验，即对于一个随机变量 XXX：P[X=1]=pP[X=0]=1−p\begin{aligned}P[X=1]&=p\\P[X=0]&=1-p\end{aligned}P[X=1]P[X=0]

2020-09-28 09:48:15 7045

原创多层感知机的反向传播算法

1 基本概念前向传播多层感知机中，输入信号通过各个网络层的隐节点产生输出的过程称为前向传播。图形化表示下图展示了一个典型的多层感知机定义第 (l)(l)(l) 层的输入为 x(l)x^{(l)}x(l)在每一层中首先利用输入 x(l)x^{(l)}x(l) 计算仿射变换 z(l)=W(l)x(l)+b(l)z^{(l)}=W^{(l)} x^{(l)} + b^{(l)}z(l)=W(l)x(l)+b(l)然后激活函数 fff 作用于 z(l)z^{(l)}z(l)，得到 a(l)=f(

2020-09-26 18:41:05 2459

原创神经网络中的激活函数

1 常用的激活函数1.1 Sigmod 激活函数f(z)=11+exp⁡(−z)f(z)=\frac{1}{1+\exp (-z)}f(z)=1+exp(−z)1导函数：f′(z)=f(z)(1−f(z))f'(z) = f(z)(1-f(z))f′(z)=f(z)(1−f(z))1.2 Tanh 激活函数f(z)=tanh(z)=ez−e−zez+e−zf(z)=tanh(z)=\frac{e^z - e^{-z}}{e^z + e^{-z}}f(z)=tanh(z)=ez+e−zez−e−

2020-09-26 11:00:36 837 1

原创七、支持向量机（Support Vector Machine, SVM）

支持向量机（Support Vector Machine, SVM）是一种二分类模型，它的基本模型是定义在特征空间上的间隔最大的线性分类器，间隔最大使它有别于感知机；当把核引入到SVM中后，它就成为了非线性分类器。SVM的的学习策略就是间隔最大化，可形式化为一个求解凸二次规划的问题，也等价于正则化的合页损失函数的最小化问题。SVM的的学习算法就是求解凸二次规划的最优化算法。...

2020-09-23 20:54:17 506

原创九、集成学习 Ensemble Learning

集成学习（ensemble learning）通过构建并结合多个学习器来完成学习任务，有时也被称为多分类器系统（multi-classifier system）、基于委员会的学习（committee-based learning）等。根据个体学习器的生成方式，目前的集成学习方法大致分成两大类：个体学习器间存在强依赖关系、必须串行生成的序列化方法，代表算法为：Boosting个体学习器间不存在强依赖关系、可同时生成的并行化方法，代表方法为：Bagging 和 “随机森林”（Random Forest）

2020-09-21 20:41:44 617 1

原创八、决策树

1 原理介绍决策树是一种自上而下，对样本数据进行树形分类的过程，由结点和有向边组成。结点分为内部结点和叶结点，其中每个内部结点表示一个特征或属性，叶结点表示类别。从顶部根结点开始，所有样本聚在一起，经过根结点的划分，样本被分到不同的子结点中，再根据子结点的特征进一步划分，直至所有样本都被归到某一个类别（即叶结点）中。决策树作为最基础、最常见的有监督学习模型，常被用于分类问题和回归问题，因此，决策树是一种基本的分类与回归方法，在市场营销和生物医药等领域尤其受欢迎，主要因为树形结构与销售、诊断等场景下的

2020-09-19 12:04:43 208

原创五、线性判别分析 LDA

线性判别分析（Linear Discriminant Analysis，LDA）是一种经典的有监督数据降维方法，同时也经常被用来对数据进行降维。它是 Ronald Fisher 在 1936 年发明的，因此也称为是 Fisher Discriminant Analysis （FDA）。1 LDA 原理LDA 是为了分类服务的，因此目标是希望找到一个投影方向 www，使得投影后的样本尽可能按照原始类别分开。假设现有数据集 D=(x1,y1),(x1,y1),⋅⋅⋅,(xn,yn)D = {(x_1, y

2020-09-18 22:44:28 896

原创四、主成分分析 PCA

主成分分析（Principal Component Analysis, PCA）是最常用的一种降维方法。PCA 旨在找到数据中的主成分，并利用主成分表征原始数据，从而达到降维的目的。PCA是一种线性、非监督、全局的降维算法。以一个二维数据集为例，(a) 是二维空间中经过中心化的一组数据，我们很容易看出主成分所在的轴（以下称为主轴）的大致方向，即 (b) 中黄线所处的轴。1 原理分析假设原数据点为 v1,v2,...,vn{v_1, v_2, ..., v_n}v1,v2,...,vn，所有向量

2020-09-17 21:41:48 1176 1

原创三、似然函数

在朴素贝叶斯分类器和最大似然估计和贝叶斯参数估计中，我们都提到了似然这个词，这么这里就详细讲一讲什么是似然。

2020-09-15 20:33:29 7759

原创二、最大似然估计和贝叶斯参数估计

在朴素贝叶斯分类器中，我们是利用先验概率 P(c)P(c)P(c) 和类条件概率密度 p(x∣c)p(x|c)p(x∣c) 来设计最优分类器，但是在实际应用中，通常是拿不到概率结构的全部知识的，因此我们就需要利用这些训练样本来估计问题中涉及的先验概率和条件密度函数，并把估计得结果当作实际地先验概率和条件密度，最后设计分类器。估计先验概率比较容易，最大的困难在于类条件概率密度，主要问题在于：（1）已有的训练样本数太少（2）当特征向量 xxx 的维度较大时，会产生严重的计算复杂度。但是，如果参数的个数已

2020-09-15 15:22:52 1352

原创六、逻辑回归（Logistics Regression, LR）

逻辑回归（Logistics Regression）的目的其实是分类，它的本质是一种二分类方法。1、Sigmoid 函数逻辑回归的思想其实非常巧妙，既然我们希望做二分类，那就令这两类的标签为 {0,1}\{0,1\}{0,1}（这里令1为正例，0为负例），对所有的样本 xxx，令 xxx 用来分类的变换值为 zzz （通常 z=wTx+bz=w^Tx+bz=wTx+b），令 yyy 为样本 x...

2019-12-22 16:19:30 502

原创一、朴素贝叶斯分类器

朴素贝叶斯分类器是经典的机器学习算法之一，它是一种基于概率论的分类算法。它的基本思想就是基于概率和误判损失来选择最优的类别标记，常用于垃圾邮件过滤等。1、贝叶斯公式贝叶斯公式是朴素贝叶斯分类器的基础，该公式中最重要的两个因素是先验概率和后验概率，首先来介绍一下先验概率和后验概率的概念：先验概率：是指根据以往经验和分析得到的概率；后验概率：事情已经发生，要求这件事情发生的原因是由某个因素引...

2019-12-15 20:16:10 1765

原创 8 Planning and Learning with Tabular Methods

【上一节 [Multi-step Bootstrapping] (https://blog.csdn.net/coffee_cream/article/details/81053960)】本节创建了一种统一的方法视图，其中既包括需要一个环境模型）的方法（如动态编程、启发式搜索等，也包括一些不依赖于模型的方法（如蒙特卡洛、temporal-difference等），这里将前者视为是一种 plan...

2018-09-16 14:45:55 1130

原创解决Windows Task Scheduler执行exe时 can't open Files

问题描述自己用C#编写一个exe，希望利用windows task schedule定时执行这个exe，其中这个exe读取了同一个文件夹中自己写的config.ini数据，在文件夹中点击exe完全正常，但是windows task schedule在run这个exe时总是说“can’t open config.ini”问题的原因代码中的config.ini引用的是相对路径，window...

2018-07-15 16:27:43 1567

原创 7 Multi-step Bootstrapping

【上一节Temporal-Difference （TD） Learning 】1、n-step TD PredictionTD 和蒙特卡洛方法在原理上是有一定区别的，例如利用在给定规则 ππ{\pi} 下产生的样本 episodes 来估计 vπvπv_{\pi}，蒙特卡洛方法会基于整个 episode 结束之后的 reward 来对每个状态进行更新。而 one-step TD 方法...

2018-07-15 16:11:30 1869

原创 Windows10 下安装 Glide 包

Windows10 下安装 Glide 包初次学习go语言，因为要用glide，但是github上关于Windows安装的方法又出了bug，弄了半天才弄好，写个教程记录一下~一、已有的安装环境1、已经安装好了 go 2、设置好了环境变量 GOPATH，下面均用 $GOPATH 代表这个路径二、下载文件在https://github.com/Masterminds/glide/releases上

2017-11-09 19:49:47 3741