自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(63)
  • 收藏
  • 关注

原创 受限玻尔兹曼机

1. RBM模型结构    玻尔兹曼机是一大类的神经网络模型,但是在实际应用中使用最多的则是RBM。RBM本身模型很简单,只是一个两层的神经网络,因此严格意义上不能算深度学习的范畴。不过深度玻尔兹曼机(Deep Boltzmann Machine,以下简称DBM)可以看做是RBM的推广。理解了RBM再去研究DBM就不难了,因此本文主要关注于RBM。    回到RBM的结构,它是一个

2017-12-30 16:46:42 723

原创 变分自编码器(Variational Autoencoder, VAE)

1. 神秘变量与数据集现在有一个数据集DX(dataset, 也可以叫datapoints),每个数据也称为数据点。我们假定这个样本受某种神秘力量操控,但是我们也无从知道这些神秘力量是什么?那么我们假定这股神秘力量有n个,起名字叫power1,power2,…,powern吧,他们的大小分别是z1,z2,…,zn,称之为神秘变量表示成一个向量就是z=⎛⎝⎜⎜⎜⎜z1z2⋮zn⎞⎠⎟

2017-12-28 17:25:05 2472

原创 自动编码器—Autoencoder

自动编码器Deep Learning最简单的一种方法是利用人工神经网络的特点,人工神经网络(ANN)本身就是具有层次结构的系统,如果给定一个神经网络,我们假设其输出与输入是相同的,然后训练调整其参数,得到每一层中的权重。自然地,我们就得到了输入I的几种不同表示(每一层代表一种表示),这些表示就是特征。自动编码器就是一种尽可能复现输入信号的神经网络。为了实现这种复现,自动编码器就

2017-12-28 17:18:02 27552 1

原创 深度学习常用的优化算法

2017-12-18 16:45:15 673

原创 深度学习—随机梯度下降(SGD)

2017-12-18 14:16:54 9421 2

原创 深度学习正则化之dropout

2017-12-16 16:59:15 349

原创 因子分析(Factor Analysis)

1 问题     之前我们考虑的训练数据中样例的个数m都远远大于其特征个数n,这样不管是进行回归、聚类等都没有太大的问题。然而当训练样例个数m太小,甚至m<<n的时候,使用梯度下降法进行回归时,如果初值不同,得到的参数结果会有很大偏差(因为方程数小于参数个数)。另外,如果使用多元高斯分布(Multivariate Gaussian distribution)对数据进行拟合时,也会有问题

2017-11-15 17:02:05 4765

原创 条件随机场(conditional random field,CRF)

        条件随机场(conditional random field,CRF)是给定一组输入随机变量条件下另一组输出随机变量的条件概率分布模型,其特点是假设输出随机变量构成马尔可夫随机场。条件随机场可以用于不同的预测问题,本章仅论及它在标注问题的应用。因此主要讲述线性链(linear chain)条件随机场,这时,问题变成了由输入序列对输出序列预测的判别模型,形式为对数线性模型,其学习方法...

2017-11-15 16:47:32 6562 1

原创 最大熵模型

2017-11-15 15:58:14 232

原创 模型选择

继续上节内容介绍学习理论,介绍模型选择算法,大纲内容为:交叉验证特征选择     回顾上节的偏差方差权衡现象,若选择过于简单的模型,偏差过高,可能会导致欠拟合;若选择过于复杂的模型,方差过高,可能会导致过拟合,同样模型的一般适用性不好。             模型复杂度:多项式的次数或参数的个数。    (1)尝试选择多项式的次数     

2017-11-15 10:54:43 427

原创 经验风险最小化(Empirical Risk Minization,ERM)

一、偏差方差权衡1. 偏差与方差     回顾之前在讨论线性回归问题时,通常存在以下三种情况:图1,用一条直线拟合一个呈现二次结构的散点,无论训练样本怎样增多,一次函数都无法准确地表示出二次函数。我们认为它具有高偏差(high bias),表现出欠拟合(underfit)。图3,用一条五次多项式函数来拟合数据,对于数据的结果,得到的仍然不是一个好的模型,算法拟合出了

2017-11-15 10:46:34 10555 1

原创 使用Apriori算法和FP-growth算法进行关联分析

1. 关联分析关联分析是在大规模数据集中寻找有趣关系的任务。这些关系可以有两种形式:频繁项集关联规则频繁项集(frequent item sets)是经常出现在一块儿的物品的集合,关联规则(association rules)暗示两种物品之间可能存在很强的关系。下面用一个例子来说明这两种概念:图1给出了某个杂货店的交易清单。交易号码商

2017-11-14 20:53:07 753

原创 随机森林(Random Forest)

1 什么是随机森林?  作为新兴起的、高度灵活的一种机器学习算法,随机森林(Random Forest,简称RF)拥有广泛的应用前景,从市场营销到医疗保健保险,既可以用来做市场营销模拟的建模,统计客户来源,保留和流失,也可用来预测疾病的风险和病患者的易感性。最初,我是在参加校外竞赛时接触到随机森林算法的。最近几年的国内外大赛,包括2013年百度校园电影推荐系统大赛、2014年阿里巴巴天池大

2017-11-14 13:01:01 579

原创 GBDT:梯度提升决策树

综述  GBDT(Gradient Boosting Decision Tree) 又叫 MART(Multiple Additive Regression Tree),是一种迭代的决策树算法,该算法由多棵决策树组成,所有树的结论累加起来做最终答案。它在被提出之初就和SVM一起被认为是泛化能力较强的算法。  GBDT中的树是回归树(不是分类树),GBDT用来做回归预测,调整后也可以用于

2017-11-14 12:37:06 268

原创 xgboost算法原理

1、xgboost是什么全称:eXtreme Gradient Boosting 基础:GBDT 所属:boosting迭代型、树类算法。 适用范围:分类、回归 优点:速度快、效果好、能处理大规模数据、支持多种语言、支 持自定义损失函数等等。 缺点:发布时间短(2014),工业领域应用较少,待检验2、基础知识,GBDTxgboost是在GBDT的基础上对

2017-11-14 11:29:15 657

原创 解决决策树的过拟合

1. 避免过拟合问题表1描述的算法增长树的每一个分支的深度,直到恰好能对训练样例完美地分类。然而这个策略并非总是行得通的,事实上,当数据中有噪声,或训练样例的数量太少以至于不能产生目标函数的有代表性的采样时,这个策略便会遇到困难。在以上任一种情况发生时,这个简单的算法产生的树会过度拟合训练样例。表1 专用于学习布尔函数的ID3算法概要ID3是一种自顶向下增长树的贪婪算法,在

2017-11-14 10:21:13 3750

原创 决策树(三)cart算法

1. CART算法的认识    Classification And Regression Tree,即分类回归树算法,简称CART算法,它是决策树的一种实现,通常决策树主要有三种实现,分别是ID3算法,CART算法和C4.5算法。    CART算法是一种二分递归分割技术,把当前样本划分为两个子样本,使得生成的每个非叶子结点都有两个分支,   因此CART

2017-11-13 17:25:41 2652

原创 决策树(二)C4.5算法

1. C4.5算法简介    C4.5是一系列用在机器学习和数据挖掘的分类问题中的算法。它的目标是监督学习:给定一个数据集,其中的每一个元组都能用一组属性值来描述,每一个元组属于一个互斥的类别中的某一类。C4.5的目标是通过学习,找到一个从属性值到类别的映射关系,并且这个映射能用于对新的类别未知的实体进行分类。    C4.5由J.Ross Quinlan在ID3的

2017-11-13 16:45:14 1114

原创 决策树(一)ID3算法

1. 决策树的基本认识    决策树是一种依托决策而建立起来的一种树。在机器学习中,决策树是一种预测模型,代表的是一种对   象属性与对象值之间的一种映射关系,每一个节点代表某个对象,树中的每一个分叉路径代表某个可能   的属性值,而每一个叶子节点则对应从根节点到该叶子节点所经历的路径所表示的对象的值。决策树仅   有单一输出,如果有多个输出,可以分别建立独

2017-11-13 16:11:51 445

原创 模型评估

学习模型的评估与选择Content  6. 学习模型的评估与选择    6.1 如何调试学习算法    6.2 评估假设函数(Evaluating a hypothesis)    6.3 模型选择与训练/验证/测试集(Model selection and training/validation/test sets)     6.4 偏差与方差      6.4.

2017-11-13 15:49:22 2120

原创 Jacobian矩阵和Hessian矩阵

1. Jacobian在向量分析中, 雅可比矩阵是一阶偏导数以一定方式排列成的矩阵, 其行列式称为雅可比行列式. 还有, 在代数几何中, 代数曲线的雅可比量表示雅可比簇:伴随该曲线的一个代数群, 曲线可以嵌入其中. 它们全部都以数学家卡尔·雅可比(Carl Jacob, 1804年10月4日-1851年2月18日)命名;英文雅可比量”Jacobian”可以发音为[ja ˈko bi ən]

2017-11-13 15:13:46 344

原创 坐标上升法算法

坐标上升法(Coordinate Ascent)每次通过更新函数中的一维,通过多次的迭代以达到优化函数的目的。假设需要求解的优化问题的具体形式如下:maxαW(α1,α2,⋯,αm)其中,W是向量α⃗ 的函数。更新过程为每次固定除αi以外的参数,求得满足条件的αi,直到算法收敛,具体的算法过程如下所示: (图片来自参考文献1)下面

2017-11-01 17:30:05 1396

原创 高斯混合模型(GMM)

高斯混合模型GMM是一个非常基础并且应用很广的模型。对于它的透彻理解非常重要。网上的关于GMM的大多资料介绍都是大段公式,而且符号表述不太清楚,或者文笔非常生硬。本文尝试用通俗的语言全面介绍一下GMM,不足之处还望各位指正。首先给出GMM的定义这里引用李航老师《统计学习方法》上的定义,如下图:定义很好理解,高斯混合模型是一种混合模型,混合的基本分布是高斯分布而已。

2017-11-01 10:34:00 546

原创 强化学习(五)----- 时间差分学习(Q learning, Sarsa learning)

接下来我们回顾一下动态规划算法(DP)和蒙特卡罗方法(MC)的特点,对于动态规划算法有如下特性:需要环境模型,即状态转移概率Psa状态值函数的估计是自举的(bootstrapping),即当前状态值函数的更新依赖于已知的其他状态值函数。相对的,蒙特卡罗方法的特点则有:可以从经验中学习不需要环境模型状态值函数的估计是相互独立的只能用于episode tasks而我们希

2017-10-30 21:23:44 5134

原创 强化学习(四) ----- 蒙特卡罗方法(Monte Carlo Methods)

1. 蒙特卡罗方法的基本思想蒙特卡罗方法又叫统计模拟方法,它使用随机数(或伪随机数)来解决计算的问题,是一类重要的数值计算方法。该方法的名字来源于世界著名的赌城蒙特卡罗,而蒙特卡罗方法正是以概率为基础的方法。一个简单的例子可以解释蒙特卡罗方法,假设我们需要计算一个不规则图形的面积,那么图形的不规则程度和分析性计算(比如积分)的复杂程度是成正比的。而采用蒙特卡罗方法是怎么计算的呢?首

2017-10-30 21:22:13 1846

原创 强化学习(三)----- MDP的动态规划解法

上一篇我们已经说到了,增强学习的目的就是求解马尔可夫决策过程(MDP)的最优策略,使其在任意初始状态下,都能获得最大的Vπ值。(本文不考虑非马尔可夫环境和不完全可观测马尔可夫决策过程(POMDP)中的增强学习)。那么如何求解最优策略呢?基本的解法有三种:动态规划法(dynamic programming methods)蒙特卡罗方法(Monte Carlo methods)

2017-10-30 21:20:38 695

原创 强化学习(二)----- 马尔可夫决策过程MDP

1. 马尔可夫模型的几类子模型大家应该还记得马尔科夫链(Markov Chain),了解机器学习的也都知道隐马尔可夫模型(Hidden Markov Model,HMM)。它们具有的一个共同性质就是马尔可夫性(无后效性),也就是指系统的下个状态只与当前状态信息有关,而与更早之前的状态无关。马尔可夫决策过程(Markov Decision Process, MDP)也具有马尔可夫性,

2017-10-30 21:19:36 895

原创 强化学习(一) ----- 基本概念

机器学习算法大致可以分为三种:    1. 监督学习(如回归,分类)    2. 非监督学习(如聚类,降维)    3. 增强学习什么是增强学习呢?增强学习(reinforcementlearning, RL)又叫做强化学习,是近年来机器学习和智能控制领域的主要方法之一。定义: Reinforcement learning is learning w

2017-10-30 21:18:43 662

原创 隐马尔可夫模型(HMM)

隐马尔可夫模型 (Hidden Markov Model,HMM) 最初由 L. E. Baum 和其它一些学者发表在一系列的统计学论文中,随后在语言识别,自然语言处理以及生物信息等领域体现了很大的价值。平时,经常能接触到涉及 HMM 的相关文章,一直没有仔细研究过,都是蜻蜓点水,因此,想花一点时间梳理下,加深理解。考虑下面交通灯的例子,一个序列可能是红-红/橙-绿-橙-红。这个序列可

2017-10-30 20:32:30 294

原创 (EM算法)The EM Algorithm

EM是我一直想深入学习的算法之一,第一次听说是在NLP课中的HMM那一节,为了解决HMM的参数估计问题,使用了EM算法。在之后的MT中的词对齐中也用到了。在Mitchell的书中也提到EM可以用于贝叶斯网络中。下面主要介绍EM的整个推导过程。1. Jensen不等式      回顾优化理论中的一些概念。设f是定义域为实数的函数,如果对于所有的实数x,,那么f是凸函数。当x是

2017-10-30 17:47:36 791

原创 高斯过程回归(Gaussian Process Regression)

先说一说 高斯过程回归 的 Intuition:假设有一个未知的函数f  : R–> R ,在训练集中,我们有3个点 x_1, x_2, x_3,   以及这3个点对应的结果,f1,f2,f3. (如图) 这三个返回值可以有噪声,也可以没有。我们先假设没有。so far so good. 没什么惊讶的事情。高斯过程回归的关键假设是:给定 一些

2017-10-29 20:07:55 22453 2

原创 朴素贝叶斯分类器

模型概述朴素贝叶斯方法,是指朴素:特征条件独立贝叶斯:基于贝叶斯定理根据贝叶斯定理,对一个分类问题,给定样本特征x,样本属于类别y的概率是 p(y|x)=p(x|y)p(y)p(x)。。。。。。(1)在这里,x是一个特征向量,将设x维度为M。因为朴素的假设,即特征条件独立,根据全概率公式展开,公式(1)可以表达为 p(y=ck|x)=∏M

2017-10-29 16:05:29 331

原创 支持向量回归-SVR

对于一般的回归问题,给定训练样本D={(x1,y1),(x2,y2),...,(xn,yn)},yi€R,我们希望学习到一个f(x)使得,其与y尽可能的接近,w,b是待确定的参数。在这个模型中,只有当发f(x)与y完全相同时,损失才为零,而支持向量回归假设我们能容忍的f(x)与之间最多有ε的偏差,当且仅当f(x)与y的差别绝对值大于ε时,才计算损失,此时相当于以f(x)为中心,构建一个宽度为2ε的

2017-10-26 15:32:25 67613 3

原创 广义线性模型(Generalized Linear Models)

指数分布族(The Exponential Family)  如果一个分布可以用如下公式表达,那么这个分布就属于指数分布族:      公式中y是随机变量;h(x)称为基础度量值(base measure);    η称为分布的自然参数(natural parameter),也称为标准参数(canonical parameter);    T(y)称为充分统

2017-10-26 11:08:39 2468

原创 局部加权线性回归

一、问题引入  我们现实生活中的很多数据不一定都能用线性模型描述。依然是房价问题,很明显直线非但不能很好的拟合所有数据点,而且误差非常大,但是一条类似二次函数的曲线却能拟合地很好。为了解决非线性模型建立线性模型的问题,我们预测一个点的值时,选择与这个点相近的点而不是所有的点做线性回归。基于这个思想,便产生了局部加权线性回归算法。在这个算法中,其他离一个点越近,权重越大,对回归系数的贡献就越

2017-10-26 10:26:45 743

原创 k-means聚类算法

K-means也是聚类算法中最简单的一种了,但是里面包含的思想却是不一般。最早我使用并实现这个算法是在学习韩爷爷那本数据挖掘的书中,那本书比较注重应用。看了Andrew Ng的这个讲义后才有些明白K-means后面包含的EM思想。     聚类属于无监督学习,以往的回归、朴素贝叶斯、SVM等都是有类别标签y的,也就是说样例中已经给出了样例的分类。而聚类的样本中却没有给定y,只有特征x,比如

2017-10-26 10:14:11 1107

原创 机器学习中距离和相似性度量方法

在机器学习和数据挖掘中,我们经常需要知道个体间差异的大小,进而评价个体的相似性和类别。最常见的是数据分析中的相关分析,数据挖掘中的分类和聚类算法,如 K 最近邻(KNN)和 K 均值(K-Means)等等。根据数据特性的不同,可以采用不同的度量方法。一般而言,定义一个距离函数 d(x,y), 需要满足下面几个准则:1) d(x,x) = 0                    // 到自

2017-10-24 12:23:18 216

原创 softmax回归

我们知道Logistic回归只能进行二分类,因为它的随机变量的取值只能是0或者1,那么如果我们面对多分类问题怎么办?比如要将一封新收到的邮件分为垃圾邮件,个人邮件,还是工作邮件;根据病人的病情预测病人属于哪种病。诸如此类问题都涉及到多分类,那么今天要讲的softmax回归能解决这类问题。  在Logistic回归中,样本数据的值,而在softmax回归中,其中是类别种数,比

2017-10-17 22:54:53 227

原创 递归神经网络

往期回顾在前面的文章中,我们介绍了循环神经网络,它可以用来处理包含序列结构的信息。然而,除此之外,信息往往还存在着诸如树结构、图结构等更复杂的结构。对于这种复杂的结构,循环神经网络就无能为力了。本文介绍一种更为强大、复杂的神经网络:递归神经网络 (Recursive Neural Network, RNN),以及它的训练算法BPTS (Back Propagation Through

2017-10-09 01:39:57 6090 1

原创 长短时记忆网络(LSTM)的训练

长短时记忆网络的训练熟悉我们这个系列文章的同学都清楚,训练部分往往比前向计算部分复杂多了。LSTM的前向计算都这么复杂,那么,可想而知,它的训练算法一定是非常非常复杂的。现在只有做几次深呼吸,再一头扎进公式海洋吧。LSTM训练算法框架LSTM的训练算法仍然是反向传播算法,对于这个算法,我们已经非常熟悉了。主要有下面三个步骤:前向计算每个神经元的输出值,对于L

2017-10-09 01:34:20 22252 4

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除