5 Duckie-duckie

尚未进行身份认证

暂无相关简介

等级
TA的排名 3w+

受限玻尔兹曼机

1.RBM模型结构    玻尔兹曼机是一大类的神经网络模型,但是在实际应用中使用最多的则是RBM。RBM本身模型很简单,只是一个两层的神经网络,因此严格意义上不能算深度学习的范畴。不过深度玻尔兹曼机(DeepBoltzmannMachine,以下简称DBM)可以看做是RBM的推广。理解了RBM再去研究DBM就不难了,因此本文主要关注于RBM。    回到RBM的结构,它是一个

2017-12-30 16:46:42

变分自编码器(Variational Autoencoder, VAE)

1.神秘变量与数据集现在有一个数据集DX(dataset,也可以叫datapoints),每个数据也称为数据点。我们假定这个样本受某种神秘力量操控,但是我们也无从知道这些神秘力量是什么?那么我们假定这股神秘力量有n个,起名字叫power1,power2,…,powern吧,他们的大小分别是z1,z2,…,zn,称之为神秘变量表示成一个向量就是z=⎛⎝⎜⎜⎜⎜z1z2⋮zn⎞⎠⎟

2017-12-28 17:25:05

自动编码器—Autoencoder

自动编码器DeepLearning最简单的一种方法是利用人工神经网络的特点,人工神经网络(ANN)本身就是具有层次结构的系统,如果给定一个神经网络,我们假设其输出与输入是相同的,然后训练调整其参数,得到每一层中的权重。自然地,我们就得到了输入I的几种不同表示(每一层代表一种表示),这些表示就是特征。自动编码器就是一种尽可能复现输入信号的神经网络。为了实现这种复现,自动编码器就

2017-12-28 17:18:02

深度学习常用的优化算法

2017-12-18 16:45:15

深度学习—随机梯度下降(SGD)

2017-12-18 14:16:54

深度学习正则化之dropout

2017-12-16 16:59:15

因子分析(Factor Analysis)

1问题    之前我们考虑的训练数据中样例的个数m都远远大于其特征个数n,这样不管是进行回归、聚类等都没有太大的问题。然而当训练样例个数m太小,甚至m<<n的时候,使用梯度下降法进行回归时,如果初值不同,得到的参数结果会有很大偏差(因为方程数小于参数个数)。另外,如果使用多元高斯分布(MultivariateGaussiandistribution)对数据进行拟合时,也会有问题

2017-11-15 17:02:05

条件随机场(conditional random field,CRF)

    条件随机场(conditionalrandomfield,CRF)是给定一组输入随机变量条件下另一组输出随机变量的条件概率分布模型,其特点是假设输出随机变量构成马尔可夫随机场。条件随机场可以用于不同的预测问题,本章仅论及它在标注问题的应用。因此主要讲述线性链(linearchain)条件随机场,这时,问题变成了由输入序列对输出序列预测的判别模型,形式为对数线性模型,其学习方法...

2017-11-15 16:47:32

最大熵模型

2017-11-15 15:58:14

模型选择

继续上节内容介绍学习理论,介绍模型选择算法,大纲内容为:交叉验证特征选择   回顾上节的偏差方差权衡现象,若选择过于简单的模型,偏差过高,可能会导致欠拟合;若选择过于复杂的模型,方差过高,可能会导致过拟合,同样模型的一般适用性不好。        模型复杂度:多项式的次数或参数的个数。  (1)尝试选择多项式的次数   

2017-11-15 10:54:43

经验风险最小化(Empirical Risk Minization,ERM)

一、偏差方差权衡1.偏差与方差   回顾之前在讨论线性回归问题时,通常存在以下三种情况:图1,用一条直线拟合一个呈现二次结构的散点,无论训练样本怎样增多,一次函数都无法准确地表示出二次函数。我们认为它具有高偏差(highbias),表现出欠拟合(underfit)。图3,用一条五次多项式函数来拟合数据,对于数据的结果,得到的仍然不是一个好的模型,算法拟合出了

2017-11-15 10:46:34

使用Apriori算法和FP-growth算法进行关联分析

1.关联分析关联分析是在大规模数据集中寻找有趣关系的任务。这些关系可以有两种形式:频繁项集关联规则频繁项集(frequentitemsets)是经常出现在一块儿的物品的集合,关联规则(associationrules)暗示两种物品之间可能存在很强的关系。下面用一个例子来说明这两种概念:图1给出了某个杂货店的交易清单。交易号码商

2017-11-14 20:53:07

随机森林(Random Forest)

1什么是随机森林?  作为新兴起的、高度灵活的一种机器学习算法,随机森林(RandomForest,简称RF)拥有广泛的应用前景,从市场营销到医疗保健保险,既可以用来做市场营销模拟的建模,统计客户来源,保留和流失,也可用来预测疾病的风险和病患者的易感性。最初,我是在参加校外竞赛时接触到随机森林算法的。最近几年的国内外大赛,包括2013年百度校园电影推荐系统大赛、2014年阿里巴巴天池大

2017-11-14 13:01:01

GBDT:梯度提升决策树

综述  GBDT(GradientBoostingDecisionTree)又叫MART(MultipleAdditiveRegressionTree),是一种迭代的决策树算法,该算法由多棵决策树组成,所有树的结论累加起来做最终答案。它在被提出之初就和SVM一起被认为是泛化能力较强的算法。  GBDT中的树是回归树(不是分类树),GBDT用来做回归预测,调整后也可以用于

2017-11-14 12:37:06

xgboost算法原理

1、xgboost是什么全称:eXtremeGradientBoosting 基础:GBDT 所属:boosting迭代型、树类算法。 适用范围:分类、回归 优点:速度快、效果好、能处理大规模数据、支持多种语言、支持自定义损失函数等等。 缺点:发布时间短(2014),工业领域应用较少,待检验2、基础知识,GBDTxgboost是在GBDT的基础上对

2017-11-14 11:29:15

解决决策树的过拟合

1.避免过拟合问题表1描述的算法增长树的每一个分支的深度,直到恰好能对训练样例完美地分类。然而这个策略并非总是行得通的,事实上,当数据中有噪声,或训练样例的数量太少以至于不能产生目标函数的有代表性的采样时,这个策略便会遇到困难。在以上任一种情况发生时,这个简单的算法产生的树会过度拟合训练样例。表1 专用于学习布尔函数的ID3算法概要ID3是一种自顶向下增长树的贪婪算法,在

2017-11-14 10:21:13

决策树(三)cart算法

1.CART算法的认识    ClassificationAndRegressionTree,即分类回归树算法,简称CART算法,它是决策树的一种实现,通常决策树主要有三种实现,分别是ID3算法,CART算法和C4.5算法。    CART算法是一种二分递归分割技术,把当前样本划分为两个子样本,使得生成的每个非叶子结点都有两个分支,  因此CART

2017-11-13 17:25:41

决策树(二)C4.5算法

1.C4.5算法简介  C4.5是一系列用在机器学习和数据挖掘的分类问题中的算法。它的目标是监督学习:给定一个数据集,其中的每一个元组都能用一组属性值来描述,每一个元组属于一个互斥的类别中的某一类。C4.5的目标是通过学习,找到一个从属性值到类别的映射关系,并且这个映射能用于对新的类别未知的实体进行分类。   C4.5由J.RossQuinlan在ID3的

2017-11-13 16:45:14

决策树(一)ID3算法

1.决策树的基本认识    决策树是一种依托决策而建立起来的一种树。在机器学习中,决策树是一种预测模型,代表的是一种对  象属性与对象值之间的一种映射关系,每一个节点代表某个对象,树中的每一个分叉路径代表某个可能  的属性值,而每一个叶子节点则对应从根节点到该叶子节点所经历的路径所表示的对象的值。决策树仅  有单一输出,如果有多个输出,可以分别建立独

2017-11-13 16:11:51

模型评估

学习模型的评估与选择Content  6.学习模型的评估与选择    6.1如何调试学习算法    6.2评估假设函数(Evaluatingahypothesis)    6.3模型选择与训练/验证/测试集(Modelselectionandtraining/validation/testsets)     6.4偏差与方差      6.4.

2017-11-13 15:49:22

查看更多

勋章 我的勋章
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!