Carl-Xie-CSDN博客

原创自动微分(Automatic Differentiation)简介

现代深度学习系统中（比如MXNet， TensorFlow等）都用到了一种技术——自动微分。在此之前，机器学习社区中很少发挥这个利器，一般都是用Backpropagation进行梯度求解，然后进行SGD等进行优化更新。手动实现过backprop算法的同学应该可以体会到其中的复杂性和易错性，一个好的框架应该可以很好地将这部分难点隐藏于用户视角，而自动微分技术恰好可以优雅解决这个问题。接下来我们将一起...

2017-04-18 15:01:14 41110 18

原创 CRF++源码解读

在《条件随机场(Conditional Random Field)简介》中我们了解了条件随机场的基本原理，但是通篇都是数学公式，对于奋战在一线的兄弟估计有点看不爽，并且里面对feature function仅仅只是一笔带过，这通常在实际应用中恰恰相反，一般工作应用在feature engineering上会大费周章，而在算法模型上只是简单套用。为了更好地掌握和运用CRF，本篇将带领大家解读CRF一个

2017-04-05 17:52:20 16993 10

原创条件随机场(Conditional Random Field)简介

条件随机场(CRF)由Lafferty等人于2001年提出，是一种判别式概率模型，在许多自然语言处理任务中比如分词，命名实体识别等表现尤为出色。本篇与lafferty原始论文相同，将着重介绍条件随机场的一种特殊形式——线性链条件随机场(Linear Chain CRF)。为什么需要CRF作为Motivation，我们考虑如下词性标注任务：对于一段输入文字“The dog barks”，我们希望

2017-04-01 10:02:06 18033 12

原创变分贝叶斯推断(Variational Bayes Inference)简介

通常在研究贝叶斯模型中，很多情况下我们关注的是如何求解后验概率(Posterior)，不幸的是，在实际模型中我们很难通过简单的贝叶斯理论求得后验概率的公式解，但是这并不影响我们对贝叶斯模型的爱——既然无法求得精确解，来个近似解在实际中也是可以接受的:-)。一般根据近似解的求解方式可以分为随机(Stochastic)近似方法（代表是MCMC，在上一篇中我们提到的利用Gibbs Sampling训练L...

2017-02-25 16:42:02 47337 27

原创 LDA(Latent Dirichlet Allocation)主题模型

LDA于2003年由 David Blei, Andrew Ng和 Michael I. Jordan提出，因为模型的简单和有效，掀起了主题模型研究的波浪。虽然说LDA模型简单，但是它的数学推导却不是那么平易近人，一般初学者会深陷数学细节推导中不能自拔。于是牛人们看不下去了，纷纷站出来发表了各种教程。国内方面rickjin有著名的《LDA数学八卦》，国外的Gregor Heinrich有著名的《P...

2016-12-24 16:22:09 79877 33

原创 Spark上的决策树(Decision Tree On Spark)

最近花了一些时间学习了Scala和Spark，学习语言和框架这样的东西，除了自己敲代码折腾和玩弄外，另一个行之有效的方法就是阅读代码。MLlib正好是以Spark为基础的开源机器学习库，便借机学习MLlib是如何利用Spark实现分布式决策树。本文主要是剖析MLlib的DecisionTree源码，假设读者已经入门Scala基本语法，并熟悉决策树的基本概念，假如您不清楚，可以参照Coursera上两

2016-07-15 14:14:51 12531 8

原创递归神经网络(RNN)简介

在此之前，我们已经学习了前馈网络的两种结构——多层感知器和卷积神经网络，这两种结构有一个特点，就是假设输入是一个独立的没有上下文联系的单位，比如输入是一张图片，网络识别是狗还是猫。但是对于一些有明显的上下文特征的序列化输入，比如预测视频中下一帧的播放内容，那么很明显这样的输出必须依赖以前的输入，也就是说网络必须拥有一定的”记忆能力”。为了赋予网络这样的记忆力，一种特殊结构的神经网络——递归神经网络

2016-03-02 17:27:51 68188 20

原创谈谈常见的迭代优化方法

如果学习机器学习算法，你会发现，其实机器学习的过程大概就是定义一个模型的目标函数，然后通过优化算法从数据中求取J(θ)取得极值时对应模型参数θ的过程，而学习到的参数就对应于机器学习到的知识。不管学习到的是好的还是无用的，我们知道这其中的动力引擎就是优化算法。在很多开源软件包中都有自己实现的一套优化算法包，比如stanford-nlp，希望通过本

2016-02-02 09:54:22 24603 5

原创也谈谈机器学习中的Evaluation Metrics

判断事物的好坏需要一定的评判标准，判断分类系统的优劣自然需要一定的评判方式。作为设计机器学习系统的一个很重要的环节——评价指标(Evaluation Metric)即是本文的主角。本文首先介绍Accuracy单独作为评价指标可能有什么不足，再介绍从Precision-Recall到F-measure的推进，接着给出解决Accuracy Paradox的MCC

2016-01-07 22:20:57 22565 1

原创特征选择之信息增益法

在设计分类系统的时候，一个很重要的环节便是特征选择，面对成千上万上百万的特征，如何选取有利于分类的特征呢？信息增益(Information Gain)法则是其中一种比较高效的做法。本文首先介绍理解信息增益(Information Gain)的基本概念，之后介绍如何将其运用在特征选择中，最后以stanford-nlp中利用信息增益法实现特征选择的例子结束本文。熵(Entropy)介绍信息

2015-11-18 14:11:58 23611 8

原创朴素贝叶斯(Naive Bayes)模型简介

朴素贝叶斯模型是一个简单却很重要的模型，在文本分类中，由于它出奇的简单实现和令人惊讶的表现，因此实际应用中，它都值得是第一个尝试的基准模型。本文接下来将从文本分类这个具体应用中介绍朴素贝叶斯模型。文本分类问题在文本分类中，我们面临的问题是给定一个文本x⃗ =[x1,x2,...,xi,...,xn]\vec{x}=[x_1,x_2,...,x_i,...,x_n]，其中xix_i从原始文本抽出来的一

2015-07-24 19:59:18 8258 11

原创从多层感知器到卷积网络（二）

上一篇中，我们讲解了什么是MLP以及如何训练得到一个MLP，读者大概对神经网络有一定的印象了。我们总说，好戏在后头，接下来这一大块头，我们将重点介绍卷积网络。何谓卷积单凭卷积这一个称号大概可以吓死一半的普通老百姓了。一开始接触卷积网络的时候，我就差点成了那一半的老百姓，幸好我命大，最终挺过来了。卷积，只依稀记得当年大学概率论稍有提过这样的名词，那时不愿深究，现在胆子大了，没事，维基搞起...

2015-06-07 22:28:55 10940 16

原创从多层感知器到卷积网络（一）

写在最前面本系列文章试图以直观的思维讲解神经网络的两个种类——多层感知器(Muti-Layer Percetron)和卷积网络(Convolutional Neural Network)。这两种网络都属于前馈型网络(Feedforward network)，其中多层感知器(MLP)是最简单也是最常见的一种神经网络结构，它是所有其他神经网络结构的基础，所以不出意外，在介绍卷积网络前，不得不提一提...

2015-06-01 20:34:26 27351 19

CarlXie