• 等级
  • 1910470 访问
  • 104 原创
  • 13 转发
  • 584 排名
  • 997 评论
  • 370 获赞

什么是社区发现?

如果你仔细观察,你会发现,我们的生活中存在着各种各样的网络,如科研合作网络、演员合作网络、城市交通网络、电力网、以及像 QQ、微博、微信这样的社交网络。这些网络有什么特点呢?我们以大家最熟悉的社交网络来看看。

2014-11-21 14:57:43

Factorization Machines 学习笔记(四)学习算法

最近学习了一种叫做 Factorization Machines(简称 FM)的通用算法,它可对任意的实值向量进行预测。其主要优点包括: 1) 可用于高度稀疏数据场景; 2) 具有线性的计算复杂度。本文将对 FM 框架进行简单介绍,并对其训练算法 — 随机梯度下降(SGD)法和交替最小二乘(ALS)法进行详细推导。

2014-10-28 10:22:34

Factorization Machines 学习笔记(二)模型方程

最近学习了一种叫做 Factorization Machines(简称 FM)的通用算法,它可对任意的实值向量进行预测。其主要优点包括: 1) 可用于高度稀疏数据场景; 2) 具有线性的计算复杂度。本文将对 FM 框架进行简单介绍,并对其训练算法 — 随机梯度下降(SGD)法和交替最小二乘(ALS)法进行详细推导。

2014-10-28 10:22:16

Factorization Machines 学习笔记(三)回归和分类

最近学习了一种叫做 Factorization Machines(简称 FM)的通用算法,它可对任意的实值向量进行预测。其主要优点包括: 1) 可用于高度稀疏数据场景; 2) 具有线性的计算复杂度。本文将对 FM 框架进行简单介绍,并对其训练算法 — 随机梯度下降(SGD)法和交替最小二乘(ALS)法进行详细推导。

2014-10-28 10:22:16

Factorization Machines 学习笔记(一)预测任务

最近学习了一种叫做 Factorization Machines(简称 FM)的通用算法,它可对任意的实值向量进行预测。其主要优点包括: 1) 可用于高度稀疏数据场景; 2) 具有线性的计算复杂度。本文将对 FM 框架进行简单介绍,并对其训练算法 — 随机梯度下降(SGD) 法和交替最小二乘法(ALS)法进行详细推导。

2014-10-28 10:21:55

发表在 Science 上的一种新聚类算法

今年 6 月份,Alex Rodriguez 和 Alessandro Laio 在 Science 上发表了一篇名为《Clustering by fast search and find of density peaks》的文章,为聚类算法的设计提供了一种新的思路。虽然文章出来后遭到了众多读者的质疑,但整体而言,新聚类算法的基本思想很新颖,且简单明快,值得学习。这个新聚类算法的核心思想在于对聚类中心的刻画上,本文将对该算法的原理进行详细介绍,并对其中的若干细节展开讨论。

2014-08-29 17:39:08

word2vec 中的数学原理详解(六)若干源码细节

word2vec 是 Google 于 2013 年开源推出的一个用于获取 word vector 的工具包,它简单、高效,因此引起了很多人的关注。由于 word2vec 的作者 Tomas Mikolov 在两篇相关的论文 [3,4] 中并没有谈及太多算法细节,因而在一定程度上增加了这个工具包的神秘感。一些按捺不住的人于是选择了通过解剖源代码的方式来一窥究竟,出于好奇,我也成为了他们中的一员。读完代码后,觉得收获颇多,整理成文,给有需要的朋友参考。

2014-07-20 23:51:59

word2vec 中的数学原理详解(五)基于 Negative Sampling 的模型

word2vec 是 Google 于 2013 年开源推出的一个用于获取 word vector 的工具包,它简单、高效,因此引起了很多人的关注。由于 word2vec 的作者 Tomas Mikolov 在两篇相关的论文 [3,4] 中并没有谈及太多算法细节,因而在一定程度上增加了这个工具包的神秘感。一些按捺不住的人于是选择了通过解剖源代码的方式来一窥究竟,出于好奇,我也成为了他们中的一员。读完代码后,觉得收获颇多,整理成文,给有需要的朋友参考。

2014-07-20 23:44:50

word2vec 中的数学原理详解(四)基于 Hierarchical Softmax 的模型

word2vec 是 Google 于 2013 年开源推出的一个用于获取 word vector 的工具包,它简单、高效,因此引起了很多人的关注。由于 word2vec 的作者 Tomas Mikolov 在两篇相关的论文 [3,4] 中并没有谈及太多算法细节,因而在一定程度上增加了这个工具包的神秘感。一些按捺不住的人于是选择了通过解剖源代码的方式来一窥究竟,出于好奇,我也成为了他们中的一员。读完代码后,觉得收获颇多,整理成文,给有需要的朋友参考。

2014-07-19 22:53:39

word2vec 中的数学原理详解(三)背景知识

word2vec 是 Google 于 2013 年开源推出的一个用于获取 word vector 的工具包,它简单、高效,因此引起了很多人的关注。由于 word2vec 的作者 Tomas Mikolov 在两篇相关的论文 [3,4] 中并没有谈及太多算法细节,因而在一定程度上增加了这个工具包的神秘感。一些按捺不住的人于是选择了通过解剖源代码的方式来一窥究竟,出于好奇,我也成为了他们中的一员。读完代码后,觉得收获颇多,整理成文,给有需要的朋友参考。

2014-07-19 22:49:37

word2vec 中的数学原理详解(二)预备知识

word2vec 是 Google 于 2013 年开源推出的一个用于获取 word vector 的工具包,它简单、高效,因此引起了很多人的关注。由于 word2vec 的作者 Tomas Mikolov 在两篇相关的论文 [3,4] 中并没有谈及太多算法细节,因而在一定程度上增加了这个工具包的神秘感。一些按捺不住的人于是选择了通过解剖源代码的方式来一窥究竟,出于好奇,我也成为了他们中的一员。读完代码后,觉得收获颇多,整理成文,给有需要的朋友参考。

2014-07-19 22:46:40

word2vec 中的数学原理详解(一)目录和前言

word2vec 是 Google 于 2013 年开源推出的一个用于获取 word vector 的工具包,它简单、高效,因此引起了很多人的关注。由于 word2vec 的作者 Tomas Mikolov 在两篇相关的论文 [3,4] 中并没有谈及太多算法细节,因而在一定程度上增加了这个工具包的神秘感。一些按捺不住的人于是选择了通过解剖源代码的方式来一窥究竟,出于好奇,我也成为了他们中的一员。读完代码后,觉得收获颇多,整理成文,给有需要的朋友参考。

2014-07-19 22:42:50

一种并行随机梯度下降法

Martin A. Zinkevich 等人(Yahoo!Lab)合作的论文 Parallelized Stochastic Gradient Descent 中给出了一种适合于 MapReduce 的并行随机梯度下降法,并给出了相应的收敛性分析。这里忽略理论部分,根据自己的理解给出文中所提并行随机梯度下降法的描述。

2014-06-23 13:53:56

DistBelief 框架下的并行随机梯度下降法 - Downpour SGD

本文是读完 Jeffrey Dean, Greg S. Corrado 等人的文章 Large Scale Distributed Deep Networks (2012) 后的一则读书笔记,重点介绍在 Google 的软件框架 DistBelief 下设计的一种用来训练大规模深度神经网络的随机梯度下降法 — Downpour SGD,该方法通过分布式地部署多个模型副本和一个“参数服务器”,同时实现了模型并行和数据并行,且对机器失效问题具有很好的容错性。结合 Adagrad 自适应学习率使用,对非凸优化问题

2014-06-17 22:39:45

一种利用 Cumulative Penalty 训练 L1 正则 Log-linear 模型的随机梯度下降法

Log-Linear 模型(也叫做最大熵模型)是 NLP 领域中使用最为广泛的模型之一,其训练常采用最大似然准则,且为防止过拟合,往往在目标函数中加入(可以产生稀疏性的) L1 正则。但对于这种带 L1 正则的最大熵模型,直接采用标准的随机梯度下降法(SGD)会出现效率不高和难以真正产生稀疏性等问题。本文为阅读论文 Stochastic Gradient Descent Training for L1-regularized Log-linear Models with Cumulative Penalty

2014-06-11 14:06:14

一种适合于大数据的并行坐标下降法

在机器学习中,模型的训练是一个很重要的过程,它通常是对一个目标函数进行优化,从而获取模型的参数,比较常见的优化算法包括梯度下降法、牛顿法与拟牛顿法等。但在大数据的背景下,尤其对于并行实现来说,优化算法通常是越简单越好,如坐标下降法(CD)和随机梯度下降法(SCG)就比较受欢迎。本文是阅读完论文 Distributed Coordinate Descent Method for Learning with Big Data 的一则笔记,主要介绍算法 Hydra (一种分布式坐标下降法)的算法框架、收敛性理论、

2014-06-03 23:43:00

最大熵学习笔记(六)优缺点分析

生活中我们经常听到人们说“不要把鸡蛋放到一个篮子里”,这样可以降低风险。深究一下,这是为什么呢?其实,这里边包含了所谓的最大熵原理(The Maximum Entropy Principle)。本文为一则读书笔记,将对最大熵原理以及由此导出的最大熵模型进行介绍,重点给出其中所涉及数学公式的理解和详细推导。

2014-05-22 08:28:01

最大熵学习笔记(五)最优化算法

生活中我们经常听到人们说“不要把鸡蛋放到一个篮子里”,这样可以降低风险。深究一下,这是为什么呢?其实,这里边包含了所谓的最大熵原理(The Maximum Entropy Principle)。本文为一则读书笔记,将对最大熵原理以及由此导出的最大熵模型进行介绍,重点给出其中所涉及数学公式的理解和详细推导。

2014-05-22 08:27:49

最大熵学习笔记(四)模型求解

生活中我们经常听到人们说“不要把鸡蛋放到一个篮子里”,这样可以降低风险。深究一下,这是为什么呢?其实,这里边包含了所谓的最大熵原理(The Maximum Entropy Principle)。本文为一则读书笔记,将对最大熵原理以及由此导出的最大熵模型进行介绍,重点给出其中所涉及数学公式的理解和详细推导。

2014-05-22 08:27:39

最大熵学习笔记(三)最大熵模型

生活中我们经常听到人们说“不要把鸡蛋放到一个篮子里”,这样可以降低风险。深究一下,这是为什么呢?其实,这里边包含了所谓的最大熵原理(The Maximum Entropy Principle)。本文为一则读书笔记,将对最大熵原理以及由此导出的最大熵模型进行介绍,重点给出其中所涉及数学公式的理解和详细推导。

2014-05-22 08:27:26

皮果提

关注