xianlingmao-CSDN博客

原创现在主流人工智能（AI）方法的本质是什么？

人工智能无疑已经是这个时代最火热的词汇，也是这个时代各行各业避免不了的关键词。日常生活中，特别是很多非计算机相关背景人士写出来的关于人工智能的文章，要么过高估计了现有人工智能的能力，要么对人工智能抱有过高或不切实际的期望。人工智能，最理想的情况，当然是要具有匹配人脑的能力；然而要达到这一目标，其路修远兮。为了达到这一目标，人类已经进行了几千年的探索，总的方法论是: 降低目标，采用登天梯的方式，先从能够够得着的小目标出发逐步逐步的往前探索： ...

2021-08-01 17:07:36 1844

原创 Word Embedding里面的Embedding如何理解？

很多同学对于什么是Embedding非常难以理解，明明是一个向量，为什么不叫向量？难道是故意取一个不同的名字以彰显创新性？故事是这样的：以前处理文档的时候，一个词通常采用one-hot的方式来表达，即用词表集合大小（|V|）这么大的向量来表示一个词，这个向量里面只有一个维度的值是1，其它维度的值全部是0；也就是说，采用了一个|V|这个大的向量来表示一个词，这个|V|通常非常大（过万），...

2021-08-01 13:30:00 649

原创浅谈深度学习(Deep Learning)的基本思想和方法

深度学习（Deep Learning），又叫Unsupervised Feature Learning或者Feature Learning，是目前非常热的一个研究主题。本文将主要介绍Deep Learning的基本思想和常用的方法。一. 什么是Deep Learning？实际生活中，人们为了解决一个问题，如对象的分类（对象可是是文档、图像等），首先必须做的事情是如何来表达一个对象，即必

2013-01-07 22:18:06 91252 16

原创深入理解拉格朗日乘子法（Lagrange Multiplier) 和KKT条件

在求取有约束条件的优化问题时，拉格朗日乘子法（Lagrange Multiplier) 和KKT条件是非常重要的两个求取方法，对于等式约束的优化问题，可以应用拉格朗日乘子法去求取最优值；如果含有不等式约束，可以应用KKT条件去求取。当然，这两个方法求得的结果只是必要条件，只有当是凸函数的情况下，才能保证是充分必要条件。KKT条件是拉格朗日乘子法的泛化。之前学习的时候，只知道直接应用两个方法，但是却

2012-09-22 17:05:52 429528 99

原创模型选择的几种方法：AIC，BIC，HQ准则

经常地，对一堆数据进行建模的时候，特别是分类和回归模型，我们有很多的变量可供使用，选择不同的变量组合可以得到不同的模型，例如我们有5个变量，2的5次方，我们将有32个变量组合，可以训练出32个模型。但是哪个模型更加的好呢？目前常用有如下方法：AIC=-2 ln(L) + 2 k 中文名字：赤池信息量 akaike information criterionBIC=-2 ln(L)

2012-08-21 15:17:46 141304 6

原创梯度、Hessian矩阵、平面方程的法线以及函数导数的含义

想必单独论及“ 梯度、Hessian矩阵、平面方程的法线以及函数导数”等四个基本概念的时候，绝大部分人都能够很容易地谈个一二三，基本没有问题。其实在应用的时候，这几个概念经常被混淆，本文试图把这几个概念之间的关系整理一下，以便应用之时得心应手。这四个概念中，Hessian矩阵是最不容易混淆，但却是很多人难以记住的概念，其它三个概念很容易记住，但却在某些时候很容易混淆。Hessi

2012-08-19 20:55:51 26763

原创深入理解模拟退火算法（Simulated Annealing)

本文将对模拟退火算法（Simulated Annealing)进行介绍，深入理解这个算法。模拟退火算法和上一篇文章随机模拟算法中的Metropolis算法有着紧密的联系，在这里将详细探讨这种关系。我们先从这个算法要解决的问题出发，逐步引出相应的算法。（pku， sewm，shinning）一. 问题人们经常遇到这样的问题：在某个定义域S内，求某个函数f(x)的最小值，形式化为Min

2012-07-29 12:20:50 77680 2

原创随机模拟的基本思想和常用采样方法（sampling）

通常，我们会遇到很多问题无法用分析的方法来求得精确解，例如由于式子特别，真的解不出来；一般遇到这种情况，人们经常会采用一些方法去得到近似解（越逼近精确解越好，当然如果一个近似算法与精确解的接近程度能够通过一个式子来衡量或者有上下界，那么这种近似算法比较好，因为人们可以知道接近程度，换个说法，一般一个近似算法被提出后，人们通常都会去考察或寻求刻划近似程度的式子）。本文要谈的随机模拟就是一类近

2012-07-23 15:27:44 132677 24

原创核方法(kernel method)的主要思想

本文对核方法（kernel method）进行简要的介绍。核方法的主要思想是基于这样一个假设：“在低维空间中不能线性分割的点集，通过转化为高维空间中的点集时，很有可能变为线性可分的” ，例如下图左图的两类数据要想在一维空间上线性分开是不可能的，然而通过F(x)=(x-a)(x-b)把一维空间上的点转化为右图上的二维空间上，就是可以线性分割的了。然而，如果直接把低维度的数据转

2012-07-05 16:31:02 85717 16

原创 Jackknife，Bootstraping, bagging, boosting, AdaBoosting, Rand forest 和 gradient boosting的区别

Jackknife，Bootstraping, bagging, boosting, AdaBoosting, Rand forest 和 gradient boosting这些术语，我经常搞混淆，现在把它们放在一起，以示区别。(部分文字来自网络，由于是之前记的笔记，忘记来源了，特此向作者抱歉）Bootstraping: 名字来自成语“pull up by your own bootstr

2012-07-03 20:09:59 19821

原创线性代数（二）--有限维向量空间和线性映射

上篇文章已经讨论了什么是线性代数，线性代数就是研究有限维向量空间中线性映射的学科。它由两个部件组成：有限维向量空间和线性映射本文主要研究有限维向量空间的性质以及线性映射。（一）有限维向量空间关于有限维向量空间，最核心的观念是“结构”，（私下地认为，一切东西都是有结构的，结构是一切事物内在的一个属性，正如数的概念也是具有结构的，它能分为有理数和无理数等等各个具有不同性质的部件组

2012-06-26 11:00:54 23074

原创线性代数（一）--什么是线性代数（兼论向量空间及其性质）

引子：学习机器学习到一定程度，必然就会碰到数学瓶颈的问题，在这些数学瓶颈中，线性代数是其中一个重要障碍。如果能够较为深入地理解线性代数，会大大提高机器学习的理解和应用能力。因此，决定写一个线性代数的系列，来记录自己重读线性代数的过程，与同道中人共勉。既然我们谈到线性代数，那么什么是线性代数呢？一句话：线性代数是关于有限维向量空间中线性映射的学科。上面的定义有两个加黑的地方：有限维向

2012-06-19 12:57:19 16461 2

原创看懂信息检索和网络数据挖掘领域论文的必备知识总结

信息检索和网络数据领域（WWW, SIGIR, CIKM, WSDM, ACL, EMNLP等）的论文中常用的模型和技术总结引子：对于这个领域的博士生来说，看懂论文是入行了解大家在做什么的研究基础，通常我们会去看一本书。看一本书固然是好，但是有一个很大的缺点：一本书本身自成体系，所以包含太多东西，很多内容看了，但是实际上却用不到。这虽然不能说是一种浪费，但是却没有把有限力气花在刀口上。

2012-06-15 17:02:41 24668 6

原创 Dirichlet distribution的两种理解方式

Dirichlet distribution，对于做主题模型（topic model）研究特别的重要，因为很多模型之中都需要它作为先验分布。本来这个分布Wikipedia和大多数的教科书已经讲得非常清楚，没有必要在这里多介绍，但是最近在理解Dirichlet process过程中，发现从另外一个角度来理解Dirichlet Distribution，对于理解Dirichlet Process有

2012-04-22 20:22:14 25264 1

原创 MAC电脑上安装latex和auctex之后，按c-c c-v之后出现"evince file"，而不是“open file"的解决方法

MAC电脑上安装latex和auctex之后，按c-c c-v之后会出现"evince file"，而不是“open file"的问题，这样就会导致不能正常地预览生成的pdf文件下面是解决方法：在.emacs文件中把下列一段注释掉：(setq TeX-view-program-list '(("^dvi$" "." "open %o")

2012-04-20 11:50:17 12694

原创狄利克雷过程（dirichlet process ）的五种理解

狄利克雷过程（dirichlet process ）是目前变参数学习（non parameter）非常流行的一个理论，很多的工作都是基于这个理论来进行的，如HDP（hierarchical dirichlet process）。下面我们谈谈dirichlet process的五种角度来理解它。第一种：原始定义：假设存在在度量空间\Theta上的分布H和一个参数\alpha，如果对于度量空间

2012-03-11 22:09:27 85703 5

原创 EM算法

我所知道的最简单的EM算法推导：预备知识： jessen不等式这里不详细讲解Jessen不等式，大家可以google，这里只大概讲解其意思，就是对于凹函数f(x)（即大肚子向上，口子向下，国外和国内的定义不同，特此注明），f(E(x)) >= E(f(x)); 若是凸函数，不等号的方向相反。等号成立的条件是x是常变量，即各个值相等推导：假设X是已知变量，H是隐藏变量，\

2012-03-10 17:38:07 15781 3

原创什么叫共轭先验或者共轭分布？

如果你读过贝叶斯学习方面的书或者论文，想必是知道共轭先验这个名词的。现在假设你闭上眼睛，你能准确地说出共轭分布是指哪个分布和哪个分布式共轭的吗？我之前就常常把这个关系弄错，现在记录如下，以加强印象。贝叶斯学派和频率学派的区别之一是特别重视先验信息对于inference的影响，而引入先验信息的手段有“贝叶斯原则“（即把先验信息当着均匀分布）等四大类其中有重要影响的一类是：共轭先验

2012-03-10 16:58:00 72483 2

原创话题模型（topic model）的提出及发展历史

topic model 是一种应用十分广泛的产生式模型(generative model)，在IR， NLP，ML都有广泛的应用，本文将对目前已有的topic model进行分类总结，然后选择几个代表性的topic model进行较为详细的介绍，从而理解topic model 的思想，以及怎么应用。topic model最经典的模型之一是LDA（latent dirichlet alloc

2011-12-16 10:03:55 50884 3

原创 Topic Model的分类和设计原则

topic model的介绍性文章已经很多，在此仅做粗略介绍，本文假设读者已经较为熟悉Topic Medel。Topic Model （LDA）认为一个离散数据集合（如文档集合，图片集合，为行文方便，本文统统以文档集合作为描述对象，其他的数据集合只需换掉对应的术语即可）是由隐含在数据集合背后的topic set 生成的，这个set中的每一个topic都是词的概率分布。对于文档中的每一篇文档，先

2011-12-13 17:12:14 25611 3

转载测度论--长度是怎样炼成的[zz]

这篇文章是我见过的写得比较好的关于测度论的文章，它深入浅出，特转载于此，供更多人参考/学习 [测度论学习]长度是怎样炼成的（1） 长度是怎样炼成的？ 源于 http://www.blog.edu.cn/user2/tchzhang/archives/2006/1359252.shtml 应小乐之请写的一个东西，其目的是为了回答以下问题： 点没有长度和面积，为什么由点组成的线和面会具有长度和面积？ “长度”

2010-08-24 19:47:00 26342 4

原创一. 图模型（graphical model, GM)的表示

图模型(graphical model)是一类用图来表示概率分布的一类技术的总称。 它的主要优点是把概率分布中的条件独立用图的形式表达出来，从而可以把一个概率分布（特定的，和应用相关的）表示为很多因子的乘积，从而简化在边缘化一个概率分布的计算，这里的边缘化指的是给定n个变量的概率分布，求取其中m个变量的概率分布的计算（m<n)。 图模型主要有两大类，一类是贝叶斯网络（又称有向图模型）；另外一类是马尔可夫网络（又称无向图模型）。 谈到一个图模型，主要有三个主要的关注点

2010-07-29 17:17:00 35648 10

原创熵与信息量的理解

有人说：“熵越大，信息量越小”也有人说：“熵越大，信息量越大”到底在香农的信息框架下，熵指的是什么？信息量指的又是什么呢？上面的两种说法哪种是对的呢？给定一个随机变量X，它的熵定义为 H(X)=- /sum (p_x * log p_x)熵只是刻画系统或者变量不确定性的一个量，并不是刻画系统信息量的一个量，但是它与信息量是有关系的，什么关系呢？当我们谈论信息量的时候应该是指

2010-05-28 17:14:00 23604 2

转载 zz使用 Python 分离中文与英文的混合字串

使用 Python 分离中文与英文的混合字串 LiYanrui posted @ 大约 1 年前 in 程序设计 with tags python , 614 阅读这个问题是做 MkIV 预处理程序时搞定的，就是把一个混合了中英文混合字串分离为英文与中文的子字串，譬如，将 ”

2010-05-26 15:07:00 7126

转载 ZZ python处理中文

以下为我在处理网页编码问题看的文章，现在写爬虫自己处理网页编码问题确实比较麻烦，网页也没有规定一定要在META头信息里带编码信息，而很多人写的探测编码就是获取META，这是不可取的，而有的人则是分析HTTP返回的数据包里边的charset，如（a.headers.getparam(charset)），而HTTP包没有规定一定要带charset，所以也不是可靠的办法。

2010-05-26 14:53:00 1866

转载 [zz] 隐马尔可夫模型(HMM)简介

这篇文章是我看过的关于HMM最好的文章之一，值得仔细揣摩，这篇文章里面有一些错误，如计算和表达，需要注意。隐马尔可夫模型(HMM)简介http://xiaofeng1982.blog.163.com/blog/static/315724582009824103618623/ 隐马尔可夫模型(HMM)简介请各位读者深吸一口气……呼…… 开始…

2010-05-15 22:14:00 4312

转载 zz数学之美系列二十一：布隆过滤器（Bloom Filter）

布隆过滤器决不会漏掉任何一个在黑名单中的可疑地址。但是，它有一条不足之处。也就是它有极小的可能将一个不在黑名单中的电子邮件地址判定为在黑名单中，因为有可能某个好的邮件地址正巧对应个八个都被设置成一的二进制位。好在这种可能性很小，我们把它称为误识概率。在日常生活中，包括在设计计算机软件时，我们经常要判断一个元素是否在一个集合中。比如在字处理软件中，需要检查一个英语单词是否拼写正确（也

2010-04-25 23:34:00 1751

转载数学是科学技术的语言

我读了这篇文章，感同身受，故而转载如下：从小学到大学都在学习数学，从小学开始了解数字的概念和背诵九九表到大学学习复变函数和离散数学，看起来好像掌握了这些数学知识，但是在工作中却很少真正用到这些知识，为什么？最近在研究一种开源软件-CARROT2的源代码的时候，又一次感觉到数学在计算机技术中的不可动摇的基础作用，CARROT2是一种用于自动语言分类（聚类）的工具性软件，用JAVA

2010-04-25 23:19:00 2363

转载 zz数学之美番外篇：平凡而又神奇的贝叶斯方法

贝叶斯方法源于他生前为解决一个“逆概”问题写的一篇文章，而这篇文章是在他死后才由他的一位朋友发表出来的。在贝叶斯写这篇文章之前，人们已经能够计算“正向概率”，如“假设袋子里面有N个白球，M个黑球，你伸手进去摸一把，摸出黑球的概率是多大”。概率论只不过是把常识用数学公式表达了出来。——拉普拉斯记得读本科的时候，最喜欢到城里的计算机书店里面去闲逛，一逛就是好几个小时；有一次，在书店

2010-04-25 23:15:00 4061 1

转载 zz数学是一种思考方式

数学的发展历史中，又包含了许多人无穷的创造力。光靠逻辑推理来一步步解决问题显然是不够的。很多数学问题的解决，都起源于某种直觉，某种创造性构建，甚至把许多表面不相关的东西牵连在一起思考。然后再通过逻辑严密的推导过程来完善它。 http://www.kuqin.com/math/20071126/2658.html 这几天有个读者来来去去给我写了几封 email ，问起我的观点：数学和编程

2010-04-25 23:06:00 1915 1

转载 zz数学故事：铺地锦绣

冉有是班上的小巧手，虽然他的数学成绩不是最好的，但不管是孔老师还是同学们，都一致认为他很聪明。俗话不是说了吗？心灵手巧嘛。但在我看来呢，心灵的人不一定手巧，象颜回学习不错，可是却连自己的一顿饭也不会煮，这让孔老师常常叹着气说，“颜回呀，你过得这么辛苦，拿着个破竹筐装饭，拿着勺子喝水，什么时候才学会照顾好自己呀？”要是拿颜回和冉有比起来，那可真是差太远了，光是用一个普普通通的鸡蛋，冉有就会做

2010-04-25 23:05:00 3444

原创【zz】数学之美系列的网址

吴军同志以非常通俗的语言描述了计算机领域常用的算法和模型，特别是机器学习和IR领域包括，ME算法，markov过程等等，给了我很多直观的印象，非常棒，强烈推荐。但是在google黑板报已经不能访问了，其它转载的地方却又图片还是链接到google导致图片都不能访问，下面这个网站却很好地保存了文章的原貌，记录如下：http://www.kuqin.com/math/20071204/2

2010-04-25 22:46:00 3000

转载 Python Import机制备忘(转)

Python Import机制备忘(转) 最近在看《Python源码剖析》，对Python内部运行机制比以前了解的更深入了，感觉自己有机会也可以做个小型的动态脚本语言了，呵呵，当然是吹牛了。目的当然不是创造一个动态语言，目的只有一个：更好的使用Python。看到模块导入那块的时候，终于对模块导入机制比较了解了，以防忘记特记录下来。模块的搜索路径模块的搜索路径

2010-04-13 09:18:00 1498

转载 import 初探之一 —— 导入 Package

zz from http://bbs.bccn.net/thread-298525-1-1.htmlimport 初探之一 —— 导入 Package 简单地探讨一下 Python 中的 import，它的用法。这是第一篇。

2010-04-13 09:13:00 1287 1

原创 SecureCRT 使用Zmodem从ubuntu传送文件

经常我们需要从windows利用工具（如secureCrt）连接到linux server 去处理数据SecureCRT可以使用linux下的zmodem协议来快速的传送文件, 就不用找ftp工具了对secureCRT软件设置如下：只要设置一下上传和下载的默认目录就行 options（选项）–>sessionoptions（会话选项）–>X/Y/Zmod

2010-04-07 12:59:00 3006

原创 python xml处理中文时出现的错误

python xml处理中文时出现的错误，记录一下，以免忘记 "UnicodeDecodeError: ascii codec cant decode byte 0xe9 in position 0: ordinal not in range(128)"解决办法，在该python文件的前面加上如下几句，问题得到解决。import sysdefa

2010-04-05 17:08:00 3583 3

转载数学之美系列十六 -- 谈谈最大熵模型[zz]

数学之美系列十六 -- 谈谈最大熵模型2006年10月8日上午 07:27:00 发表者：Google 研究员，吴军 [我们在投资时常常讲不要把所有的鸡蛋放在一个篮子里，这样可以降低风险。在信息处理中，这个原理同样适用。在数学上，这个原理称为最大熵原理(the maximum entropy principle)。这是一个非常有意思的题目，但是把

2010-04-05 17:03:00 2073

原创 Emacs学习路线图（二）----之基本命令篇

Emacs学习路线图（二）----之基本命令篇 2. Emacs基本命令篇网络上有很多的教程，这里不详细叙述，参考一些资料略微的总结如下（因为是自己学习过程看的资料的一些笔记汇总，可能某些内容是摘自哪位仁兄的手笔，现在已经记不得了，如果你看到了某个部分是你写的，请发信给我，我会添加上去的，谢谢）。符号说明：C-X 表示按住CTRL键, 然後按X, 再把CTRL, X一

2010-03-10 14:42:00 2033

原创 Emacs学习路线图（一）----之编辑器之道

0.写在前面的话对于很多人来说，听到emacs，首先想到的是“强大，赫赫有名，然后就是太难”，但是这三个方面的第三方面却不是emacs的本质，emacs是unix平台设计原则K.I.S.S.(keep it simple, stupid)的最好体现的软件，所以这个软件应该是简单的才对！但是在现实生活中，为什么emacs会给广大的用户造成“很难”这个印象呢？我想主要有下面几个原因：a

2010-03-09 22:32:00 2709

原创开技术博客了，欢迎大家来踩踩

有人说过：对于一个人来说，”会写作意义重大“。我想主要是两个方面：一是通过写作记录下自己思考的过程和经历；二是通过写作训练自己严谨的思维；鉴于此，我写日记、写生活博客，现在我开始写技术博客。没有生活的琐事记录，只有对技术的思考，这样便于管理。本博客主要关注图模型、模拟技术和采样、信息检索、机器学习以及

2010-03-07 14:10:00 1528 1

空空如也

空空如也