自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

  • 博客(14)
  • 资源 (1)
  • 收藏
  • 关注

原创 95行代码实现最大熵模型训练

关于最大熵模型的介绍请看:http://www.cnblogs.com/hexinuaa/p/3353479.html下面是GIS训练算法的python实现,代码不到100行。from collections import defaultdictimport mathclass MaxEnt(object):    def __ini

2014-04-29 14:05:25 2566 2

原创 部分面试题整理

1. 判断一个机器是大序还是小序的bool IsBig_Endian()//如果字节序为big-endian,返回true;//反之为  little-endian,返回false{    unsignedshort test = 0x1122;    i

2011-07-27 16:40:47 1307

转载 海量数据面试题整理

海量数据面试题整理1. 给定a、b两个文件,各存放50亿个url,每个url各占64字节,内存限制是4G,让你找出a、b文件共同的url?方案1:可以估计每个文件安的大小为50G×64=320G,远远大于内存限制的4G。所以不可能将其完全加载到内存中处理。考虑采取分而治之的方法。

2011-07-27 12:24:06 1845

转载 海里数据面试题整理

1. 给定a、b两个文件,各存放50亿个url,每个url各占64字节,内存限制是4G,让你找出a、b文件共同的url?方案1:可以估计每个文件安的大小为50G×64=320G,远远大于内存限制的4G。所以不可能将其完全加载到内存中处理。考虑采取分而治之的方法。s 遍历文件a,对

2011-07-26 15:46:09 219

原创 计算直线的交点数—动态规划

计算直线的交点数Problem Description平面上有n条直线,且无三线共点,问这些直线能有多少种不同交点数。比如,如果n=2,则可能的交点数量为0(平行)或者1(不平行)。问题分析将n条直线排成一个序列,直线2和直线1最多只有一个交点,直线3和直线1,2最多有两个交点,

2011-07-26 00:02:43 4068 1

原创 如何设计一个LRU Cache?

如何设计一个LRU Cache?Google和百度的面试题都出现了设计一个Cache的题目,什么是Cache,如何设计简单的Cache,通过搜集资料,本文给出个总结。 通常的问题描述可以是这样:Question:[1] Design a layer in front of a s

2011-07-24 22:41:55 27582 10

原创 二分查找的几点思考

二分查找的几点思考 很早听说90%的程序员写不出正确的二分查找程序,对此颇为怀疑也颇为惶恐。怀疑的是,二分查找真的很难写吗?惶恐的是,怀疑的我能否在短时间内写出一个正确的二分查找程序?为了自己能成为10%中的一员,在此特别总结了二分查找算法。 二分查找又称折半查找,用于在有序序列

2011-07-12 17:29:13 3862 3

转载 lamp 配置

虚拟机上安装Fedora Core并架设LAMP服务器流程  一直以来极少在百度知道上提问,因为碰到什么问题基本只要动动鼠标就能搜出答案,鉴于此,基本也没怎么把自己日常碰到的小问题的解决方案写下来,因为觉得其他人应该也可以用同样的方法搜索到答案。不过现在想想,如果大家都不写,那可供后人参考的解决方法也就不会增长,所以还是动动手写下一点吧,人人为我,我为人人。  最近因为工作需要,要

2011-06-10 15:44:00 113

转载 Topic Model

基于LDA的Topic Model变形最近几年来,随着LDA的产生和发展,涌现出了一批搞Topic Model的牛人。我主要关注了下面这位大牛和他的学生:<br />David M. BleiLDA的创始者,04年博士毕业。一篇关于Topic Model的博士论文充分体现其精深的数学概率功底;而其自己实现的LDA又可体现其不俗的编程能力。说人无用,有论文为证:<br />J. Chang and D. Blei. Relational Topic Models for Document Networ

2011-01-07 16:14:00 155

转载 正则表达式

<br />项目中常用的十个正则表达式 <br />1.是否为数字<br />   Regex rx = new Regex(@"^[+-]?[0123456789]*[.]?[0123456789]*$");<br />2.是否只包含字母与数字<br />   Regex rx = new Regex(@"^[a-zA-Z0-9-]*$");<br />3.是否是身份证<br />   Regex rx = new Regex(@"^[0123456789]{15,18}$");<br /> 最后一位带X

2010-11-29 21:57:00 72

转载 Topic Model

基于LDA的Topic Model变形最近几年来,随着LDA的产生和发展,涌现出了一批搞Topic Model的牛人。我主要关注了下面这位大牛和他的学生:<br />David M. BleiLDA的创始者,04年博士毕业。一篇关于Topic Model的博士论文充分体现其精深的数学概率功底;而其自己实现的LDA又可体现其不俗的编程能力。说人无用,有论文为证:<br />J. Chang and D. Blei. Relational Topic Models for Document Networks.

2010-11-19 11:29:00 8623 3

转载 有趣的数据结构——Linux内核中的链表(Black Aureole)

<br /> Linux内核中有很多种链表,如果对每一种链表都使用单独的数据结构去表示,那么需要对每个链表实现一组原语操作,包括初始化、插入、删除等。于是,Linux内核定义了一个很有趣的数据结构: list_headstruct list_head {<br />    struct list_head *next, *prev;<br />};<br />     乍一看这定义,似乎很普通,但妙就妙在普通上。    通常我们的做法总是将数据嵌入到链表的节点中,类似下面的定义方法:struct list_

2010-09-30 11:09:00 1043

原创 Author Topic Model解析

Generative Models for Document(文章的生成模型) 这里的Document(文章)是包括两部分:文章的作者集合,组成文章内容的单词集合。例如: Document 1表示为: Document 2表示为: 我们将Docum

2010-08-15 21:56:00 6153 8

原创 贝叶斯垃圾邮件过滤

ProcessParticular words have particular probabilities of occurring in spam email and in legitimate email. For instance, most email users will frequently encounter the word "Viagra" in spam ema

2010-05-16 10:48:00 7514 5

最大熵模型入门—包你懂

翻译的关于最大熵模型的文章,并加入自己的相关推导。

2013-10-06

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除