eaglex-CSDN博客

原创 2012年总结

之前有一段时间流行一篇标题“你有没有想过，你可能一辈子都是一个小人物？”的日志，看完之后我感觉有点不舒服，倒不是被伤自尊之类的，而是在关于人的追求的问题上的不赞同。但一时想不到一个太好的评论，直到今天在知乎上看到了一句话：我最害怕的不是自己一辈子都是一个小人物，而是每天仍然是昨天的我，没有改变。这就是我全部想说的，写这个总结，也是看看今天的我和去年的我有多大的改变。上半年还是呆在学校，课程作业

2012-01-23 22:51:41 3593 1

原创 vi中换行符的替换问题

最近在公司用shell处理一些数据，发现vi的也能做一些简单的脚本的工作，常见的就是替换了。很多时候需要对换行符进行处理，无论是把某个符号换成换行符也好，还是把换行符换成其他符号。这里面就有个方向的问题了，而vi中两个方向的换行符是不一样的。如果把a换成换行符

2011-09-22 14:09:07 5309

原创你好百度——你好 NLP

昨天在四号线上手机上网时发现百度的状态已经变成了“三面已通过”，在感叹百度做决定的效率之高之余，心里的一块大石头也落地了，毕竟这是第一个实习offer（虽然offer还没到手-。-），而我打主意去的公司也就剩下百度的和有道了，关于公司的选择一会儿在三面的时候我会提到，所以还是有一定压力的。好在从笔试到三面一路下来，除了时间上跨度比较远——大概横跨了快一个月，其他方面还是比较顺利的，甚至可以说

2011-06-03 21:19:00 5229

翻译隐马尔科夫模型(Hidden Markov Models) 系列之五

介绍（introduction)生成模式（Generating Patterns）隐含模式（Hidden Patterns）隐马尔科夫模型（Hidden Markov Models）前向算法（Forward Algorithm）维特比算法（Viterbi Algorithm）前向后向算法（Forward-Backward Algorithm）总结维特比算法(Viterbi Algorithm)找到可能性最大的隐藏序列通常我们都有一个特定的HMM，然后根据一个可观察序列去找到最可能生成这个可观察序列的隐藏序

2011-06-01 09:24:00 8338

翻译隐马尔科夫模型(Hidden Markov Models) 系列之四

介绍（introduction)生成模式（Generating Patterns）隐含模式（Hidden Patterns）隐马尔科夫模型（Hidden Markov Models）前向算法（Forward Algorithm）维特比算法（Viterbi Algorithm）前向后向算法（Forward-Backward Algorithm）总结前向算法(Forward Algorithm)一、如果计算一个可观察序列的概率？ 1.穷举搜索加入给定一个HMM，也就是说(,A,B)这个三元组已知，我们想计

2011-05-18 19:17:00 6586 4

翻译隐马尔科夫模型(Hidden Markov Models) 系列之三

介绍（introduction)生成模式（Generating Patterns）隐含模式（Hidden Patterns）隐马尔科夫模型（Hidden Markov Models）前向算法（Forward Algorithm）维特比算法（Viterbi Algorithm）前向后向算法（Forward-Backward Algorithm）总结隐马尔科夫模型（Hidden Markov Models）定义隐马尔科夫模型可以用一个三元组(π,A,B)来定义:π 表示初始状态概率的向量A =（aij）（隐藏

2011-05-13 20:54:00 7817

翻译隐马尔科夫模型(Hidden Markov Models) 系列之二

介绍（introduction)生成模式（Generating Patterns）隐含模式（Hidden Patterns）隐马尔科夫模型（Hidden Markov Models）前向算法（Forward Algorithm）维特比算法（Viterbi Algorithm）前向后向算法（Forward-Backward Algorithm）总结隐含模式（Hidden Patterns）当马尔科夫过程不够强大的时候，我们又该怎么办呢？在某些情况下马尔科夫过程不足以描述我们希望发现的模式。回到之前那个天气的

2011-05-02 22:39:00 8130 3

翻译隐马尔科夫模型(Hidden Markov Models) 系列之一

介绍（introduction)生成模式（Generating Patterns）隐含模式（Hidden Patterns）隐马尔科夫模型（Hidden Markov Models）前向算法（Forward Algorithm）维特比算法（Viterbi Algorithm）前向后向算法（Forward-Backward Algorithm）总结介绍（introduction）通常我们总是对寻找某一段时间上的模式感兴趣，这些模式可能出现在很多领域：一个人在使用电脑的时候使用的命令的序列模式；一句话中的单词

2011-04-30 20:55:00 14595 3

原创一个K-means聚类算法的实现代码和分析

最近做聚类实验，实现了几个简单的聚类算法，其中基于最大最小的顺序聚类算法MBSAS就不贴了，受异常点影响很大，其实这个也很好理解，因为选最大距离进行分类(MBSAS先确定类，再根据类里的向量将剩下的样本分到某个类中)的时候，很容易就将异常点作为一个类分出去，那样在分2类的过程中，很明显会出现某个类占95%+，另一个类只有5%以下样本的情况，后者显然就是个异常点，这对我们的聚类是非常不利的，当然用来找异常点还是很有效的。在实现K-mean算法的时候，也需要找初始点，如果采用最大最小的话还是会遇到这个问题，那么

2011-04-30 16:30:00 8471 5

原创阅读笔记:Building a Distributed Full-Text Index for the Web

这篇文章主要讲的是对海量互联网数据建立分布式索引的一些注意的问题和解决方案，涉及到服务器的物理架构、倒排索引的具体结构以及各个索引服务器之间的通信之间的问题。文章主要由三个创新的地方：对建立索引的过程分段，采用流水线技术最大化索引的效率对不同的倒排模型进行比较，证明了复合模型(mixed-list)的最优性全局数据(诸如idf)收集的一些策略当然，之前还有大段的文字从互联网数据的规模、增长速度和变化频率论证了建立索引的时间对整个搜索过程有着重要的影响。另外，还交代了作者进行试验的一些服务器物理架构特点和以

2011-04-25 22:26:00 2327

原创 win7下cygwin + Eclipse + Lucene3.1.0 安装编译

最近为了研究Lucene的倒排索引结构，想把lucene的源码在Eclipse里编译安装，cygwin和Eclipse的安装见之前的blog。Lucene3.1 安装：到http://lucene.apache.com下载到源码之后，在Eclipse中新建一个项目，直接将源码包中src/java目录下的文件夹都拷到项目的src下即可，同时将lib文件夹下的三个jar包添加项目的buildpath中，到这里就完成了，很简单。由于Lucene3.1使用的是JUnit测试框架，所以为了进行测试，我们还需要从src

2011-04-25 13:24:00 3290

转载微博首席架构师杨卫华:新浪微博技术架构分析

大家下午好，在座的大部分都是技术开发者，技术开发者往往对微博这个产品非常关心。最晚的一次，是12点多收到一个邮件说想了解一下微博底层是怎么构架的。很多技术人员对微博的构架非常感兴趣，就是一个明星他有300万粉丝，这个技术怎么来实现？今天在这里跟大家分享一下微博的底层机构，让大家对微博的底层技术有更好的了解。另外不管是做客户端、Web 1.0、Web 2.0、论坛、博客都要考虑架构的问题，架构实际上是有一些共性的。今天我通过讲解微博里面的一些架构，分析一下架构里面哪些共性大家可以参考。　　首先给大

2011-04-24 17:38:00 2716

原创 nachos 3.4 实现抢占式多级队列反馈算法

今天开始进行文件系统的实验，就把线程部分最后一个稍有难度的练习给贴上来吧。老实说，这个练习应该是这次实验中最难的一个练习了。因为要实现多级队列反馈调度算法，就必须利用到时间片和中断机制，而这在刚才的实验中完全不需要考虑。尤其是中断机制，应该算是整个线程模块最难的一部分了，搞懂了这部分，基本上线程模块的整个运行流程就十分清晰了，所以下面我先分析下这部分代码，然后再描述我是如何通过修改原有的代码实现多级队列反馈调度算法的。提到多级队列反馈调度算法，首先想到的就是时间片机制了，还好nachos已经为我们实现好了一

2011-04-20 18:58:00 4694 2

原创 win7下cygwin + Eclipse + Nutch1.2 + Tomcat6 安装配置

之前在Ubuntu下安装了次，花了蛮久，但是觉得看代码什么的不方便，而且大部分工作还是在Win7，加之今天做PPT要讲Nutch的效果，所以花了一两个小时在Win7下安装了，虽然有了第一次经验，还是出现了一些问题。JDK6.0 + Eclipse + Tomcat这个基础组合的安装就不说了，基本不需要什么配置，网上也有很多的介绍。a)Cygwin的配置由于nutch是默认运行在linux下的，所以我们需要安装cygwin，在此下载。一般选择在线安装，这里要注意，选择美国的服务器，即.org或类似的一级域名结

2011-04-11 00:37:00 6358 4

翻译常见的Hash算法

简介哈希方法学哈希函数和素数位偏移各种形式的哈希常用的哈希函数各版本哈希代码下载简介哈稀函数按照定义可以实现一个伪随机数生成器(PRNG)，从这个角度可以得到一个公认的结论：哈希函数之间性能的比较可以通过比较其在伪随机生成方面的比较来衡量。一些常用的分析技术，例如泊松分布可用于分析不同的哈希函数对不同的数据的碰撞率(collision rate)。一般来说，对任意一类的数据存在一个理论上完美的哈希函数。这个完美的哈希函数定义是没有发生任何碰撞，这意味着没有出现重复的散列值。在现实中它很难找到一个完美的哈希散

2011-04-08 22:31:00 42296 9

原创 Java的Hashtable实现

最近做信息检索的VSM实验，字典生成这块用的是java自带的Hashtable数据结构，觉得效率还不错。后来有同学提到用词典树来保存字符串，可以用公共前缀来节约存储空间，最大限度的减少无谓的比较，查询效率要高于哈希表。回头有时间研究下词典书的实现和分析，这里先分析一下java的hashtable实现以及常见的字符串hash算法。为了使用Eclipse去查看java本身的一些基础实现，我们需要先将java的源码加到Eclipse的jre路径中:1.点 “window”-> "Preferences" -> "

2011-04-07 00:14:00 6751

原创阅读笔记:Detecting Near-Duplicates for Web Crawling

Detecting Near-Duplicates for Web Crawling 阅读笔记Detecting Near-Duplicates for Web Crawling 是Google公司的几个工程师07年参加Track数据挖掘部分的一篇文章，主要解决的问题是相似内容的网页的识别。

2011-04-02 11:45:00 5553

原创 nachos3.4线程的栈结构和相关汇编解析

我在前面一篇nachos入门的介绍中提到了nachos的线程切换是和汇编相关的，而且也涉及到其线程的栈结构，所以由于篇幅，之前就没有详细说明，这两天把多级队列反馈算法实现之后，又仔细了研究了下。 nachos版本：3.4 工具：Win7下 SourceInsight or Linux下KScope nachos中线程的切换是在Scheduler这个类的Run函数中实现的： voidScheduler::Run (Thread

2011-04-01 11:23:00 2653 1

转载风投那些事儿

风险投资的过程其实就是一个科技公司创办的过程。在美国，一个新兴的科技公司（Startups）的创业过程通常是这样的：来自思科公司的工程师山姆和IBM公司的工程师强尼发明了一种无线通信的技术，当然这种技术和他们所在公司的核心业务无关，两人觉得这种技术很有商业前景，他们就写了个专利草案，又花五千美元找了个专利律师，向美国专利局递交了专利申请（关键之一，知识产权很重要）。两个人下班后以及周末的所有时间全泡在山姆家的车库里用模拟软件 Matlab 进行模拟，证明这种技术可以将无线通信速度提高五十倍（关键之二，是否有

2011-03-26 11:46:00 2446

原创 Nachos 3.4入门的两个问题

nachos的入门介绍：1.哪些是跑在linux上的东西，哪些是跑在nachos上的东西？2.threads文件夹下的main还是是怎么个运行流程，nachos是怎么模拟的多线程？

2011-03-26 10:10:00 5346 5

原创 ubuntu10.10启动项修改

因为这学期很多地方要用到linux，所以不想再装个虚拟机，就直接在win7下硬盘安装了ubuntu10.10，具体方法在此，安装之后可以设置win7作为默认启动项，为了防止每次update都改写grub文件，可以在修改etc/default/grub.d文件夹：//30_os-prober重命名为06_os-probermv 30_os-prober 06_os-prober ）update-grub 关键就是前面的数字，数字越小在启动项中越靠前，这个可以随意尝试，但是注意要备份=。=

2011-03-26 09:25:00 1102 3

eaglex的专栏