西二旗小码农-CSDN博客

转载 IR的评价指标-MAP和NDCG

MAP(Mean Average Precision)：单个主题的平均准确率是每篇相关文档检索出后的准确率的平均值。主集合的平均准确率(MAP)是每个主题的平均准确率的平均值。MAP 是反映系统在全部相关文档上性能的单值指标。系统检索出来的相关文档越靠前(rank 越高)，MAP就可能越高。如果系统没有返回相关文档，则准确率默认为0。例如：假设有两个主题，主题1有4个相关网页，

2015-03-26 10:27:27 3385

转载搜索引擎antispam系统设计指南

一. 设计原则与整体体系结构1.1 设计原则搜索引擎ANTI-SPAM作为一个新型的技术领域,目前逐渐引起学术届和搜索引擎市场的逐步重视.通过大量资料分析,我认为一个好的实用ANTI-SPAM系统应该遵循以下两个设计原则:原则1.实用的搜索引擎ANTI-SPAM系统应该允许核心算法公布,并且在核心算法公布之后不会导致现有ANTI-SPAM系统的失效.原则

2014-01-05 15:16:34 2310

转载 GBDT（MART）迭代决策树入门教程 | 简介

GBDT(Gradient Boosting Decision Tree) 又叫 MART（Multiple Additive Regression Tree)，是一种迭代的决策树算法，该算法由多棵决策树组成，所有树的结论累加起来做最终答案。它在被提出之初就和SVM一起被认为是泛化能力（generalization)较强的算法。近些年更因为被用于搜索排序的机器学习模型而引起大家关注。

2013-12-23 16:26:27 5518

原创 linux修改locale 解决文件乱码问题

查看所有的locale语言view plain copy# locale -a # locale -a|grep en ■ 查看当前操作系统使用的语言view plain copy# echo $LANG ■ 设置系统locale语言为中文环境（永久生效）# vi /etc/sysconfig/i18nview plain copyLANG="zh_

2013-01-16 15:00:03 21968

转载 LDAjava代码

最先让我看到署光的是Mallet,我研究了大概一个星期，最后决定放弃了。因为Mallet作者提供的例子实在太少了。http://sbp810050504.blog.51cto.com/2799422/807082 为了爱护眼网 www.weileye.com 保护眼睛从今天做起

2012-12-04 17:40:41 1903

转载 LDA学习

上个月参加了在北京举办SIGKDD国际会议，在个性化推荐、社交网络、广告预测等各个领域的workshop上都提到LDA模型，感觉这个模型的应用挺广泛的，会后抽时间了解了一下LDA，做一下总结：（一）LDA作用传统判断两个文档相似性的方法是通过查看两个文档共同出现的单词的多少，如TF-IDF等，这种方法没有考虑到文字背后的语义关联，可能在两个文档共同出现的单词很少甚至没有

2012-12-04 17:18:17 1614

转载 c++中vector排序

最近做的东西，要将vector 中的内容输出，结果发现有些文件被交替反复打开，所以就想吧vector 中的元素排序，学习中发现下面这篇文章总结的挺好的，分享一下也~C++中当 vector 中的数据类型为基本类型时我们调用std::sort函数很容易实现 vector中数据成员的升序和降序排序，然而当vector中的数据类型为自定义结构体类型时，我们该怎样实现升序与降序排列呢？有两种方法，

2012-11-01 14:41:20 1933

原创去掉目录下的.svn文件夹的方法

最近工作一直是用SVN,里面有.svn这个文件夹很麻烦,每个文件夹下都有.苦苦寻觅,从网上找到了解决方法.方法一: find . -type d -name ".svn"|xargs rm -rf 方法二: find . -type d -iname ".svn" -exec rm -rf {} \; PS:最近在瑞士军刀官网买了一个瑞士军刀背包.好书包质

2012-10-08 16:27:43 1766

转载 gtest框架的介绍与应用

【摘要】在本文中，作者根据之前使用gtest框架进行测试的经验，总结了一些使用方式和案例。在这些案例中，我们可以了解到gtest框架的基本使用方法以及在我们日常测试中的应用，同时也能促进我们对于百度的btest的了解。在我们之后的测试工作中，可以根据各个项目的特点以及gtest、btest等测试框架的功用，进行协调和因势利导，将更多框架产品用于我们的测试工作中，使我们的测试工作更加正规、更加高效

2012-09-17 15:04:31 2164

转载 SNS网站基础框架设计

SNS作用：1.维持大量的不常接触的人群的人际关系。比如校友等。2.通过不同的圈子组织爱好爱好连接熟悉自己需要熟悉的人。每个人在现实生活中都会碰到人际关系资源不足的问题，总想找到和自己同类的人，也都有这样的需要。SNS网站的三级结构第一级结构就是个人展示平台，包括基本信息，博客，相册，音乐例表，爱好，爱好，格言，留言，简历，工作档案，诸如此类的，解决一个问题，我是谁，你的喜欢列

2012-07-25 09:15:25 2957

转载【转】关于Query Classification和Query Intention

对于全网引擎，Query Analysis主要是在两个层面的分类Query意图的分类：Navigational、Informational、Transactional，再具体一点的Download，Local Info之类；Query知识类别上的分类：分类目标是新闻、体育、经济、音乐，主要目的是为了做多个垂直引擎的结果融合或者Query Planing；先说知识类别上的分类吧，

2012-07-17 16:58:51 2949 1

原创 JSON的容错机制

最近在做一个项目用到了json，测试人员发过来的请求不符合JSON格式，之后我的系统就挂了。呵呵。原因分析：Jsoncpp解析非法json时，会自动容错成字符类型。对字符类型取下标时，会触发assert终止进程。后来查了查，可以通过下面两种方式解决：方案1 对Json::Value取下标前，先判断(value.type()==Json::objectValue)。方案2 启用严

2012-07-10 12:49:32 7021

转载修改Java系统默认编码

修改Java系统默认编码文章分类:Java编程通过以下代码可以修改动态当前正在运行的java系统默认编码格式：Java代码 System.out.println(Charset.defaultCharset()); System.getProperties().put("file.encoding", "GBK"); System.g

2012-05-15 18:40:25 5960 1

原创如何识别字符编码

网上看到这样一段代码：String encode = "GB2312"; try { if (str.equals(new String(str.getBytes(encode), encode))) { String s = encode; return s; } } catch (Exception exception) { } 首先通过

2012-05-15 17:56:25 2008

转载深入搜索引擎--查询（Query）

1.Query的数据分析 Query即用户在搜索引擎输入查询条件。在通用搜索引擎中，一般是指输入的关键词。而在各类行业或者垂直搜索引擎，还可以输入类目，如优酷网站中可以选择“电影”、“电视剧”这样的类目。在电子商务网站中，各种产品品牌、型号、款式、价格等也是常见的查询条件。要分析query中每个term的内容，分词是必不可少的工具。分词算法从最简单的最大正向、最大反向分

2012-05-01 11:46:20 2484

转载搜索引擎用户搜索意图分析

你可能会觉得很奇怪，在百度里会有大量的用户搜百度、google、MSN、yahoo，同样在google里也会有大量的人搜百度、新浪，搜索者它希望搜索到什么结果?搜索引擎要做到更好的用户体验，就不得不去分析搜索用户的搜索意图。　　雅虎的研究专家Andrei Broder将搜索者的意图分为三类：　　一类是导航型搜索者，这类搜索者从某种渠道听说了一个网站，或者曾经访问过一个网站但忘记了域

2012-04-30 21:43:51 2403

转载杂谈：用户的搜索意图(intention of SE users)

搜索引擎早已经成为互联网上的最大的应用之一了，可是新闻媒体已经研究人员很难拿到相关的数据来对它进行深入的研究。之所以不知庐山真面目，只缘看不到真正的有价值的数据及其分析。在搜索引擎领域，用户的搜索意图分析是一个关键领域，主要研究的方向是用户输入的关键词的真正意图。就拿最常见的搜索关键词：木乃伊3下载，这个搜索的意图非常明显，用户就是要找到能下载木乃伊3的一个网址。另外例如像n73这样的搜索词，

2012-04-30 21:41:20 2024

转载 SVN常用命令

1、将文件checkout到本地目录svn checkout path（path是服务器上的目录）例如：svn checkout svn://192.168.1.1/pro/domain简写：svn co 2、往版本库中添加新的文件svn add file例如：svn addtest.php(添加test.php)svn add *.php(添加当前目录下

2012-04-17 11:09:38 1107

转载 murmur:更快更好的哈希函数（字符串转64位hash值）

unsigned long long MurmurHash64B ( const void * key, int len, unsigned int seed ){ const unsigned int m = 0x5bd1e995; const int r = 24; unsigned int h1 = seed ^ len; unsigned int h2 = 0; con

2012-04-13 18:56:29 4913

转载 Linux静态库和动态库

库从本质上来说是一种可执行代码的二进制格式，可以被载入内存中执行。库分静态库和动态库两种。静态库和动态库的区别1. 静态函数库这类库的名字一般是libxxx.a；利用静态函数库编译成的文件比较大，因为整个函数库的所有数据都会被整合进目标代码中，他的优点就显而易见了，即编译后的执行程序不需要外部的函数库支持，因为所有使用的函数都已经被编译进去了。当然这也会成为他的

2012-04-12 17:34:25 467

转载 Linux下C语言编程基础(Makefile)

假设我们有下面这样的一个程序，源代码如下： /* main.c */ #include "mytool1.h" #include "mytool2.h" int main(int argc，char **argv) { mytool1_print("hello")； mytool2_print("hello")； } /* mytool1.h */ #ifn

2012-04-12 13:31:12 559 1

原创 python调用shell

#!/usr/bin/python# Filename: backup_ver2.pyimport osimport timecommand = "ls"print command# Run the backupif os.system(command) == 0: print 'Successful'else: print 'FAILED'

2012-04-06 16:42:53 576

原创 python编写网络爬虫程序

工作了，需要抓取一些特定的资源进行分析。没有高速海量数据那么大的需求。所以想到用python直接写一个简单的爬虫，之后再编写模板进行定向解析，就解决问题了。毕竟我们的时间要求和数量级要求不是很高。在网上搜索了一些python编写爬虫的文档，下载下来试试，看看效果。虽然我的这篇文章标明是原创，但是文章中也有一部分是参考了别人的信息，请谅解。因为我是想参考别人的精华，组合重构，来实现我需要

2012-04-06 11:52:40 2738 1

转载简单说说python import与from...import....(python模块)

在python用import或者from...import来导入相应的模块。模块其实就一些函数和类的集合文件，它能实现一些相应的功能，当我们需要使用这些功能的时候，直接把相应的模块导入到我们的程序中，我们就可以使用了。这类似于C语言中的include头文件，Python中我们用import导入我们需要的模块。eg:import sysprint('================Py

2012-04-01 14:32:44 1071

转载 LD_LIBRARY_PATH

定义　　Linux环境变量名，该环境变量主要用于指定查找共享库（动态链接库）时除了默认路径之外的其他路径。(该路径在默认路径之前查找)　　移植程序时的经常碰到需要使用一些特定的动态库，而这些编译好的动态库放在我们自己建立的目录里，这时可以将这些目录设置到LD_LIBRARY_PATH中。示例　　当执行函数动态链接.so时，如果此文件不在缺省目录下‘/u

2012-03-05 14:18:44 573

转载 linux下vim命令详解

高级一些的编辑器，都会包含宏功能，vim当然不能缺少了，在vim中使用宏是非常方便的：:qx 开始记录宏，并将结果存入寄存器xq 退出记录模式@x 播放记录在x寄存器中的宏命令稍微解释一下，当在normal模式下输入:qx后，你对文本的所有编辑动作将会被记录下来，再次输入q即退出了记录模式，然后输入@x对刚才记录下来的命令进行重复，此命令后可跟数字，

2012-03-01 11:41:44 438

转载 Python中使用中文的方法

先来看看python的版本： >>> import sys >>> sys.version '2.5.1 (r251:54863, Apr 18 2007, 08:51:08) [MSC v.1310 32 bit (Intel)]' （一）用记事本创建一个文件ChineseTest.py，默认ANSI： s = "中文" print s 测试一下瞧瞧： E:

2012-03-01 11:25:10 580

转载由Java中的Set，List，Map引出的排序技巧

一。关于概念： List接口对Collection进行了简单的扩充，它的具体实现类常用的有ArrayList和LinkedList。你可以将任何东西放到一个List容器中，并在需要时从中取出。ArrayList从其命名中可以看出它是一种类似数组的形式进行存储，因此它的随机访问速度极快，而LinkedList的内部实现是链表，它适合于在链表中间需要频繁进行插入和删除操作。在具

2012-02-20 17:25:42 710

转载 Hadoop Core 学习笔记(一) SequenceFile文件写入和读取Writable数据

本博客属原创文章,转载请注明出处:http://guoyunsky.iteye.com/blogs/1265944 刚接触Hadoop时,对SequenceFile和Writable还产生了一点联想,以为是什么神奇的东西.后来也明白,不过就是自己IO的一些协议,用于自己的输入输出.这里介绍下如何从sequence file中读出和写入Writable数据. Writab

2012-02-01 14:55:27 699

转载 mahout中bayes分类分析—1

实现包括三部分：The Trainer（训练器）、The Model（模型）、The Classifier（分类器）1、训练首先，要对输入数据进行预处理，转化成Bayes M/R job读入数据要求的格式，即训练器输入的数据是KeyValueTextInputFormat格式，第一个字符是类标签，剩余的是特征属性（即单词）。以20个新闻的例子来说，从官网上下载的原始数据是一个分类目录，下面

2012-01-31 11:17:19 656

转载 mahout贝叶斯分类例子运行及测试异常处理

运行贝叶斯20news分类例子测试抛出异常，已经解决，希望各位指教！同样参照https://cwiki.apache.org/confluence/display/MAHOUT/Twenty+Newsgroups的步骤，其中关于hadoop与mahout的配置启动之类的以前的文章都记录过，此处直接在mahout-0.4上运行例子过程(当然也在mahot-0.3上进行了测试，一切正常)。

2012-01-31 11:16:30 915

转载使用mahout实现内容分类（转）

Mahout 目前支持两种根据贝氏统计来实现内容分类的方法。第一种方法是使用简单的支持 Map-Reduce 的 Naive Bayes 分类器。Naive Bayes 分类器为速度快和准确性高而著称，但其关于数据的简单（通常也是不正确的）假设是完全独立的。当各类的训练示例的大小不平衡，或者数据的独立性不符合要求时，Naive Bayes 分类器会出现故障。第二种方法是 Complementar

2012-01-31 11:01:53 858

转载 Mahout中分布式bayes实现（转）

Mahout中的bayes实现分为三部分，1. 样本构建; 通过org.apache.mahout.classifier.BayesFileFormatter来实现，它将一组文件转换成label\t term1 term2 term3 …这样的格式，供后面分类器构造和分类时使用; 代码分析在前几篇博文中提供了;2. 训练; 通过org.apache.mahout.classifie

2012-01-31 11:00:01 882

转载 mahout中k-means例子的运行

首先简单说明下，mahout下处理的文件必须是SequenceFile格式的，所以需要把txtfile转换成sequenceFile。SequenceFile是hadoop中的一个类，允许我们向文件中写入二进制的键值对，具体介绍请看eyjian写的http://www.hadoopor.com/viewthread.php?tid=144&highlight=sequencefile

2012-01-31 10:58:17 2690

转载 ChainMapper和ChainReducer

The ChainMapper class allows to use multiple Mapper classes within a single Map task.The ChainReducer class allows to chain multiple Mapper classes after a Reducer within the Reducer task.http

2012-01-19 15:14:45 682

转载如何在Linux下安装配置Apache Mahout

刚刚安装在Linux下安装配置成功了Apache Mahout，决定和大家分享下，因为我花了六七个小时才完成这样一个工作，我希望你——这篇文章的阅读者能在一个小时内愉快的安装成功。我觉得分享才是王道，也希望你解决了什么问题之后能够分享给大家，谢谢！首先，请到百度文库中下载这篇文章：（Mahout安装图文版）http://wenku.baidu.com/view/dbd15bd276a200

2012-01-17 15:32:16 617

转载部署Hadoop_单机部署

部署Hadoop1.1 Hadoop单机部署首先我们从在单机上完成Hadoop的安装与使用以便可以对Hadoop分布式文件系统(HDFS)和Map-Reduce框架有所体会，比如在HDFS上运行示例程序或简单作业等。1.1.1先决条件1 支持平台1）GNU/Linux是产品开发和运行的平台。 Hadoop已在有2000个节点的GNU/Linux主机组成的集群系统上得到验证。

2012-01-16 16:23:46 661

转载 Data-Intensive Text Processing with MapReduce

大量高效的MapReduce程序因为它简单的编写方法而产生：除了准备输入数据之外，程序员只需要实现mapper和ruducer接口，或加上合并器（combiner）和分配器（partitioner）。所有其他方面的执行都透明地控制在由一个节点到上千个节点组成的，数据级别达到GB到PB级别的集群的执行框架中。然而，这就意味着程序员想在上面实现的算法必须表现为一些严格定义的组件，必须用特殊的方法把它们

2012-01-11 12:40:18 1370

转载常用的数据结构的一点小区别

Vector和ArrayList在使用上非常相似,都可用来表示一组数量可变的对象应用的集合,并且可以随机地访问其中的元素。 Vector的方法都是同步的(Synchronized),是线程安全的(thread-safe)，而ArrayList的方法不是，由于线程的同步必然要影响性能，因此,ArrayList的性能比Vector好。 当Vector或ArrayList中的元素超过

2012-01-04 11:53:23 604