diemeng1119-CSDN博客

原创 cmd循环调用native2ascii.exe

e:cd E:\Program Files (x86)\Myeclipse\Common\binary\com.sun.java.jdk.win32.x86_1.6.0.013\binfor /l %%i in (1,1,10) do native2ascii.exe source_file destination_file pause

2014-01-10 16:41:36 695 1

转载 Learning to Rank入门小结 + 漫谈

Table of Contents1 前言2 LTR流程3 训练数据的获取4 特征抽取3.1 人工标注3.2 搜索日志3.3 公共数据集5 模型训练5.1 训练方法5.1.1 Pointwise5.1.2 Pairwise5.1.3 Listwise6 效果评估7 参考6.1 NDCG（Normalized Discounte

2013-11-04 19:22:23 1165

转载代价敏感的学习方法

代价敏感的学习方法是机器学习领域中的一种新方法，它主要考虑在分类中，当不同的分类错误会导致不同的惩罚力度时如何训练分类器。例如在医疗中，“将病人误诊为健康人的代价”与“将健康人误诊为病人的代价”不同；在金融信用卡盗用检测中，“将盗用误认为正常使用的代价”与将“正常使用误认为盗用的代价”也不同。通常，不同的代价被表示成为一个N×N的矩阵Cost中，其中N 是类别的个数。Cost[i, j]表示将

2013-10-30 10:54:18 2958

转载信息检索中的结果评价

一、无序结果评价1.正确率（Precision）Precision = 返回结果中的相关文档数 / 返回结果的数目2.召回率（Recall）Recall = 返回结果中的相关文档数 / 所有原本相关文档数目3.F值，是Precision和Recall的调和平均值F = （β^2+1）PR / (β^2P+R) ，β=1表示正确率和召回率的等权重，β1表示强调召回率。

2013-10-29 19:27:00 3753

转载 MAP(Mean Average Precision)

MAP(Mean Average Precision)：单个主题的平均准确率是每篇相关文档检索出后的准确率的平均值。主集合的平均准确率(MAP)是每个主题的平均准确率的平均值。 MAP 是反映系统在全部相关文档上性能的单值指标。系统检索出来的相关文档越靠前(rank 越高)，MAP就可能越高。如果系统没有返回相关文档，则准确率默认为0。例如：假设有两个主题，主题1有4个相关网页，主题2有5个相

2013-10-29 19:21:03 1912 1

转载朴素贝叶斯文本分类

naive bayes（朴素贝叶斯，下面简称NB ^_^）是ML中的一个非常基础和简单的算法，常常用它来做分类，我用它做过text classification。现在的研究中大概已经很少有人用它来实验了（除非是做base line），但确实是个很好的入门的算法，来帮助自己更加深刻的理解ML的本质。首先从bayes公式开头吧P（C/W） = P(C) * P(W/C) / P(W

2013-10-29 18:47:16 622

转载 BM25算法

1. BM25算法BM25是二元独立模型的扩展，其得分函数有很多形式，最普通的形式如下： ∑ 其中，k1,k2,K均为经验设置的参数，fi是词项在文档中的频率，qfi是词项在查询中的频率。K1通常为1.2，通常为0-1000K的形式较为复杂 K= 上式中，dl表示文档的长度，avdl表示文档的平均长度，b

2013-10-23 23:02:45 975

转载基于朴素贝叶斯分类器的文本分类算法（上）

基于朴素贝叶斯分类器的文本分类算法（上）转载请保留作者信息：作者：phinecos（洞庭散人）Blog：http://phinecos.cnblogs.com/Email：[email protected]本文缘起于最近在读的一本书-- Tom M.Mitchell的《机器学习》,书中第6章详细讲解了贝叶斯学习的理论知识，为了将其应用到实际中来，参考了网上许

2013-10-14 19:48:34 827

转载 x2检验（chi-square test）或称卡方检验

x2检验（chi-square test）或称卡方检验x2检验（chi-square test）或称卡方检验，是一种用途较广的假设检验方法。可以分为成组比较（不配对资料）和个别比较（配对，或同一对象两种处理的比较）两类。一、四格表资料的x2检验例20.7某医院分别用化学疗法和化疗结合放射治疗卵巢癌肿患者，结果如表20-11，问两种疗法有无差别？表20-11 两种疗法治疗卵巢癌的疗效

2013-10-12 16:35:35 28760 1

转载评分员间可信度与Kappa统计量 Inter-rater reliability & Kappa statistics

评分员间可信度inter-rater reliability在统计学中，评分员间可信度inter-rater reliability，评分员间吻合性inter-rater agreement，或一致性concordance 都是描述评分员之间的吻合程度。它对评判者们给出的评级有多少同质性homogeneity或共识consensus给出一个分值。它有助于改进人工评判辅助工具，例如确定某个范围是

2013-10-12 16:02:10 19738

转载 SVM入门（七）为何需要核函数

生存？还是毁灭？——哈姆雷特可分？还是不可分？——支持向量机之前一直在讨论的线性分类器,器如其名（汗，这是什么说法啊），只能对线性可分的样本做处理。如果提供的样本线性不可分，结果很简单，线性分类器的求解程序会无限循环，永远也解不出来。这必然使得它的适用范围大大缩小，而它的很多优点我们实在不原意放弃，怎么办呢？是否有某种方法，让线性不可分的数据变得线性可分呢？有！其思想说来也简单

2013-10-05 18:23:34 575

转载 Learning to Rank之Ranking SVM 简介

机器学习数据挖掘推荐系统Learning to Rank之Ranking SVM 简介排序一直是信息检索的核心问题之一，Learning to Rank(简称LTR)用机器学习的思想来解决排序问题(关于Learning to Rank的简介请见我的博文Learning to Rank简介)。LTR有三种主要的方法：PointWise，PairWise，ListWis

2013-09-29 16:45:33 1313

转载为什么要集成分类器

将相互之间具有独立决策能力的分类器联合起来的方式就叫作集成分类器。事实证明通常情况下集成分类器的预测能力要比单个分类器的预测能力好得多。集成分类器就好比百万富翁节目里的“问现场观众”选项，而单个分类器就是“打电话问老友”。单个人的判断能力在很多情况下是无法跟集体的智慧抗衡的，所以对于同样一个问题，“问现场观众”会比“打电话问老友”把握性大得多（除非你的这位老友真的是爱因斯坦级别的人了，呵呵）。

2013-09-23 20:01:41 1011

转载 A collection of papers related with topic models[To be added more]

l Theoryn Introductionu Unsupervised learning by probabilistic latent semantic analysis.u Latent dirichlet allocation.u Finding scientific topics.u Rethinking LDA: Why Priors

2013-09-23 10:01:10 998

转载 LDA与主题模型

LDA与主题模型1最近看的东西。主题模型就是topic model。大意为，一篇文档是由多个主题构成的，每个主题占一部分比例。例如一部分是说电影的，一部分是说成本的。这里是不考虑词序的，就是词出现的先后没有关系。那么，主题是什么呢？主题包含一系列关键词，每个关键词都有一定概率在这个主题中出现。拿到一篇文档，对其中的词按照主题来归类，就可以得到这篇文章的主题的成分，包含多少比

2013-09-12 20:26:08 819

转载主题模型-LDA浅析

（一）LDA作用传统判断两个文档相似性的方法是通过查看两个文档共同出现的单词的多少，如TF-IDF等，这种方法没有考虑到文字背后的语义关联，可能在两个文档共同出现的单词很少甚至没有，但两个文档是相似的。举个例子，有两个句子分别如下： “乔布斯离我们而去了。” “苹果价格会不会降？”

2013-09-12 19:15:44 784

转载 LDA主题模型简介

LDA主题模型简介Posted on 2010/10/08by 范建宁上个学期到现在陆陆续续研究了一下主题模型（topic model）这个东东。何谓“主题”呢？望文生义就知道是什么意思了，就是诸如一篇文章、一段话、一个句子所表达的中心思想。不过从统计模型的角度来说，我们是用一个特定的词频分布来刻画主题的，并认为一篇文章、一段话、一个句子是从一个概率模型中生成的。D. M

2013-09-12 17:58:46 833

转载 PLSI

PLSI未知类C={c1, c2,,,,ck}token W={w1, w2, ,,, wm}doc D={d1, d2, ,,, dn} 1)选择文档d的概率是p(d)2)文档d时，为类z的概率是p(z|d)3)类z中包含w的概率是 p(w|z) P(w,d) =∑P(c)P(d | c)P(w |c) = P(

2013-09-12 08:59:56 744

转载个性化推荐系统简述

个性化推荐系统简述“探索推荐引擎内部的秘密”系列将带领读者从浅入深的学习探索推荐引擎的机制，实现方法，其中还涉及一些基本的优化方法，例如聚类和分类的应用。同时在理论讲解的基础上，还会结合 Apache Mahout 介绍如何在大规模数据上实现各种推荐策略，进行策略优化，构建高效的推荐引擎的方法。本文作为这个系列的第一篇文章，将深入介绍推荐引擎的工作原理，和其中涉及的各种推荐机制，以及它

2013-09-09 17:34:52 1198

转载浅谈矩阵分解在推荐系统中的应用（转发）

浅谈矩阵分解在推荐系统中的应用（转发）下文为转发，来自：阿俊的博客推荐一下此博客，在推荐系统领域还是能学到不少东西的~~ ------------------------------矩阵分解是最近几年比较火的算法，经过kddcup和netflix比赛的多人多次检验，矩阵分解可以带来更好的结果，而且可以充分地考虑各种因素的影响，有非常好的扩展性，因为要考虑多

2013-09-09 17:32:13 929

转载数据挖掘---Lasso算法简介

使用数理统计模型从海量数据中有效挖掘信息越来越受到业界关注。在建立模型之初，为了尽量减小因缺少重要自变量而出现的模型偏差，通常会选择尽可能多的自变量。然而，建模过程需要寻找对因变量最具有强解释力的自变量集合，也就是通过自变量选择(指标选择、字段选择)来提高模型的解释性和预测精度。指标选择在统计建模过程中是极其重要的问题。Lasso算法则是一种能够实现指标集合精简的估计方法。　　　　Tibshi

2013-09-06 16:37:43 2441

转载 Max-Product Loopy Belief Propagation

Max-Product Loopy Belief Propagation关于belief propagation。这是machine learning的泰斗J. Pearl的最重要的贡献。对于统计学来说，它最重要的意义就是在于提出了一种很有效的求解条件边缘概率(conditional marginal probability)的方法。说的有点晦涩了，其实所谓求解条件边缘概率，通俗地

2013-09-04 17:32:28 3607

转载怎样量化评价搜索引擎的结果质量

怎样量化评价搜索引擎的结果质量前言搜索质量评估是搜索技术研究的基础性工作，也是核心工作之一。评价（Metrics）在搜索技术研发中扮演着重要角色，以至于任何一种新方法与他们的评价方式是融为一体的。搜索引擎结果的好坏与否，体现在业界所称的在相关性（Relevance）上。相关性的定义包括狭义和广义两方面，狭义的解释是：检索结果和用户查询的相关程度。而从广义的层面，

2013-09-04 16:06:23 782

转载 VC 6.0编译器错误整理

1. 【错误提示】: libcmtd.lib(crt0.obj) : error LNK2001: unresolved external symbol _main 【说明】: Windows项目要使用Windows子系统, 而不是Console 【解决方法】:[Project] --> [Settings] --> 选择"Link"属性页,

2013-02-15 22:29:16 339

转载 LSA and PLSA笔记

1. 引子Bag-of-Words 模型是NLP和IR领域中的一个基本假设。在这个模型中，一个文档(document)被表示为一组单词(word/term)的无序组合，而忽略了语法或者词序的部分。BOW在传统NLP领域取得了巨大的成功，在计算机视觉领域(Computer Vision)也开始崭露头角，但在实际应用过程中，它却有一些不可避免的缺陷，比如：稀疏性(Sparseness)

2013-02-15 22:19:20 531

转载 PLSA的简单概念

PLSA (概率潜语义分析) 是基于双模式和共现的数据分析方法延伸的经典的统计学方法。概率潜语义分析应用于信息检索，过滤，自然语言处理，文本的机器学习或者其他相关领域。概率潜语义分析与标准潜语义分析的不同是，标准潜在语义分析是以共现表（就是共现的矩阵）的奇异值分解的形式表现的，而概率潜在语义分析却是基于派生自 LCM 的混合矩阵分解。考虑到word和doc共现形式，概率潜语义分析

2013-02-15 20:32:11 2199