10 Orange先生

尚未进行身份认证

我要认证

暂无相关简介

等级
TA的排名 1w+

ElasticSearch的查询query DSL和过滤filter DSL

博客不敢常写,主要怕付出不够误导别人。。但是又想写下来记录一下,所以特此声明:以下总结可能是错误的,请读者自行分辨,我尽量写的准确些。首先吐槽下,ES的官方文档写的真是烂,然后网上的信息又极其的混乱,逼我硬是得自己写博客。正文开始*************************************queryDSL用来做搜索的,搜索就是尽可能把所有相关的内容都查出来;...

2019-04-19 22:43:36

HMM的Baum-Welch算法和Viterbi算法公式推导细节

前言在上一篇博文中,我简单地介绍了隐马尔科夫模型HMM,并且重点介绍了HMM的三个问题中的第一个,即概率计算问题。首先回顾一下这三个问题都是什么以及解决每个问题的主流算法:概率计算问题即模型评价问题——前向算法和后向算法学习问题即参数估计问题——Baum-Welch算法预测问题即解码问题——Viterbi算法在上一篇概率计算问题的最后,我列出了几个用前向概率和后向概率表示的一些有意义的概率值

2016-03-23 21:34:38

隐马尔科夫模型HMM的前向算法和后向算法

最近重新看了一遍《统计学习方法》中第十章《隐马尔可夫模型》,更加觉得这本书有浅有深,简洁深刻。HMM模型有三个基本问题:概率计算问题,学习问题和预测问题。今天我就来将其中的概率计算问题的一些细节思考总结一下,就当是笔记吧!主要就是概率计算的前向算法和后向算法。HMM简介隐马尔可夫模型的参数一般称为其三要素,包括初始状态概率,转移概率和观测概率。其模型的定义建立在两个基本假设的前提上。分别是齐次马尔科

2016-03-22 16:43:33

浅谈EM算法的两个理解角度

最近在写毕业论文,由于EM算法在我的研究方向中经常用到,所以把相关的资料又拿出来看了一下,有了一些新的理解与感悟。在此总结一下。EM算法即“期望极大算法”。学过机器学习的朋友都知道EM算法分两步:E步求期望,M步求极大。但是期望是求谁的期望,极大是求谁的极大呢?这里面其实有两种解读角度。“通俗”角度通俗角度的话,求极大肯定是求似然函数的极大了,而且一般都是对数似然。我们一般解决模型参数求解问题,都是

2016-03-20 16:31:50

高斯混合模型的终极理解

高斯混合模型GMM是一个非常基础并且应用很广的模型。对于它的透彻理解非常重要。网上的关于GMM的大多资料介绍都是大段公式,而且符号表述不太清楚,或者文笔非常生硬。本文尝试用通俗的语言全面介绍一下GMM,不足之处还望各位指正。首先给出GMM的定义这里引用李航老师《统计学习方法》上的定义,如下图:定义很好理解,高斯混合模型是一种混合模型,混合的基本分布是高斯分布而已。第一个细节:为什么系数之和为0?PR

2016-03-18 17:10:01

IT菜鸟的未来规划

找工作告一段落了。虽然自己本科专业就是计算机科学与技术,研究生专业是计算机技术,但是,最终顺理成章地进入一家互联网公司上班,开始所谓的“专业对口”地进入职场,还是让我若有所思。趁休假在家,没心情写那些专业领域的博客,那就写写自己的感悟和对未来的规划吧!先说说我的专业。严格来说,其实IT行业和其他的行业微微有些不同——从业者未必非得是计算机专业出身。目前来看,很多IT工作岗位更多地把编程作为一种

2015-09-25 23:26:14

机器学习中分类器的性能评价指标

我们针对一个具体地问题建立了一个机器学习模型以后,怎么去评价这个模型的好坏呢?这就需要用到分类器的几个性能评价指标。下面简单谈一下。准确率(accuracy)准确率是最常用的分类性能指标。拿最常见的二分类问题来说,我们的模型无非是想要把正类和负类预测识别出来。在测试集中识别对的数量(不论是把正样本识别为正样本还是把负样本识别为负样本)除以测试集的数据总量就是准确率。在用scikit-learn调用分

2015-09-07 19:21:58

Hadoop运行wordcount出现“JobTracker is not yet RUNNING”

安装配置完hadoop1.2.1之后,我们就需要跑个例子,首先启动hadoop,在hadoop的home路径中键入:bin/start-all.sh然后在hdfs上创建input文件夹,键入命令:hadoop dfs -mkdir /input然后在input文件夹中放入一些文本文件,键入命令:hadoop dfs -put ./*.txt /input/接下来就要执行程序了,键入命令:hadoop

2015-09-01 18:19:50

UserCF和ItemCF终极对比

说是终极对比,明确告诉你,就是在炒作!本文内容主要是我看了项亮的《推荐系统实践》一书,之前对于UserCF和ItemCF也是用的模模糊糊,这次好好整理了一下,加上自己一些总结和心得。UserCF推荐和当前用户相似度高的N个用户产生过行为的物品给当前用户;这些物品是当前用户没有行为过而其他N个用户行为过的物品的前M个;余弦相似度改进:在分子中除了考虑两个用户共同行为的物品,还考虑到这个物品被多少个用户

2015-08-27 16:24:23

我对说话人识别/声纹识别的研究综述

GMM-UBM系统框架GMM-UBM的核心思想是用混合高斯函数去拟合特征在高维空间的概率密度分布,在训练说话人模型的时候,由于注册时说话人的数据稀疏,通常利用一个通用背景模型(Universal Background Model,UBM)和少量的说话人数据,通过自适应算法(如最大后验概率MAP,最大似然线性回归MLLR等)得到目标说话人模型;在测试时,用测试语音相对于目标说话人模型和UBM模型

2015-08-25 10:50:55

机器学习算法需要注意的一些问题(二)

训练样本大小选取的问题模型学习的准确度与数据样本大小有关,那么如何展示更多的样本与更好的准确度之间的关系呢?我们可以通过不断增加训练数据,直到模型准确度趋于稳定。这个过程能够很好让你了解,你的系统对样本大小及相应调整有多敏感。所以,训练样本首先不能太少,太少的数据不能代表数据的整体分布情况,而且容易过拟合。数据当然也不是越多越好,数据多到一定程度效果就不明显了。不过,这里假设数据是均匀分布增加的。然

2015-08-12 14:23:25

机器学习中梯度下降法和牛顿法的比较

在机器学习的优化问题中,梯度下降法和牛顿法是常用的两种凸函数求极值的方法,他们都是为了求得目标函数的近似解。在逻辑斯蒂回归模型的参数求解中,一般用改良的梯度下降法,也可以用牛顿法。由于两种方法有些相似,我特地拿来简单地对比一下。下面的内容需要读者之前熟悉两种算法。梯度下降法梯度下降法用来求解目标函数的极值。这个极值是给定模型给定数据之后在参数空间中搜索找到的。迭代过程为:可以看出,梯度下降法更新参数

2015-08-10 19:25:05

机器学习中关于判断函数凸或凹以及最优化的问题

在很多机器学习算法中,都会遇到最优化问题。因为我们机器学习算法,就是要在模型空间中找到这样一个模型,使得这个模型在一定范围内具有最优的性能表现。因此,机器学习离不开最优化。然而,对于很多问题,我们并不总能够找到这个最优,很多时候我们都是尽力去找到近似最优,这就是解析解和近似解的范畴。很多最优化问题都是在目标函数是凸函数或者凹函数的基础上进行的。原因很简单,凸函数的局部极小值就是其全局最小值,凹函数的

2015-08-10 16:26:50

从集成学习到模型的偏差和方差的理解

模型的偏差和方差的权衡和讨论其实是贯穿在整个机器学习理论当中的。机器学习的每一个算法或者模型都有对这两方面的判断和取舍。今天在看scikit-learn文档关于集成学习的论述中又提到偏差和方差,所以我想谈一谈我对这两个概念的理解。集成学习集成学习是一种组合类型的学习方法。它采用多个基分类器组合成一个总分类器,能够达到单个基分类器所达不到的效果。根据将多个基分类器集成在一起的方式,集成学习主要分为两类

2015-08-06 15:01:53

声纹识别之PLDA算法描述

之前我写过《我对说话人识别/声纹识别的研究综述》,本篇基本上可以是这个综述的续写。其实,写的也没有什么深度,想获得深度信息的朋友们可以不用往下看了,还不如下载几篇领域内的国内博士论文看看。为什么是国内呢?因为国内博士论文前面的综述写的还不错,嘿嘿~我写这个主要是给不熟悉这个领域内的朋友看的,用通熟的话描述这个领域内重要的一些算法,等于是入个门吧。PLDA算法前面博客已经提到过声纹识别的信道补偿算法,

2015-08-05 09:59:41

机器学习算法需要注意的一些问题

对于机器学习的实际运用,光停留在知道了解的层面还不够,我们需要对实际中容易遇到的一些问题进行深入的挖掘理解。我打算将一些琐碎的知识点做一个整理。1 数据不平衡问题这个问题是经常遇到的。就拿有监督的学习的二分类问题来说吧,我们需要正例和负例样本的标注。如果我们拿到的训练数据正例很少负例很多,那么直接拿来做分类肯定是不行的。通常需要做以下方案处理:1.1 数据集角度通过调整数据集中正负样本的比例来解决数

2015-07-28 19:22:58

逻辑回归与决策树在分类上的一些区别

转自:http://www.itongji.cn/article/121930092013.html营销预测模型的目标变量很多为一种状态或类型,如客户“买”还是“不买”、客户选择上网方式为 “宽带”还是“拨号”、营销战通道是邮件、电话、还是网络。我们把这类问题统称为 “分类”。决策树和逻辑回归都是解决“分类”问题的高手。用不同的算法解答同样的问题,自然引出了两者孰优孰劣的讨论,但迄今为止,仍然没有一

2015-07-23 15:14:30

Python字典key值查询效率低的问题

最近用Python脚本处理数据。需要建立了一个字典,大概有200w个键值对,然后将这个字典用pickle存起来。在建立这个字典的时候,发现特别的慢。于是乎,尽量减少输出语句。发现还是很慢。估计了一下居然要超过一天!然后,我耐心地一行代码一行代码地分析运行效率的问题。最后发现,瓶颈竟然是在这一句: if mykey not in myDict.keys(): 其实我建立字典并没有必要做这个判断,于

2015-07-18 12:53:03

总结PageRank

PageRank 当我们根据关键词搜索互联网上的内容时,对于不止一个的搜索结果,谁先谁后呢?PageRank就是为了解决这个问题而生的。 PageRank,一个对网页进行排序的算法,由佩奇和布林为Google设计。该算法将整个互联网中的网页看做是一个整体,不考虑具体每一个网页的内容属性,而只关注网页之间的关联。 我们知道,网页之间的关系无非就是链接的指入和指出。PageRank认为,如

2015-07-17 17:14:25

Apriori算法简单总结

关联分析是一种在大规模数据集中寻找有趣关系的任务。Apriori是解决这一问题的基本算法。这个算法也是数据挖掘的入门算法。 首先明确两个个概念:频繁项集和关联规则。 - 频繁项集:经常出现在一块儿的物品的集合。 - 关联规则:暗示两种物品之间可能存在很强的关系。 那么,如何定量地定义这种很强的“关系”?“频繁”又是什么?这里又必须明确两个概念:支持度和可信度。 -

2015-07-16 16:42:39

查看更多

勋章 我的勋章
  • 勤写标兵Lv1
    勤写标兵Lv1
    授予每个自然周发布1篇到3篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。