7 taoqick

尚未进行身份认证

暂无相关简介

等级
TA的排名 7k+

Redis常见问题

Redis 有哪些数据结构?字符串 String、字典 Hash、列表 List、集合 Set、有序集合 SortedSet。如果你是 Redis 中高级用户,还需要加上下面几种数据结构 HyperLogLog(基数统计)、Geo(GPS坐标)、Pub/Sub(生产者消费者的队列)。如果你说还玩过 Redis Module,像 BloomFilter(布隆过滤器),RedisSearch,R...

2019-11-22 17:24:26

BK树

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。本文链接:https://blog.csdn.net/xaiojiang/article/details/518818491.BK树BK树或者称为Burkhard-Keller树,是一种基于树的数据结构,被设计于快速查找近似字符串匹配,比方说拼写检查器,或模糊查找,当搜索”aeek”时能...

2019-11-20 21:46:01

Lucene倒排索引实现原理探秘(1)

Lucene倒排索引实现原理探秘(1)前言在全文检索领域, Lucene可谓是独领风骚数十年。倒排索引构成全文检索的根基,只有深入理解了倒排索引的实现原理,才能算是入门了全文检索领域。本文将对Lucene的倒排索引的实现原理和技术细节进行详细的剖析,这些内容适用于Lucene 5.x至7.x系列版本。文章整体内容组织如下:倒排索引理论 Lucene倒排索引实现 Lucene索引文件...

2019-11-20 20:09:45

[译]如何防止elasticsearch的脑裂问题

本文翻译自blog.trifork.com的博文地址是http://blog.trifork.com/2013/10/24/how-to-avoid-the-split-brain-problem-in-elasticsearch/,可以复制后在浏览器观看。我们都遇到过这个 - 在我们开始准备一个elasticsearch集群的时候,第一个问题就是“集群需要有多少节点?”。我想大家都知...

2019-11-18 21:47:52

PCA和Fisher LDA

PCAPCA主要用于没有标签的降维,想法就是把数据投影在某个方向上,使得信噪比最大,也就是投影的方差最大。对于给定的一组数据x1,x2,...,xnx_1, x_2,...,x_nx1​,x2​,...,xn​,其中每一个都是列向量,假设投影方向的单位列向量是w,投影后的方差可以表示为D(x)=1n∑i=1n(xiTw)2D(x)=1n∑i=1n(xiTw)T(xiTw)D(x)=wT[1n...

2019-11-10 18:00:39

EM算法收敛性推导

EM算法(Expectation-Maximization),就是用最大似然MLE来递推求模型的参数。顾明思议分为两步:第一步求隐变量的期望,第二步找到让隐变量期望最大化的参数。用公式来表示最终的目标就是:L(θ)=∑ilog(p(xi;θ))θ=arg max⁡θL(θ)L(\theta)=\sum_{i}log(p(x_i;\theta)) \\\theta = \argmax_{\the...

2019-11-09 23:51:44

多层感知机Perceptron反向传播BP算法推导(Back Propagation)

看了很多BP的推导,都不够简洁直观,这里总结一下。多层Perceptron就是全连接的网络,定义第l层的输入为x(l)x^{(l)}x(l),那么全连接的线性输出z(l)=W(l)x(l)+b(l)z^{(l)}=W^{(l)}x^{(l)}+b^{(l)}z(l)=W(l)x(l)+b(l)上面的(l)都表示第l层,如果到了第l+1层,当然要过一个激活函数f,那么z(l+1)=W(l+1)f...

2019-11-03 23:29:41

LR(logistic regression)逻辑回归Loss和梯度的推导

LR太简单了,简单到经常被用,但是很多推导仍然迷糊的程度,这篇主要用来总结一下。线性回归的表达式:f(x)=wTx+bf(x)=w^Tx+bf(x)=wTx+b由于带一个b,我们可以令x′=[1,x]Tx'=[1, x]^Tx′=[1,x]T,同时w′=[b,w]Tw'=[b, w]^Tw′=[b,w]T,这样直线方程就可以简化成f′(x)=w′Txf'(x)=w^{'T}xf′(x)=w...

2019-11-02 11:55:38

ID3 ID4.5 CART 决策树剪枝 Bagging Boosting GBDT XGBoost 总结

ID3ID3是用信息增益作为分割的准则,信息增益=信息熵-条件熵:其中∣Ck∣D\frac{|C_k|}{D}D∣Ck​∣​表示第k类样本的数据占数据集D样本总数的比例。假设每个记录有一个属性“ID”,若按照ID来进行分割的话,由于ID是唯一的,因此在这一个属性上,能够取得的特征值等于样本的数目,也就是说ID的特征值很多。那么无论以哪个ID为划分,叶子结点的值只会有一个,纯度很大,得到的信...

2019-11-01 14:31:06

序列标注:Bi-LSTM + CRF

最近在做序列标注的相关任务,为了理解bi-lstm + crf的原理及细节,找了很多相关资料,以及代码实现,这里分享给大家并附上一些自己的理解。CRF相关资料推荐关于crf,我看了很多资料,这里推荐几个 -英文的crf tutorial-李航的统计学习方法这两个讲的很细,公式很多,很多新入坑的小白看了肯定一头雾水,这里推荐一个知乎大神的回答,通俗易懂,有一些机器学习基础的都可以...

2019-11-01 13:36:38

NNLM Word2Vec FastText LSA Glove 总结

总结了一些要点NNLM(Neural Network Language Model)Word2VecFastTextLSAGlove各种比较1、word2vec和tf-idf 相似度计算时的区别?2、word2vec和NNLM对比有什么区别?(word2vec vs NNLM)3、 word2vec负采样有什么作用?4、word2vec和fastText对比有什么区别?(word2vec vs f...

2019-10-31 15:50:19

HMM隐马尔科夫模型、MEMM最大熵马尔科夫模型和条件随机场的CRF 对比

1)HMM是有向图模型,是生成模型;HMM有两个假设:一阶马尔科夫假设(t时刻状态只依赖于t-1时刻状态)和观测独立性假设(t时刻状态只依赖于t时刻的观测);但对于序列标注问题不仅和单个词相关,而且和观察序列的长度,单词的上下文,等等相关。HMM模型λ=(状态转移概率矩阵A,观测状态转移概率矩阵B,初始状态矩阵π)\lambda=(状态转移概率矩阵A,观测状态转移概率矩阵B,初始状态矩阵\pi)...

2019-10-27 17:17:03

最大熵模型和朴素贝叶斯的区别

最大熵模型就是假设有些条件已知,未知的几个随机变量希望他们是等概率的,这样得到的熵最大,换句话说鸡蛋不要放在同一个篮子里。先说条件熵为啥定义成这个样子,实际上就是某些条件已知,在这些条件上分别算熵(条件上当然是条件概率),最后加起来,用公式表示就是:H(Y∣X)=∑i=1mP(X=xi)H(Y∣X=xi)=∑i=1mP(X=xi)∑j=1nP(yj∣xi)log(P(yi∣xi))H(Y|X)...

2019-10-21 21:11:25

SVM不加入松弛变量使用高斯核对所有样本都可以线性可分吗???

是的。李航老师书上证明了一个结论,线性可分的训练数据集的最大间隔分离超平面是存在而且唯一的,细节可以查小蓝书。对于线性不可分的训练数据集,用高斯核可以让训练数据完美可分,但是这样很容易overfitting,以下是详细推导,参考https://blog.csdn.net/taoqick/article/details/102644779,最终SVM训练后的表达式是:f(x)=wTx+b=∑i...

2019-10-20 17:35:04

任意在空间中线性可分的两类点,分别向SVM的超平面上做投影,这些点在超平面上是有可能可分吗?

不可能。以二维空间为例,超平面刚好是支持向量的中垂线,支持向量在中垂线上的投影重合,肯定不可分。当然这个前提是SVM最终模型仅和支持向量有关,这个推导请参考: https://blog.csdn.net/taoqick/article/details/102644779更多推导请参考西瓜书和葫芦书...

2019-10-20 17:28:03

SVM的推导:为什么SVM最终模型仅和支持向量有关

简而言之就是让两组点距离超平面达到最远。超平面可以用wTx+b=0w^Tx+b=0wTx+b=0表示。其中w=(w1;w2;w3…wn)是法向量。点x=(x1,x2…xn)到超平面的距离为∣wTx+b∣∣∣w∣∣\frac{|w^Tx+b|}{||w||}∣∣w∣∣∣wTx+b∣​,其中||w||=w12+w22+...+wn2\sqrt{w_1^2+w_2^2+...+w_n^2}w12​+w...

2019-10-19 23:54:21

LR是参数模型与SVM是非参数模型

LR是参数模型,SVM是非参数模型。参数模型、非参数模型(以及半参数模型)的概念应该源自于统计学中。统计专业中有一门课程叫做《非参数统计》,研究的对象就是秩检验、核密度估计等。在统计学中,参数模型通常假设总体(随机变量)服从某一个分布,该分布由一些参数确定(比如正太分布由均值和方差确定),在此基础上构建的模型称为参数模型;非参数模型对于总体的分布不做任何假设,只是知道总体是一个随机变量,其分...

2019-10-19 23:06:26

数学之美 统计学习方法 信息熵 条件熵 交叉熵 联合熵 相对熵(KL散度) 互信息(信息增益)

条件熵H(Y∣X)=联合熵H(X,Y)−H(X)信息增益 I(X,Y)=H(X)−H(X∣Y)=H(X)+H(Y)-H(X,Y),也就是Information Gain,互信息KL散度(相对熵) KL(X,Y)=-H(X)+交叉熵C(X,Y)相对熵的定义:交叉熵的定义:联合熵的定义:条件熵的定义:至于熵为什么是这个定义请参考https://blo...

2019-10-18 11:15:29

分类问题中为什么用交叉熵而不用MSE KL散度和交叉熵的关系

1. 引言我们都知道损失函数有很多种:均方误差(MSE)、SVM的合页损失(hinge loss)、交叉熵(cross entropy)。这几天看论文的时候产生了疑问:为啥损失函数很多用的都是交叉熵(cross entropy)?其背后深层的含义是什么?如果换做均方误差(MSE)会怎么样?下面我们一步步来揭开交叉熵的神秘面纱。2. 交叉熵的来源2.1 信息量一条信息的信息量大小和它...

2019-10-18 11:04:15

谷歌BERT预训练源码解析

转载自以下三篇,注释基本正确https://blog.csdn.net/weixin_39470744/article/details/84373933https://blog.csdn.net/weixin_39470744/article/details/84401339https://blog.csdn.net/weixin_39470744/article/details/846199...

2019-10-16 09:54:53

查看更多

勋章 我的勋章
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 1024勋章
    1024勋章
    #1024程序员节#活动勋章,当日发布原创博客即可获得
  • 勤写标兵Lv2
    勤写标兵Lv2
    授予每个自然周发布4篇到6篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。