Xtyscut-CSDN博客

原创 beta分布Sampling——概率密度函数求解

beta分布与二项分布呈共轭分布其分布函数如下图所示gamma函数为(n-1)! , a和b是两个超参数。通过给定的a和b即可求出beta分布的概率密度函数python中的stats模块提供了beta分布概率密度函数求解的实现stats.beta下面是几个参考网址：stats中的beta分布求解实现如何通过抽样的方法得到概率分布python实现beta概率密度函数...

2019-04-14 20:00:39 5786

转载带权采样——word2vec负采样中的原理

遇到了带权采样的问题，一搜发现其实就是Word2vec中负采样所用到的方法，平时论文看的还是不够仔细啊。。原文地址http://www.imooc.com/article/41635Negative Sampling 在负采样中，对于给定的词w,如何生成它的负采样集合NEG(w)呢？已知一个词w,它的上下文是context(w),那么词w...

2019-04-13 22:23:32 2926

转载词嵌入word embedding详解

转载自https://www.cnblogs.com/wkang/p/9611257.html 词嵌入的那些事儿（一） 1. 词向量介绍在讨论词嵌入之前，先要理解词向量的表达形式，注意，这里的词向量不是指Word2Vec。关于词向量的表达，现阶段采用的主要有One hot representation和Distributed representa...

2019-04-11 10:27:54 2021

转载深入理解FFM原理与实践

美团点评团队关于FM和FFM的经典好文，可惜现在找不到他那篇文章的原出处了，转载保存下来，大家也可以看看。 FM和FFM模型是最近几年提出的模型，凭借其在数据量比较大并且特征稀疏的情况下，仍然能够得到优秀的性能和效果的特性，屡次在各大公司举办的CTR预估比赛中获得不错的战绩。美团点评技术团队...

2019-04-11 09:32:58 1087

原创 python排序（快速排序、归并排序、堆排序）

排序是必须掌握的基本算法，在面试题也经常考到，这里写一下python的几种常用排序的写法。快速排序写法一def quickSort(array,l,r): if l<r: q = partition(array,l,r) quickSort(array,l,q-1) quickSort(array,q+1,r)def parti...

2019-03-28 11:27:55 494

转载 jieba分词原理

关于jieba分词的原理，在平时做文本方面的算法时没有仔细研究过，昨晚在网上看了一篇博客，写的很全面很详细，其中有些深入的部分还并没有完全看懂。原文作者：zhbzz2007 出处：http://www.cnblogs.com/zhbzz2007欢迎转载，也请保留这段声明。谢谢！https://www.cnblogs.com/zhbzz2007/p/6076246.htmljieba分...

2019-03-20 11:11:09 16518

翻译 Pytorch入门（自动求导机制、定义模型）——官方文档翻译

之前面试时被问到pytorch的一些基本知识，记录一下。基本来源于pytorch官方文档的翻译。[pytorch官方文档如果使用pytorch还是建议多读读官方文档，里面包含很多例子，上手会比较快Tensortensor张量：n维矩阵，能够利用GPU加速torch.from_numpy可以将numpy转换为张量Autograd自动求导，不需要手工去计算前向和反向传播。当使用auto...

2019-03-17 13:47:26 598

word2vecword2vec是一个计算word vector的开源工具。当我们在说word2vec算法或模型的时候，其实指的是其背后用于计算word vector的CBoW模型和Skip-gram模型。2013年，Google团队发表了word2vec工具。word2vec工具主要包含两个语言模型：跳字模型（skip-gram）和连续词袋模型（continuous bag of words...

2019-03-17 13:42:19 376

原创 LightGBM原理解读及核心参数解释

LightGBM原理解读LightGBM是现在数据挖掘比赛中的大杀器，效果甚至优于一些深度网络模型，而且参数相比神经网络更方便调整。下面就根据LGB的文本来解释一下LighGBM的原理。在笔者看来，LightGBM的改进大部分是基于计算、运行效率上的改进，使GBDT类模型的性能更快，LGB主要针对数据并行和特征并行进行了优化，大大提升了模型的效率。下面就来意义解读。传统GBDT方法的缺点传...

2019-03-14 11:16:57 4979

转载机器学习模型评估指标

本文主要解释一些关于机器学习模型评价的主要概念，与评价中可能会遇到的一些陷阱。如训练集-验证集二划分校验（Hold-out validation）、交叉校验（Cross-validation）、超参数调优(hyperparameter tuning)等。这三个术语都是从不同的层次对机器学习模型进行校验。Hold-out validation与Cross-validation是将模型能够更好得对将来的数据（unseen data）进行拟合而采用的方法。Hyperparameter tuning是一种模型选择方

2017-12-04 19:09:11 5791

xty5057212的博客