DivinerShi-CSDN博客

原创【CTR预估】The Wide and Deep Learning Model（译文+Tensorlfow源码解析）

Author: DivinerShi本文主要讲解Google的Wide and Deep Learning 模型。本文先从原始论文开始，先一步步分析论文，把论文看懂。再去分析官方开源的Tensorflow源码，解析各个特征的具体实现方法，以及模型的具体构造方法等。先上图1.论文翻译ABSTRACTGeneralized linear models with nonlinear feature tra

2017-11-03 22:14:47 13404 10

原创线性回归理解（附纯python实现）

作者：DivinerShi 线性回归是机器学习中最基本的一个算法，但是那些所谓的效果很好的算法也无非是从这些基础算法慢慢演变而来。高中时候的数学老师给我讲过一个乔峰的故事，我今天再添油加醋的给你们说下。天龙八部中，乔峰在聚贤庄大战江湖群雄这个算是经典了，当时各路武林豪杰纷纷使出自家的看门绝学，什么易筋经啊，九阴真经啊，葵花点穴手啊等等，但统统都被乔峰一拳KO，直接秒杀，竟无一人是其敌手，那乔峰用的

2017-03-27 20:44:40 46115 10

原创 Deep Residual Networks（ResNet）简介

Kaiming He 的《Deep Residual Learning for Image Recognition》获得了CVPR最佳论文。他提出的深度残差网络在2015年可以说是洗刷了图像方面的各大比赛，以绝对优势取得了多个比赛的冠军。而且它在保证网络精度的前提下，将网络的深度达到了152层，后来又进一步加到1000的深度，可想而知，残差网络的实力，正如他在ICML2016上tutorial首页写

2017-02-10 20:07:42 19134

原创 Siamese Network理解（附代码）

本文主要通过论文来讲解下siamese network。提起siamese network一般都会引用这两篇文章：《Learning a similarity metric discriminatively, with application to face verification》和《 Hamming Distance Metric Learning》。本文主要通过论文《Learning

2017-02-02 17:15:40 85308 27

原创生成对抗网络GANs理解（附代码）

对抗网络是14年Goodfellow Ian在论文Generative Adversarial Nets中提出来的。记录下自己的理解，日后忘记了也能用于复习。生成模型和判别模型理解对抗网络，首先要了解生成模型和判别模型。判别模型比较好理解，就像分类一样，有一个判别界限，通过这个判别界限去区分样本。从概率角度分析就是获得样本x属于类别y的概率，是一个条件概率P（y|x）.而生成模型是需要在整个条件

2017-01-20 12:36:28 79816 16

原创 [CTR预估] Recommending What Video to Watch Next

1.介绍本文讲解的是youtube发表在Recsys 2019的文章“Recommending What Video to Watch Next: A Multitask Ranking System””文章是关于推荐系排序模块的设计，算是wide&deep model的进阶，并针对Multitask Learning和Selection Bias做了模型层面的优化。2.模型结构...

2019-12-29 22:47:52 1847 1

原创【CTR预估】 xDeepFM模型

xDeepFM 模型看作者邮箱应该中科大、北邮、微软合作发表的，发表在kdd2018 。看这个模型的原因是因为最近在写Deep Cross Network的时候感觉总是怪怪的，因为DCN对同一个特征的embedding内部都做了特征的交叉，这个和我们正常直观的特征交叉会有明显的出入，虽然DCN模型在实践中确实会好于正常的wide&deep，说明显式的特征交叉是有意义的，但是有没有办法不对...

2019-11-10 00:18:21 1882 3

原创【GCN】: IntentGC算法框架

本篇论文是阿里发表在kdd2019的文章，是gcn在淘宝场景下的实际应用，还提供了源码，很具有可读性。论文地址：https://arxiv.org/pdf/1907.12377.pdf作者在论文里面附有对应的代码地址：https://github.com/peter14121/intentgc-models论文提出了一个新的基于GCN的大规模推荐算法框架：IntentGC。该算法框架利...

2019-09-19 23:35:47 1622

原创【GCN】: Graph Convolutional Neural Networks for Web-Scale Recommender Systems

最近看了“Graph Convolutional Neural Networks for Web-Scale Recommender Systems”这篇文章，是Pinterest将GCN成功应用在大规模真实场景的论文，唯一可惜的是没有公开源码。论文下载地址：https://arxiv.org/pdf/1806.01973论文包含了理论创新和实际落地实现中的一些工程优化。这里对算法理论这块...

2019-06-16 17:09:18 4554

原创【CTR预估】DSIN模型

最近看了一篇文章‘Deep Session Interest Network for Click-Through Rate Prediction’, 这篇是阿里发表在IJCAI2019的文章。文章地址：https://arxiv.org/abs/1905.06482作者还开源了代码：https://github.com/hhh920406/DSIN淘宝最近也公开了一个rank模型，和这...

2019-05-30 00:40:03 1487

原创【CTR预估】Deep & Cross Network 模型

DCN模型是组合了显式和隐式特征交叉的一个模型。如果了解WD模型的话，简单的说这篇文章就是把WD模型的wide侧改成了cross网络，用来显式的做一些特征的交叉，因为DNN虽然有着拟合任意模型的能力，但是世界上没有免费的午餐，所以显式的定义特征交叉还是很有必要的。论文下载地址：https://arxiv.org/pdf/1708.05123.pdf这里我对一些常用的ctr预估模型进行了复现...

2019-05-07 23:44:37 843

原创【Semantic Embedding】: BERT模型

时间过的是真快，bert已经是去年火起来的模型了。论文"BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding"地址：https://arxiv.org/abs/1810.04805 要了解bert一定要先看看tranformer模型，就是那篇"attention is all...

2019-05-02 16:52:28 1304

原创【Semantic Embedding】: LSTM-DSSM模型

论文下载地址：https://arxiv.org/pdf/1412.6629.pdf其实这几篇论文，DSSM, C-DSSM, LSTM-DSSM 百度一下资料一大堆，不过我还是选择自己去看了一遍，然后做一下笔记，便于更深入的理解。不过看完了论文发现，这几篇文章真的是短小精悍。。。基本都是五六页结束。这篇文章还是一样的套路，是这对DSSM模型的修改，毕竟全连接网络是最简单的神经网络，替换一...

2019-04-17 22:58:04 3167

原创【Semantic Embedding】: CDSSM(CLSM)模型

文章下载地址：https://www.microsoft.com/en-us/research/wp-content/uploads/2016/02/cikm2014_cdssm_final.pdfDSSM模型的输入是query和doc的词袋模型生成的向量，所以模型丢失来文本的上下文结构信息。而CDSSM模型则通过词的n-gram和卷积池化操作来捕获上下文关系，按文章说明的，该算法相比原始DS...

2019-04-17 22:05:23 7318 1

原创【Semantic Embedding】: DSSM模型

论文下载地址代码实现DSSM现在应该已经算是经典的文章了，有些年头了。网上已经有很多优秀的博客对该算法进行分析，建议去看那些文章，讲的比较全面。DSSM的思想是利用搜索点击数据，分别将query和documents利用DNN映射到高纬语义空间，然后将query和document的高纬语义向量利用余弦相似度，对向量进行相似度计算。训练阶段，对于点击数据，如果在当前query下，被点击...

2019-04-15 23:51:07 1855 1

原创【Graph Embedding】: SDNE算法

论文“Structural Deep Network Embedding”发表在kdd2016论文下载地址：https://www.kdd.org/kdd2016/papers/files/rfp0191-wangAemb.pdf论文利用深度自编码器来学习图中节点的embedding向量，结合一阶和二阶相似度进行联合训练，将二阶相似度作为无监督信息，捕获全局网络结构信息，一阶相似度作为有监...

2019-04-09 23:17:01 1632

原创【Graph Embedding】: node2vec算法

论文“node2vec: Scalable Feature Learning for Networks”发表在kdd2016，文章提出了一个新的graph embedding论文地址：https://www.kdd.org/kdd2016/papers/files/rfp0218-groverA.pdf作者提供的代码地址：http://snap.stanford.edu/node2vec/...

2019-03-27 23:33:42 3266

原创【Graph Embedding】: LINE算法

论文“LINE: Large-scale Information Network Embedding”发表在WWW‘15上，提出了一个适用于大规模网络embedding算法“LINE”。论文下载地址：https://arxiv.org/pdf/1503.03578.pdf作者公布的代码：https://github.com/tangjianpku/LINE介绍本篇文章提出的算法定义...

2019-03-24 16:33:30 3892 3

原创【Graph Embedding】: DeepWalk算法

论文“DeepWalk: Online Learning of Social Representations” 发表在kdd2014，下载地址：https://arxiv.org/pdf/1403.6652.pdf作者开源的代码：https://github.com/phanein/deepwalk文章提出的deepwalk用于学习图网络中节点的低维表示，学习出的低纬embedding...

2019-03-21 23:35:23 1445

原创【Graph Embedding】: metapath2vec算法

metapath2vec: Scalable Representation Learning for Heterogeneous Networks发表在kdd2017，用于解决异构网络的embedding表示。个人看完文章的感觉就是将deepwalk的算法思路引入到异构网络当中，并针对异构网络的特点，针对deepwalk算法中的各个步骤，针对性的进行优化。所以看在了解metapath2vec之前...

2019-03-17 21:54:23 10384 7

原创【Graph Embedding】：Billion-scale Commodity Embedding for E-commerce Recommendation in Alibaba

本文是阿里在kdd2018发表的关于使用graph embedding作为淘宝首页推荐召回策略的算法实现。现在利用图embedding来做召回算是业界最前沿的技术，下面我们来看看淘宝是如何来用户行为转化为图，以及从图中学习出item的embdding。论文下载地址：https://arxiv.org/abs/1803.02349介绍淘宝应该是国内最大的C2C平台，平台上承载着10亿的用...

2019-03-03 15:49:29 2221 5

原创【Airbnb搜索】：Real-time Personalization using Embeddings for Search Ranking at Airbnb

原始论文下载地址：本文是kdd 2018 的best paper，文章来自airbnb的搜索推荐团队，描述的是airbnb如何使用embedding来提高搜索和排序的效果。知乎有官方认证的中文文章（文章地址，原始论文）。文章利用搜索的session数据来获取Listing和用户的embedding，全文思想相对来说还是比较简单的，但是整体针对业务实际情况，一步步的解决问题的思路很清晰，和a...

2019-02-24 21:08:19 2692

原创【Airbnb搜索】：Applying Deep Learning To Airbnb Search

论文地址：https://arxiv.org/abs/1810.09591这篇论文将的是airbnb搜索在深度学习方面的探索airbnb最开始在搜索排序中使用的是gbdt，但是随着模型的稳定，gbdt带来的提升越来越有限。而这篇文章就是要讲airbnb将深度学习技术应用到实际环境中去的实践。论文并有没提出什么新的理论技术，重点放在了整个工程实现以及模型优化，迭代，各种在由传统机器学习向深度...

2019-02-16 17:42:13 762

原创【日本雅虎新闻推荐】：Embedding-based News Recommendation for Millions of Users(附开源代码)

本篇论文由日本雅虎团队发表于KDD 2017，利用深度学习方法将用户和文章进行embedding化，再进行推荐。下载地址：http://dacemirror.sci-hub.tw/proceedings-article/b79bf692bc190d28d255671a64aedf02/okura2017.pdf#view=FitH代码：https://github.com/Leavings...

2019-01-02 20:35:10 3681

原创【Transformer模型】：Attention is all your need(附attention的代码)

tranformer已经火了好长一段时间了，一直只是只闻其名不知其意，特地看了attention is all your need。这篇论文摒弃了传统encoder-decoder模型必须结合cnn或者rnn的固有模式，只用了attention模型，可谓大道至简。现在主流的序列转化模型都是基于端到端的encoder-decoder的RNN或者CNN网络结构模式。现在都是在该框架中引入了a...

2018-12-12 21:41:29 4260

原创【基于序列的推荐】：Session-based Recommendations with Recurrent Neural Networks （附开源代码）

论文下载地址：https://arxiv.org/pdf/1511.06939.pdf论文实现代码：https://github.com/Shicoder/GRU4Rec首先解释一下什么是Session，Session就是从用户进入推荐界面到其离开的一次完整的行为流程。作者将rnn应用到session推荐任务中。在传统的推荐任务中，往往着重考虑用户最后一次的点击行为，而与之同一时间段下前几...

2018-11-21 23:31:48 3435

原创逻辑回归（LR）算法推导分析

逻辑回归逻辑回归是一个简单的分类算法。之前介绍过线性回归：https://blog.csdn.net/sxf1061926959/article/details/66976356线性回归是最基本的回归模型，建议了解逻辑回归前可以先了解下线性回归。其实如果只是想单纯的解决问题，线性回归也可以用于解决二分类问题，只需要对输出的值设定一个阈值即可实现；但是线性回归在计算误差的时候，起...

2018-11-08 23:17:08 552

原创自定义交叉熵损失函数的几个问题

交叉熵损失函数本身的公式比较简单，但是在实际定义的时候需要注意exp(x)函数的溢出问题，exp(x)函数在numpy或者说tensorflow的底层实现上，当x过大的时候会产生溢出，过小的时候直接范围近似值0所以我们在定义交叉熵损失函数的时候需要注意这一点；1.当模型返回的值是sigmoid函数映射过后的值,这里假设输入交叉熵的为x，那么我们计算的就是 -(y...

2018-11-08 20:52:33 1880 1

原创 hive操作总结

1. hive表中字段很多，需要从大量字段中去除一个或者几个，写出所有的字段很不美观，可以使用正则完成将hive.support.quoted.identifiers设置为None，就可以使用正则表达式来取表的字段set hive.support.quoted.identifiers=None;select `(search_word|user_id)?+.+` from user_a...

2018-11-06 12:59:39 1641

原创算法建模的一些总结

问题建模解决一个机器学习问题，都先需要对问题进行分析，确定我们的目的是什么，明确了目的后，对问题进行建立模型，建立的模型前需要确定好我们建立的模型面对的目标，这个目标需要尽可能逼近最开始我们想解决问题的目的，只有我们最初的目的和建模的目标尽量一致才能确保后续所有的工作都是有效的。比如一个电商平台想要利用推荐系统提高消费者的购买量，那么我们的目的就是尽可能让消费者买我们推荐的东西，提高...

2018-10-28 17:02:15 2822

原创 Mac下单机安装pyspark，更改python编译器为anaconda的编译器，并且配置pycharm

本人习惯用pycharm开发，并且喜欢notebook以及anaconda自带的各种库，开发起来方便很多，所以在安装好spark后，修改了默认的python编译器到anaconda下，可以在notebook和pycharm中使用spark，全部安装完成花了点时间，所以记录一下。1、下载并安装pycharm，这个自己下载吧：https://www.jetbrains.com/pycharm/，安...

2018-05-10 22:55:43 3580 1

原创 Xgboost算法推导及分析

Author: DivinerShi Xgboost其实就是gbdt的一个改进版本，但是因为效果好，工程建设完善，所以经常和传统的gbdt分开讲。 Boost思想的话是每一步产生一个弱预测模型（如决策树），并加权累加到总模型中，经典的算法有如Adaboost。提升的理论意义：如果一个问题存在弱分类器，则可以通过提升的办法得到强分类器。这里，如果每一步的弱预测模型生成都是依赖损失函数的梯度方向，则

2017-10-21 14:51:03 8373 6

原创支持向量机（SVM）算法推导

Author: DivinerShi线性回归可以简单理解为去找到一条线，使得这条线可以区分不同类的数据。那么SVM就是去找到所有可行的线中，最优的那条。什么叫最优？就是距离两类数据都最远的那条分割线。优点：可用于线性和非线性分类，也可以用于回归低泛化误差，容易解释计算复杂度较低缺点：对参数和核函数的选择比较敏感原始SVM只擅长处理二分类问题。线性可分支持向量机给定线性可分训练

2017-09-29 20:41:56 914

原创决策树算法推导分析

**Author:**DivinerShi优点：输入数据可以不做归一化，数据清洗阶段可以相对少做许多工作；对缺失值不敏感，可以处理不相关特征数据；效率高，速度快。缺点：连续性特征往往需要离散化；处理特征关联性比较强的数据表现得不是很好；可参考：http://blog.csdn.net/keepreder/article/details/47168383决策树模型就是利用树形结构来按特征对数据

2017-09-29 13:30:59 1214

原创朴素贝叶斯算法推导分析

Author: DivinerShi 朴树贝叶斯方法其实就是一个根据先验求后验的过程。比如有一堆橘子，其中大部分青皮的，光滑的，小个的橘子比较酸，大部分黄皮的，粗糙的，大个的橘子比较甜。那么现在现在来了一个青皮的，光滑的，大个的橘子，我们就可以根据之前的先验知识，去计算这个橘子是酸的还是甜的概率，并将概率最大的作为它的预测的酸甜度。用数学描述：即通过先验条件概率分布来计算后验概率分布是总类别的

2017-09-28 21:56:51 928

原创 K近邻算法（KNN）推导分析

Knn和kd树介绍author:DivinerShiKNN算法优点：直观，简单，可以用来做分类也可以用来做回归可用于非线性分类，训练时间复杂度为O(n) 准确度高，对数据没有假设，对outier不敏感。缺点：计算量大，样本不平衡问题难处理，需要大量的内存算法解释：给定一个数据集，对新的输入样本，在数据集中找到与新的输入样本距离最近的k个样本，将这k个样本中最多数属于

2017-09-28 14:54:32 2658 1

原创 EM算法推导分析

研一整理的纸质资料，整理一下。 EM算法推导：

2017-09-27 14:53:14 458

原创梯度下降优化算法总结

一篇review：https://arxiv.org/abs/1609.04747三个梯度下降变种：批梯度下降（Vanilla gradient descent/batch gradient descent）说白了就是最开始的bp用的东西。它在整个训练数据集上计算梯度我们需要去计算整个数据集的梯度，然后计算的结果只拿去更新一步梯度，很明显随着数据集变大，批梯度下降会变得很慢而且也会很占内存。批梯度

2017-07-05 16:21:31 4558

原创 BP算法推导（python实现）

这里默认了解前向传播，所以不在重述这块，如果对梯度下降有疑惑的，不知道原理的可以看我这篇博客 http://blog.csdn.net/sxf1061926959/article/details/66976356 我用线性回归讲了下梯度下降的原理以及一些理解。本篇主要在BP反向传播的推导，直接开始不太会画图，直接手画了一个。隐藏层梯度求解过程如上图所示，为一个输出层神经元，在计算输出层梯

2017-05-25 14:55:03 4999 1

原创线性分类器损失函数与最优化

author:DivinerShi线性分类器损失函数与最优化假设有3类 cat car frog第一列第二行的5.1表示真实类别为cat，然后分类器判断为car的的分数为5.1。那这里的这个loss怎么去计算呢？这里就要介绍下SVM的损失函数，叫hinge loss。如上图所示，我们去计算第一列的损失，计算方法如下：因为真实的类为cat，所以我们让其他两类的分数去减去真实类的分数，相当于去计算真

2017-03-05 19:20:16 5574

《深度学习入门：基于Python的理论与实现》高清PDF+代码

andriod开发技巧

java 企业人力管理资源源代码

空空如也