3 guoyuhaoaaa

尚未进行身份认证

暂无相关描述

等级
TA的排名 2w+

一种深度挖掘特征之间交互的神经网络模型

今天的博客主要参考了2019年KDD会议上的paper《PairwiseMulti-LayerNetsforLearningDistributedRepresentationofMulti-fieldCategoricalData》。这篇paper主要针对输入源数据为多个领域的类别特征(且每个领域的特征都有多种取值),设计了一种巧妙的提取特征之间交互信息的结构,并在正式训练任务...

2019-08-29 21:25:26

Airbnb深度学习在搜索领域的探索总结

今天的博客主要参考了Airbnb发表的paper《ApplyingDeepLearningToAirbnbSearch》。这篇paper介绍了近2年Airbnb在搜索场景下所使用模型的演进路线,以及一些失败的总结和经验的总结,最难能可贵的是作者对每一次尝试的失败和调参都给出了详细的分析说明,感觉给我们这些做模型的人做了个很好的样例(要清晰的知道自己的模型好为什么好,不好为什么不好)。首...

2019-08-07 20:11:03

LambdaFM:一种在深度学习模型架构融合pairwise的策略

今天的博客主要参考了2016年的会议CIKM的paper《LambdaFM:LearningOptimalRankingwithFactorizationMachinesUsingLambdaSurrogates》。首先我想说一点常识知识,即本博客讲的内容涉及到了LearningtoRank领域的相关知识,其中LearningtoRank是一类算法框架包含了:Point...

2019-08-04 19:33:26

方差与无偏估计

今天的博客其实是对一个一直疑惑的数学知识点的讲解,毕竟机器学习还是运用到了大量的数学知识,所以把一些涉及到的数学概念搞清楚还是十分必要的。方差其实这个概念相信大家都知道,就是D(x)=1n∑i=1n(xi−E(xi))2D(x)=\frac{1}{n}\sum_{i=1}^n(x_i-E(x_i))^2D(x)=n1​∑i=1n​(xi​−E(xi​))2,其实就是每个样本值和均值均方差的平均值...

2019-08-01 10:57:56

一种能自动抽取特征与特征interaction重要性的CTR模型

今天的博客主要参考了2019年推荐系统顶会RecSys的paper《FiBiNET:CombiningFeatureImportanceandBilinearfeatureInteractionforClick-ThroughRatePrediction》。该篇paper最大的创新点就是提出了一种自动提取特征重要性的结构SENETLayer和提取特征之间交互重要性的结构B...

2019-07-13 22:08:18

一种基于知识图谱的新闻推荐模型

本篇博客参考了2018年WWW会议的paper《DKN:DeepKnowledge-AwareNetworkforNewsRecommendation》,即一种引入知识图谱的新闻推荐模型。其实和一般的推荐系统一样,结合目标用户过去一段时期内浏览过的新闻纪录信息,预测该用户是否对某一新闻感兴趣(和阿里淘宝系的商品推荐十分相似)。首先作者列举了该类问题的3个难点:1新闻推荐是一个时效...

2019-06-30 18:32:54

一种挖掘任务之间关系的multi-task模型

今天的博客主要参考了2018年KDD会议上的paper《ModelingTaskRelationshipsinMulti-taskLearningwithMulti-gateMixture-of-Experts》,提出了一种针对multi-task的通用处理架构。话不多说,直接上图:图中有a,b,c三种网络结构,其中网络a就是传统的multi-task结构,即两个不同的任务共...

2019-06-30 17:31:48

一种根据用户点击行为生成同一语义空间中query和document向量的方法

本篇博客主要参考了2016年SIGIR会议上的paper《LearningQueryandDocumentRelevancefromaWeb-scaleClickGraph》。首先说明的是这篇paper提出的模型主要是应用在搜索领域,即根据用户的query和其点击的document日志信息,学习query和document的向量在同一语义空间中的表征方式,将这些向量的表征方式使用...

2019-06-07 12:53:12

一种自动提取有效组合特征的网络结构(推荐系统)

今天的博客主要参考了2019WWW会议的paper《FeatureGenerationbyConvolutionalNeuralNetworkforClick-ThroughRatePrediction》,主要讲了在推荐领域一种利用卷积结构来进行自动特征提取的模型结构,并证明自动提取的特征能够显著提升模型的性能。众所周知,目前各个公司在推荐领域使用的都是以神经网络为基础的深度...

2019-06-06 18:57:04

一种强化学习在新闻推荐领域的应用

今天写的博客主要参考了2018年WWW会议上的论文《DRN:ADeepReinforcementLearningFrameworkforNewsRecommendation》,主要讲解了在新闻推荐领域如何使用深度强化学习的方法。从整个发展趋势来看,强化学习最近无论是在学术界还是工业界都越来越火了,而由于强化学习框架中包含的实体概念比较多(Agent,State,Action,Rew...

2019-04-07 19:00:33

阿里系——盒马鲜生的Embedding策略

今天的博客主要参考了2018年KDD会议的一篇paper《LearningandTransferringIDsRepresentationinE-commerce》。主要讲了盒马鲜生Embedding的生成策略,因为盒马鲜生是一个比较新的平台,所以新用户和新商品的冷启动问题会比较突出,同时又由于盒马生鲜主打的是卖当季的生鲜,故新商品冷启动问题会持续存在。从整体来看,作者指出生成的商品...

2019-03-15 21:37:53

Glyce 一种针对中文汉字结构信息抽取的Embedding策略

这篇博客主要参考了香侬科技公司李纪为大神团队的paper《Glyce:Glyph-vectorsforChineseCharacterRepresentations》,其主要面对的是中文(类象形文字)从构字法的角度来对中文的汉字进行分析。之前看过的包括自己研究的从构字法角度研究中文的主要参考的是五笔拼音输入法,一个汉字会被拆分成一个部首序列,这种方法由于汉字复杂性和现代汉字的简洁性,使提...

2019-02-05 22:37:18

YoutuBe 推荐系统

这篇博客参考了2016年Youtube发表的paper《DeepNeuralNetworksforYouTubeRecommendations》,主要讲述了Youtube如何根据用户历史行为观看记录而在线上使用的给用户推荐视频的系统结构,虽然论文有点老,但是里面很多东西还是很有启发意义的。下面是整个系统的架构图:整体来看整个系统像一个漏斗,和其他的推荐系统一样由两个主要部分组成:c...

2018-12-10 13:59:12

Bert-一种基于深度双向Transform的语言模型预训练策略

今天的博客主要参考了论文《BERT:Pre-trainingofDeepBidirectionalTransformersforLanguageUnderstanding》。这篇paper是Google公司下几个研究员发表的,而且在NLP领域引起了很大的轰动(在多个NLP任务集上都打破了之前最好的记录)。其实,这个Bert利用了迁移学习的思想,把针对语言模型任务设计出的网络参数进...

2018-12-02 21:19:31

几种推荐搜索场景下的用户Embedding策略

所谓Embedding策略,就是用一个向量来描述一个实体的思想,这种思想用向量来描述实体信息,不仅仅包含了实体本身的属性信息,同时还包含了实体之间的关联信息,以及实体和最终目标任务之间的关联信息。这种方法最早其实是运用在NLP领域—词向量就是很好的例子,但是随着深度学习在其他各个领域(尤其是搜索/推荐/广告)的应用,衍生出了各种各样的变种,目前成为了深度学习应用到各个领域之中的标准方法。下面就来...

2018-11-26 14:03:13

深度兴趣演化网络— 阿里妈妈精准定向广告组

今天讲的博客参考了2019年的AAAI的一篇paper《DeepInterestEvolutionNetworkforClick-ThroughRatePrediction》,这又是阿里妈妈盖坤组新的一篇paper,同时也是之前公布的深度置信网络《DeepInterestNetwork》的进阶版。整体来说这篇paper最大的亮点还是体现在对于用户历史行为序列的建模上,之前的深度...

2018-11-11 23:05:23

一种强化学习在NLP文本分类上的应用模型

在胳膊骨折修养的这段期间,系统的学习了一下强化学习相关的知识。正好今天看到了黄民烈老师团队2018年在AAAI上发表的paper《LearningStructuredRepresentationforTextClassificationviaReinforcementLearning》。这篇paper以文本分类作为主要的任务,运用强化学习提出了两个模型:ID-LSTM和HS-LS...

2018-10-08 14:14:26

浅谈信贷评分卡模型

毕竟进入了金融安全这个坑,基本的信贷评分卡模型还是需要知道的,今天就综合各个方面的资料来讲解一下在信贷领域使用的最多的评分卡模型。整体来说,评分卡是信用风险评估领域的常用建模方法(刚开始是运用在信贷领域,后来这种思想被广泛地扩展到其他的领域:反欺诈,支付宝信用评估等)。这其实是一种很古老的概念了,大约在18世纪出现了信用卡的雏形,有了信用卡就需要对申请信用卡的人进行信用评估,因此自然而然的就有...

2018-09-11 15:25:23

金融风控基本知识(iforest,AUC,PSI,KS曲线)

最近,准备总结一些机器学习在金融风控方面的基础知识,毕竟最近自己也入了金融安全的坑。首先要讲的知识点是一种异常检测算法——Iforest,该算法由周志华老师团队提出《IsolationForest》,由于其计算复杂度比较低,被大量的运用在工业界中。下面我来介绍一下该算法工作原理:这个森林的每一棵树都是二叉树的结构,并采用完全随机的方式生成,即在进行叶子节点分裂的时候随机的选取特征,随机选...

2018-09-09 21:59:26

一种基于CNN的自动化提取n-gram feanture的文本分类模型

今天写的博客主要参考了清华大学黄民烈老师团队2018年在IJCAI上发表的paper《DenselyConnectedCNNwithMulti-scaleFeatureAttentionforTextClassification》。这篇paper其实就是使用基于CNN的网络来进行文本的情感分类,但是它针对的问题是传统的多层次的CNN网络使用static窗口来进行卷积,每次针对...

2018-08-19 22:10:39

查看更多

勋章 我的勋章
  • 新人勋章
    新人勋章
    用户发布第一条blink获赞超过3个即可获得
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv1
    勤写标兵Lv1
    授予每个自然周发布1篇到3篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。