iwtbs_kevin-CSDN博客

原创推荐算法总结（召回+排序+工程化）

文章目录内容召回word2vecLDAFastTextTextCNN行为召回ItemCFUserCF关联规则聚类协同矩阵分解隐语义LFM图召回PersonalRank深度学习召回因子分解排序FMFFM树模型排序GBDT+LR深度模型排序DNN特征高阶组合低阶特征单独建模特征交叉优化小结：内容召回word2vec了解skip-gram和cbow两种网络的结构了解优化方法：Hierarch...

2020-03-04 11:35:48 9459 2

原创算法工程师面试准备——深度学习

神经网络梯度消失与梯度爆炸简述现象层数比较多的神经网络模型在训练的时候会出现梯度消失和梯度爆炸问题。梯度消失问题和梯度爆炸问题一般会随着网络层数的增加变得越来越明显梯度消失问题发生时，靠近输出层的hidden layer 3的权值更新相对正常，但是靠近输入层的hidden layer1的权值更新会变得很慢，导致靠近输入层的隐藏层权值几乎不变，扔接近于初始化的权值。这就导致hidden la...

2020-02-25 00:29:31 474

原创算法工程师面试准备——数学

文章目录矩阵分解概率贝叶斯概率贝叶斯优化矩阵分解概率贝叶斯概率贝叶斯优化

2020-02-25 00:29:04 710

原创智能运维-从0搭建大规模分布式AIOps系统

文章目录智能运维开源数据采集技术数据采集工具对比轻量级采集工具Filebeat日志采集解析工具分布式消息队列大数据存储技术传统架构基于HDFS的分布式存储分层存储大规模数据离线计算分析经典的离线计算分布式离线计算时序数据分析框架AIOps算法数据聚合与关联技术数据异常点检测技术故障诊断和分析策略趋势预测算法智能运维对海量“事件”进行分类和处理实时数据和非实时数据格式化数据和非格式化数据...

2019-08-15 17:39:09 2418

文章目录推荐是要做什么事情？怎么评估推荐算法的效果模型解决不了的，上规则不就好了?微信公众号：推荐广告算法小木屋作者：小凯推荐是要做什么事情？很多人会有一个误区，即推荐就是CTR预估，这也是很多博客/模型/比赛给大家带来的误区，我们今天详细聊聊工业界的推荐。用一句话来解释推荐的本质：在候选池集合中，挑选出用户最满意的一部分物料展现给用户。虽然看起来很简单，但是实际上这句话就可以指导我们做任何事情。大家可以看到我有两个关键词加粗了，接下来我们详细来聊聊。第一点是候选池，即要做好推荐这件事，最

2020-12-14 00:30:30 950 1

原创向量快速检索方法总结——KDtree/Balltree/Annoy/NSW/HNSW

文章目录导语线性扫描KDTree构造检索特点BallTree构造检索特点Annoy构造检索特点NSW构造检索HNSW构造查找导语为什么要用向量快速检索呢？因为实际上现在各家公司主召回都会使用向量化召回，但是工业界数据规模太大，精确的近邻搜索太过困难，研究随之转向了在精确性和搜索时间做取舍，即Approximate Nearest Neighbor Search (ANNS)本文会介绍常用的一些快速检索方法原理，即其效果线性扫描将待预测样本和候选样本逐一比对，最终挑选出距离最接近的k个样本即可，时间

2020-12-05 23:25:55 2373

原创推荐系统中的EE问题——Bandit算法

文章目录先验知识朴素Bandit算法Epsilon-Greedy算法汤普森采样UCB算法LinUCBExploration and Exploitation(EE问题，探索与开发）是推荐领常见的问题，主要是为了平衡准确性和多样性。Exploitation是指我们要迎合用户兴趣给他推荐他想要的，Exploitation指的是怕用户腻，所以要推一些新的东西，万一用户感兴趣呢是吧。多臂老虎机问题就很像推荐这个场景，我们不知道每个机器吐钱的分布，只能根据现有的知识摇，如果一直摇所知最高的就是Exploitat

2020-11-19 00:54:54 1884

原创【持续更新】迁移学习在推荐中的应用

迁移学习在推荐领域的应用ESMMMMOEMOSEMiNet背景模型思考之前在阿里实习的时候课题就是用迁移学习来赋能推荐。首先谈谈迁移学习是什么——简单来说就是利用源域数据来解决目标域的问题。那为什么要用它——很多时候是因为目标域数据量不够或者效果不好，通过迁移学习，目标域中的数据稀疏和冷启动问题都能得到缓解。如果对推荐算法有了解话，很快会想到ESSM和MMOE这种多任务学习的算法，确实这也是推荐场景下最广为人知的算法，多任务学习就可以认为是迁移学习的一种。除此之外，最简单的fine-tune结构属于迁

2020-11-18 17:16:55 1259

原创推荐系统模型总结——特征交叉

DCN改进版FMFFMDCNDCN-M背景模型改进思路反思FMFFMDCN特征经过embedding、stack后，分别输入cross network和DNN，两路的输出stack后经过单层nn映射为一维的预测分数。embedding/stack/DNN不必赘述，主要看cross network。cross network的核心思想是更高效地实现显式特征交叉，每一层的计算如下：x0,xl,wl,blx_0,x_l,w_l,b_lx0,xl,wl,bl 都是d维的列向量，形状是(d,1

2020-11-18 01:08:24 4465

原创迁移学习在推荐中的应用——腾讯PeterRec框架

文章目录为什么用迁移学习问题与挑战腾讯看点是怎样做的空洞卷积神经网络模型补丁取得的效果方法细节预训练微调实验结果无监督预训练微调代码实践开源代码为什么用迁移学习大量的研究根据建模的用户-物品交互序列生成推荐，效果也不错。但是很少有研究尝试表征和迁移这些模型从而用于下游任务，而数据样本通常是比较有限的，所以会考虑能否通过迁移学习，学习一个通用用户表征，并且将该用户表征应用到下游任务中，例如冷启动用户场景和用户画像预测等问题与挑战尝试以一种无监督训练方式预训练一个神经网络，然后将此神经网络迁移到下游任务

2020-05-26 21:08:02 1054 1

原创《迁移学习简明手册》阅读笔记——特征选择

文章目录特征选择主要思想SCL 方法子空间学习统计特征对齐SA 方法SDA 方法CORAL 方法特征选择主要思想源域和目标域中均含有一部分公共的特征，在这部分公共的特征上，源领域和目标领域的数据分布是一致的。因此，此类方法的目标就是，通过机器学习方法，选择出这部分共享的特征，即可依据这些特征构建模型SCL 方法作者将这些公共的特征叫做 Pivot feature。找出来这些 Pivot feature，就完成了迁移学习的任务Pivot feature 指的是在文本分类中，在不同领域中出现频次较

2020-05-26 20:33:37 936

原创 anaconda 安装虚拟环境配置tensorflow

想安装tensorflow1.4，但是报错，原因是python3.5之后更高级的版本，会不支持很多tensorflow版本，比如我现在使用的python3.7就不支持tensorflow1.4.0，所以需要安装虚拟环境。ERROR: Could not find a version that satisfies the requirement tensorflow==1.4.0 (from versions: 1.13.0rc1, 1.13.0rc2, 1.13.1, 1.13.2, 1.14.0rc0,

2020-05-18 15:45:06 391

原创《迁移学习简明手册》阅读笔记——数据分布自适应

文章目录概念边缘分布自适应基本思路TCA解法总结概念数据分布自适应是一类最常用的迁移学习方法。这种方法的基本思想是，由于源域和目标域的数据概率分布不同，那么最直接的方式就是通过一些变换，将不同的数据分布的距离拉近数据的边缘分布不同，就是数据整体不相似数据的条件分布不同，就是数据整体相似，但是具体到每个类里，都不太相似根据数据分布的性质，这类方法又可以分为边缘分布自适应、条件分布自适应、以及联合分布自适应边缘分布自适应基本思路目标是减小源域和目标域的边缘概率分布的距离，从而完成迁移学习。

2020-05-11 17:54:03 4166 1

原创《迁移学习简明手册》阅读笔记——基本知识

文章目录迁移学习的问题形式化领域任务总体思路度量准则常见的几种距离相似度KL 散度与 JS 距离最大均值差异 MMDPrincipal AngleA-distance迁移学习的基本方法基于样本的迁移基于特征的迁移基于模型的迁移基于关系的迁移迁移学习的问题形式化领域领域 (Domain): 是进行学习的主体。领域主要由两部分构成:数据和生成这些数据的概率分布涉及到迁移，所以对应于两个基本的领域:源领域和目标领域任务任务: 是学习的目标。任务主要由两部分组成:标签和标签对应的函数。总体思路

2020-05-10 00:16:46 1635

原创《迁移学习简明手册》阅读笔记——基本概念

下个月要入职阿里推荐算法岗，实习的任务是推荐系统+深度学习+迁移学习，但是之前对迁移学习没有了解，师兄推荐了《迁移学习简明手册》这本书，提前预习一下并做一下笔记。文章目录

2020-05-09 15:42:46 444

原创 Spark 中如何两个RDD进行嵌套操作——广播+累加器

文章目录累加器广播变量累加器file = sc.textFile(inputFile)# 创建Accumulator[Int]并初始化为0 blankLines = sc.accumulator(0)def extractCallSigns(line): global blankLines # 访问全局变量 if (line == ""): blankLines += 1 ...

2020-04-30 18:05:56 1419

原创 Learning to Rank模型总结

文章目录LTR介绍pointwisepairwiselistwise经典算法RankNetLambdaRank信息检索常用指标MAPnDCGERRLTR介绍搜索排序主要有两个步骤：query-doc匹配：寻找与当前输入的query相关度高的docs高相关度docs精确排序：选取更多特征并按照用户点击该doc的可能性大小精确排序Learning to Rank就是一类目前最常用的，通过...

2020-04-27 01:55:21 995

原创 git基本的操作总结

文章目录基本操作分支管理撤销修改简单介绍一下工作中会用到的git操作基本操作创建仓库直接在github上创建下载仓库git clone http://xxxxxxxx.git查看远程仓库信息git remotegit remote -v提交代码git addgit rm filenamegit commit -m "说明"git loggit pus...

2020-04-16 20:33:24 147

原创面试高频leetcode算法题

快速排序def quick_rank(nums): if len(nums) <= 1: return nums left,right = [],[] mid = nums[0] for i in nums[1:]: if i > mid: right.append(i) else...

2020-04-06 12:54:10 711

原创如何让推荐列表不要千篇一律？——重排算法MMR

MMR原理QQQ : 用户;DDD : 推荐结果集合;SSS : RRR中已被选中集合; KaTeX parse error: Undefined control sequence: \S at position 2: R\̲S̲: 中未被选中集合;λλλ: 权重系数，调节推荐结果相关性与多样性该如何理解这个公式？简单说，从未选中的集合中选择一个物品，计算它和用户的相似性，...

2020-04-04 21:39:11 644

原创点击率CTR修正方法——威尔逊区间

CTR = 点击数 / 曝光数由于原始CTR计算方式只考虑了相对值，没有考虑绝对值。即，没有考虑曝光的数值大小，在曝光少的情况下，计算出的CTR其实不可靠，样本充足的情况下，才能反应真实情况举例：A：点击数 5 曝光数 10B：点击数 50 曝光数 100C：点击数 500 曝光数 1000此三个广告的CTR 都是 0.5 ，但是按照实际表现，从置信的角度分析，应该是C...

2020-04-04 18:21:57 1521

原创推荐系统实践——阿里B2B

文章目录商品召回排序内容推荐未来工作本文参考DataFunTalk发展历史商品召回I2I召回和U2I召回2. Deep Match U2I召回在Youtube Deep Match的基础上，基于序列上下文的Attention，构建用户表征，即通过时间衰减/行为类别/停留时间等信息对用户序列进行建模，模型的结构图所示排序DINDIN是显性的用户表征学习，对Beha...

2020-03-29 17:19:57 422

原创面试准备——操作系统复习

文章目录进程和线程以及它们的区别进程间的通信的几种方式线程同步的方式什么是死锁？死锁产生的条件？进程有哪几种状态线程有几种状态进程和线程以及它们的区别系统进行资源调度和分配的的基本单位，实现了操作系统的并发；线程是进程的子任务，是CPU调度和分派的基本单位，用于保证程序的实时性，实现进程内部的并发；一个程序至少有一个进程，一个进程至少有一个线程，线程依赖于进程而存在；进...

2020-03-22 15:20:18 334

原创面试准备——计算机网络复习

文章目录Http和Https的区别三次握手四次挥手Get与POST的区别TCP与UDP的区别TCP的拥塞处理从输入网址到获得页面的过程Session、Cookie 与 ApplicationOSI网络体系结构与TCP/IP协议模型TCP和UDP分别对应的常见应用层协议IP地址与物理地址Http和Https的区别Http协议运行在TCP之上，明文传输，客户端与服务器端都无法验证对方的身份；Htt...

2020-03-22 14:45:09 470

原创推荐算法——冷启动算法调研

文章目录讨论内容平台准备其他平台信息整合：做好文章画像新用户到来初期丰富用户画像，基于内容推荐上下文推荐热度退减快速试探冷启动用户操作一段时间后评估冷启动效果判定冷启动阶段结束策略迁移一些讨论微信面试一直在讨论冷启动，然后给我提了一个任务是，让我就讨论内容查找资料，两天时间出个报告发给他。讨论内容如何做用户冷启动如何做文章冷启动冷启动效果如何评估，具体怎么实现pipline收敛首...

2020-03-18 12:05:10 2474

原创一道面试算法题

最近面微信让做这道题题目：给一个装满水的 8 升满壶和两个分别是 5 升、3 升的空壶，想个办法，使得其中一个水壶恰好装 4 升水，每一步的操作只能是倒空或倒满思路：遍历+状态记忆最终结果不是最优的。。问题应该是返回条件不太对，但是没想到怎么改，先放出来吧class State: def __init__(self,a,b,c): self.a...

2020-03-17 10:51:16 101

原创推荐算法如何做多目标优化

文章目录阿里 ESMM阿里 DUPN美团"猜你喜欢" 深度学习排序模型Google MMoE阿里 ESM2YouTube 多目标排序系统美图小结推荐系统中如果只优化ctr，那么有很多已有的ctr预估模型可以做。但是往往一个优秀的推荐系统除了ctr外还有很多优化的目标，比如观看时长、收藏率、转发率等，那么能训练一个模型，对多个目标同时优化呢。本文将总结一些该方面的成果和实践阿里 ESMM论文...

2020-03-13 23:08:59 4144

原创推荐系统实践——知乎如何做首页rank

文章参考「回顾」知乎推荐页Ranking经验分享文章目录推荐页请求流程ranking演进特征介绍CTR模型DNNDeep FMLast View + DINLast Display + GRU多目标优化最终模型结构经验分享面临问题推荐页请求流程召回基于话题：获取用户的关注数据，用户行为挖掘；基于内容：协同过滤的方式排序基于规则：时间顺序，线性加权；基于模型：GDBT，DNN重...

2020-03-13 15:43:39 651

原创如何准备算法面试

文章目录概括项目挖掘（深度）阿里DIN的CTR预估模型知识挖掘（广度）本文总结王喆老师的文章，并结合推荐算法岗梳理一下，希望对大家也有帮助概括知识：业界常用的召回策略，主流CTR模型，流量预估，bidding策略等模型算法的原理和技术细节工具：coding能力，spark、flink、tensorflow、xgboost、ps-lite等模型训练、parameter serving相关工...

2020-03-13 00:19:12 360

原创 python复习

文章目录装饰器是什么python多线程的限制以及多进程中传递参数的方式python多线程与多进程的区别Python是如何进行内存管理的Python里面如何拷贝一个对象？字典如何删除键和合并字典*args和**kwargs__new__和 __int__的区别and & or装饰器是什么如何理解Python装饰器装饰器是要把原来的函数装饰成新的函数，并且返回这个函数本身的高阶函数py...

2020-03-13 00:15:00 570 1

原创暑期实习算法岗面经

一面算法题：全排列算法题：二分查找问项目：问得很细，主要包括冷启动、正负样本不均衡、AUC还有推荐系统中实际的工程问题会不会c++开放题：你即将面试100家公司，每一家公司面试完会给你一个工资package，你只能当场选择接受或者不接受，接受后就不能毁约（不能选择后面的offer），问如何设定策略让自己package最大化。...

2020-03-13 00:10:15 1914

原创自然语言处理知识梳理

文章目录word2vecgensim实现textcnnBi-LSTMBi-LSTM + Attentionseq2seqattention+Seq2seqTransformerword2vecgensim实现from gensim.models import Word2Vecsentences = [["cat", "say", "meow"], ["dog", "say", "woof"...

2020-03-11 01:18:49 441

原创海量数据找topN

文章目录从10亿个数据（int型占据4B）中找中位数，内存限制为1GB从10亿数中选取前1000大的数字从10亿个数据（int型占据4B）中找中位数，内存限制为1GB不可能一次性把数据全部加载到内存中，再使用快速排序算法，因为10亿*4B大约为4GB，内存不够可以一次性读入1GB的数据（分10次读取），然后对读入的1GB数据按照最高位即第32位的值进行分类并写入文件，如果最高位是1，写入fi...

2020-03-05 15:48:02 1131

原创 AIops相关算法

文章目录根因分析清华FOCUS：找影响系统性能瓶颈的原因MSRA iDice：多维指标突变定位清华Hotspot：多维根因定位智能变更清华FUNNEL：评估变更影响异常检测雅虎EGADS：KPI异常检测框架清华Opprentice：KPI自动化异常检测清华DeepLog: 日志异常检测清华StepWise：指标模式漂移后的准确异常检测故障预测IBM：磁盘故障预测聚类微软Yading：时序数据聚类...

2020-03-02 17:43:04 4229 6

原创推荐算法召回

文章目录向量化召回图嵌入双塔模型协同过滤矩阵分解热度召回内容召回深度树匹配向量化召回向量化召回，主要通过模型来学习用户和物品的兴趣向量，并通过内积来计算用户和物品之间的相似性，从而得到最终的候选集。其中，比较经典的模型便是Youtube召回模型。在实际线上应用时，由于物品空间巨大，计算用户兴趣向量和所有物品兴趣向量的内积，耗时十分巨大，有时候会通过局部敏感Hash等方法来进行近似求解。图嵌入...

2020-02-13 17:29:46 1248

原创用矩阵分解来解决推荐问题

文章目录整体架构分部细节生成训练数据bm25矩阵分解lightfm整体架构读取数据训练模型分部细节生成训练数据从hadoop生成两个子文件（1）docid，pv，cl（2）mid，cl_docid_duration_dict， pv_docid_set生成训练数据：get_docid_doctype_videotime_by_kv.pygen_mid_docid.pyg...

2020-02-10 16:51:15 407

原创分析用户搜索行为打标签

文章目录整体架构分部介绍整体架构直接看代码#python get_novel_info_from_feed_monitor.py ./data/novel_info.txt#python get_video_info_from_video_film.py ./data/video_info.txt#python get_star_info_from_video_film.py ./dat...

2020-02-10 12:20:52 504

原创混合推荐系统介绍

文章目录当前推荐系统的问题工程实践实时推荐系统与混合推荐深度学习等复杂推荐模型整合多数据源特殊情况下的处理策略推荐数量不足的增补通过混合策略解决用户冷启动当前推荐系统的问题冷启动问题数据稀疏性问题头部效应头部”标的物“被越来越多的用户”消费“，而质量好的长尾”标的物“由于用户行为较少，自身描述信息不足而得不到足够的关注佛系人群问题是指某些用户的倾向性和偏好不太明显，比较散乱，没有表...

2020-01-27 15:39:16 1666

原创 Youtube经典论文相关问题《Deep Neural Networks for YouTube Recommendations》

文章目录论文中召回阶段都用了哪些特征，哪些特征令你印象深刻？论文排序阶段用了哪些特征，哪些特征令你印象深刻？论文中训练样本怎么设置的？论文中测试样本是怎么设置的？每一个备选video都会是一个分类，使用softmax训练时有何改进？为什么不直接采用训练时的model进行预测，而是采用了一种最近邻搜索的方法？为什么不采取类似RNN的Sequence model，而是完全摒弃了用户观看历史的时序特征，...

2020-01-26 15:11:56 194

空空如也

空空如也