一寒惊鸿-CSDN博客

原创【实践】广告ctr模型之Deep cross network (dcn)

广告ctr模型可用的深度模型其本质架构都一样（可见https://blog.csdn.net/dengxing1234/article/details/79916532），这也是限制了模型的发展路线。Deep cross network在广告ctr模型也是应用很常见，它聚焦于解决特征工程的问题，对比paper中提到：【DNN可以自动地学习特征地交互作用，然而，它们隐式地的生成所有的特征交互，这对于...

2018-12-07 11:44:28 2189

原创【总结】深度学习在推荐领域上之Lookalike 应用

当2012 年Facebook 在广告领域开始应用定制化受众（Facebook CustomAudiences）功能后，受众发现这个概念真正得到大规模应用。什么是受众发现？如果你的企业已经积累了一定的客户，无论这些客户是否关注你或者是否和你在Facebook 上有互动，你都能通过Facebook 的广告系统触达到。受众发现实现了什么功能？在没有这个系统之前，广告投放一般情况都是用兴趣标签去区分用户...

2018-04-29 17:02:14 5949 1

原创【算法】深度学习在CTR预估/推荐系统中的应用探索

前言深度学习凭借其强大的表达能力和灵活的网络结构在 NLP、图像、语音等众多领域取得了重大突破。在广告领域，预测用户点击率（Click Through Rate，简称 CTR）领域近年也有大量关于深度学习方面的研究。本文就近几年 CTR 预估领域中学术界的经典方法进行探究，并比较各自之间模型设计的初衷和各自优缺点。通过十种不同 CTR 深度模型的比较，不同的模型本质上都可以由基础的底层组件组成。 ...

2018-04-12 18:50:49 3802 2

原创【实践】信息流推荐算法实践 & 深入

一. 背景负责信息流推荐系统后台算法的工作也有一段时间，从零开始构建推荐系统的过程中，在总结了业界一些成功的经验的同时，也摸索了一些有效的实践方法。愿在此沉淀，通过交流扩展眼界。推荐系统重在算法，这也是各大公司算法团队不断追新与实践的过程。无奈个人能力有限，团队人力有限，只能一步一步从基础做起。本文将主要介绍信息流视频推荐算法的应用和探索。二. 算法架构召回算法：包...

2018-03-30 23:07:56 16098 4

原创【算法】算法知识点总结

## 项目知识点评估：1、fm + ffm + lr # fm 相比 lr 引进了特征组合（二次项） # fm 解决了数据稀疏性导致的参数训练不充分问题（尤其对于one-hot编码之后） # ffm 增加了field，隐向量不仅与特征相关，也与field相关 # 假设样本的 n 个特征属于 f 个field，那么FFM的二次项有 nf个隐向量。 # 而在FM模型中，每一维特征的...

2018-03-27 10:13:57 1708 1

原创【实践】Spark 协同过滤ALS之Item2Item相似度计算优化

最近项目在做推荐系统中match 策略中的CF召回优化，自之前第一版自己实现的基于item的协同过滤算法http://blog.csdn.net/dengxing1234/article/details/76122465，考虑到用户隐型评分的稀疏性问题，所以尝试用Spark ml包（非mllib）中的ALS算法的中间产物item的隐性向量，进行进一步item到item的余弦相似度计算。由于item...

2018-01-11 14:14:28 14853 3

原创【实践】spark 实现simrank计算图结构的相似

SimRank原理图1.二部图所谓二部图(bipartite graphs)，是指图中的节点可以分这两个子集，任意一条边关联的两个节点分别来自于这两个子集。用I(v)和O(v)分别表示节点v的in-neighbors和out-neighbors。看上面的二部图，我们把A、B当成两个人，把a、b、c当成三件商品，有向边代表人购买的商品。simrank的基本思想是：如果两个实体相似，那么跟它们相关的实...

2017-12-29 17:07:25 14135 4

原创【算法】阿里双十一推荐技术

阿里妹导读：双十一手淘首页个性化场景是推荐生态链路中最大的场景之一，在手淘APP承载了整体页面的流量第一入口，对用户流量的整体承接、分发、调控，以及用户兴趣的深度探索与发现上起着至关重要的作用。双11手淘首页的几个重要推荐场景截图如下：如上图所示，左一场景为AIO综合会场，包括AIO日常场景（淘抢购、有好货、清单等）、双11人群会场及行业会场；中间为AIOplus场景卡片综合会场，包括5张会场卡...

2017-12-20 13:08:32 9711 2

原创【总结】Spark Streaming和Kafka整合保证数据零丢失

当我们正确地部署好Spark Streaming，我们就可以使用Spark Streaming提供的零数据丢失机制。为了体验这个关键的特性，你需要满足以下几个先决条件：　　1、输入的数据来自可靠的数据源和可靠的接收器；　　2、应用程序的metadata被application的driver持久化了(checkpointed );　　3、启用了WAL特性(Write ahead lo

2017-09-13 17:11:42 896

原创【实践】CTR预估中的贝叶斯平滑方法（二）

1. 前言这篇博客主要是介绍如何对贝叶斯平滑的参数进行估计，以及具体的代码实现。首先，我们回顾一下前文中介绍的似然函数，也就是我们需要进行最大化的目标函数：下面我们就基于这个目标函数介绍怎样估计参数。 2. 参数估计的几种方法1. 矩估计矩估计在这里有点乱入的意思：），因为它其实不是用来最大化似然函数的，而是直接进行参数的近似估计。矩估计的方法要追溯到19世纪的

2017-09-13 14:34:20 12317

原创【算法】CTR预估中的贝叶斯平滑方法（一）

1. 背景介绍广告形式：互联网广告可以分为以下三种：1）展示广告（display ad）2）搜索广告（sponsored search ad）3）上下文广告（contextual ad）竞价模式：对于在线广告，主要有以下几种竞价模式：1）pay-per-impression（按展示付费）：广告商按照广告被展示的次数付费，这是一种最普遍的竞价模型。缺点在于没有考

2017-09-13 14:30:53 9414

转载【总结】深度学习打造精准推荐系统，细说国美互联网AI发展的进击之路

导语这是一个AI+的时代。作为线上+线下的电商零售平台，国美互联网如何将人工智能技术嵌入到实际业务中？机器学习和深度学习技术为国美带来了哪些改变？在这火热的时局中，国美未来在前沿技术方面又将如何布局？且听下文一一分解。正文今年机器学习已然成为炙手可热的技术话题。深度学习与人工智能技术正在改变人们的生活，同时也给企业管理大量数据、为用户提供更精准的服务提供了一些新的思路和尝试的方向。

2017-08-31 14:51:30 1600

转载【总结】淘宝搜索/推荐系统背后深度强化学习与自适应在线学习的实践之路

1搜索算法研究与实践1.1背景淘宝的搜索引擎涉及对上亿商品的毫秒级处理响应，而淘宝的用户不仅数量巨大，其行为特点以及对商品的偏好也具有丰富性和多样性。因此，要让搜索引擎对不同特点的用户作出针对性的排序，并以此带动搜索引导的成交提升，是一个极具挑战性的问题。传统的Learning to Rank（LTR）方法主要是在商品维度进行学习，根据商品的点击、成交数据构造学习样本，

2017-08-01 15:10:07 3414

转载【总结】深度学习在推荐领域的应用

当2012年Facebook在广告领域开始应用定制化受众（Facebook Custom Audiences）功能后，“受众发现”这个概念真正得到大规模应用，什么叫“受众发现”？如果你的企业已经积累了一定的客户，无论这些客户是否关注你或者是否跟你在Facebook上有互动，都能通过Facebook的广告系统触达到。“受众发现”实现了什么功能？在没有这个系统之前，广告投放一般情况都是用标签去区分用户

2017-07-26 14:59:28 5233

原创【实践】基于spark的CF实现及优化

最近项目中用到ItemBased Collaborative Filtering，实践过spark mllib中的ALS，但是因为其中涉及到降维操作，大数据量的计算实在不能恭维。所以自己实践实现基于spark的分布式cf，已经做了部分优化。目测运行效率还不错。以下代码package modelimport org.apache.spark.broadcast.Broadcastimp

2017-07-26 10:27:30 14474 2

原创【实践】spark streaming中的广播变量应用

1. 广播变量我们知道spark 的广播变量允许缓存一个只读的变量在每台机器上面，而不是每个任务保存一份拷贝。常见于spark在一些全局统计的场景中应用。通过广播变量，能够以一种更有效率的方式将一个大数据量输入集合的副本分配给每个节点。Spark也尝试着利用有效的广播算法去分配广播变量，以减少通信的成本。一个广播变量可以通过调用SparkContext.broadcast(v)方法从一个初始变量

2017-07-04 15:07:53 24871 6

原创【实践】CTR中xgboost/gbdt +lr

自学习CTR预估中GBDT与LR融合方案，有意用简单暴利的python实现一版GBDT/XGboost做特征选择，融合LR进行CTR的代码demo。1. GBDT + LR python3.5.3 + scikit-learn0.18.1from scipy.sparse.construct import hstackfrom sklearn.model_select...

2017-06-26 14:37:26 33047 22

原创【总结】CTR预估中GBDT与LR融合方案

1、背景CTR预估，广告点击率（Click-Through Rate Prediction）是互联网计算广告中的关键环节，预估准确性直接影响公司广告收入。CTR预估中用的最多的模型是LR（Logistic Regression）[1]，LR是广义线性模型，与传统线性模型相比，LR使用了Logit变换将函数值映射到0~1区间 [2]，映射后的函数值就是CTR的预估值。LR，逻辑回归模型，这种线性

2017-06-26 14:13:02 22161

原创【总结】论spark中的cache/persist/checkpoint

1. cache与persist cache 能够让重复数据在同一个 application 中的 jobs 间共享。RDD的cache()方法其实调用的就是persist方法，缓存策略均为MEMORY_ONLY。下面简单引入一下cache的机制：哪些 RDD 需要 cache？会被重复使用的（但不能太大）。用户怎么设定哪些 RDD 要 cache？因为用户只与 driver

2017-06-23 20:11:33 20950

原创【实践】Spark RDD API实战

map//3表示指定为3个Partitionsvar a = sc.parallelize(List("dog", "salmon", "salmon", "rat", "elephant"), 3)//以a各元素的长度建议新的RDDvar b = a.map(_.length)//将两个RDD组合新一个新的RDDvar c = a.zip(b)c.collectres0: A

2017-06-23 15:16:02 18710

原创【总结】Spark容错机制

容错方式容错指的是一个系统在部分模块出现故障时还能否持续的对外提供服务，一个高可用的系统应该具有很高的容错性；对于一个大的集群系统来说，机器故障、网络异常等都是很常见的，Spark这样的大型分布式计算集群提供了很多的容错机制来提高整个系统的可用性。一般来说，分布式数据集的容错性有两种方式：数据检查点和记录数据的更新。面向大规模数据分析，数据检查点操作成本很高，需要通过数据中心的

2017-06-23 10:57:12 34487 2

原创【实践】端到端的OCR：验证码识别

验证码识别的思路非常暴力，大概就是这样：去噪＋二值化字符分割每个字符识别验证码的难度在这3步上都有反应。比如噪声：加一条贯穿全图的曲线，比如网格线，还有图的一半是白底黑字，另一半是黑底白字。分割：字符粘连，7和4粘在一起。识别：字符各种扭曲，各种旋转。但相对而言，难度最大的是第2步，分割。所以就有人想，我能不能不做分割，就把验证码给识别了。深度学习擅长做端到端的学习，因

2017-06-22 17:54:31 25411 1

转载【总结】文字检测与识别资源

综述[2015-PAMI-Overview]Text Detection and Recognition in Imagery: A Survey[paper] [2014-Front.Comput.Sci-Overview]Scene Text Detection and Recognition: Recent Advances and Futur

2017-06-22 17:48:53 24510

转载【总结】常见Java故障案例

原文 http://dbaplus.cn/news-21-173-1.html目录 HotSpot常识 Java故障排查方法论 Java故障案例分析 Part 1 HotSpot常识 HotSpot是目前最常见的开源JVM（GPL协议），用来运行Java应用和applet，本次讨论基本都是基于这一软件来进行的。

2017-06-22 17:41:25 23240

原创【总结】广告点击率预估中的特征选择

互联网广告综述之点击率特征工程一．互联网广告特征工程博文《互联网广告综述之点击率系统》论述了互联网广告的点击率系统，可以看到，其中的logistic regression模型是比较简单而且实用的，其训练方法虽然有多种，但目标是一致的，训练结果对效果的影响是比较大，但是训练方法本身，对效果的影响却不是决定性的，因为训练的是每个特征的权重，权重细微的差别不会引起ctr的巨大变化。

2017-06-20 15:46:16 24362

原创【算法】在线学习算法FTRL详解

原文链接：http://www.cnblogs.com/EE-NovRain/p/3810737.html 现在做在线学习和CTR常常会用到逻辑回归（ Logistic Regression），而传统的批量（batch）算法无法有效地处理超大规模的数据集和在线数据流，google先后三年时间（2010年-2013年）从理论研究到实际工程化实现的FTRL（Follow-the-regula

2017-06-15 11:09:38 46673 3

转载【总结】Bandit算法与推荐系统

原文：http://geek.csdn.net/news/detail/195714推荐系统里面有两个经典问题：EE和冷启动。前者涉及到平衡准确和多样，后者涉及到产品算法运营等一系列。Bandit算法是一种简单的在线学习算法，常常用于尝试解决这两个问题，本文为你介绍基础的Bandit算法及一系列升级版，以及对推荐系统这两个经典问题的思考。什么是Bandit算法为选择而生

2017-06-13 17:21:04 47549

转载【算法】阿里精准推广的核心算法MLR

原文：http://www.sohu.com/a/146522397_463994阿里妈妈，是一个想让天下没有难做的营销的大数据平台，它拥有阿里巴巴集团的核心商业数据。在这里，每天有超过50亿的推广流量完成超过3亿件商品的推广展现，覆盖高达98%的网民，实现数字媒体（PC端+无线端+互联网电视端）的一站式触达。在这些鲜亮的数据背后，是什么样的核心算法在起作用？它如何保证

2017-06-13 11:15:46 31000 1

原创【方法】搜索排序评估方法

在策略相关的产品如搜索、排序、推荐等功能的评估中，除了一般性数据分析方法之外，还有有一些特有的且相对比较固定的评估工具，这些评估工具都取之于信息检索科学的常用评估方法。要了解这些首先要了解策略产品的效果评估，我们必须要引入一些必要的信息检索相关的知识。1.召回率和准确率信息检索领域两个最基本指标是召回率(Recall Rate)和准确率(Precision Rate)，召回率也叫查全率

2017-06-09 10:06:14 28764

转载【算法】Learning to rank小结

本博文包括以下内容Learning to rank 基本方法Learning to rank 指标介绍LambdaMART 模型原理FTRL 模型原理learning to rank排序学习是推荐、搜索、广告的核心方法。排序结果的好坏很大程度影响用户体验、广告收入等。排序学习可以理解为机器学习中用户排序的方法，这里首先推荐一本微软亚洲研究院刘铁岩老师关于LTR的著作，Lea

2017-06-09 10:02:58 26368

转载【总结】推荐系统学习-libFM

介绍分解机（FM）是一个通过特征工程模拟大多数分解模型的通用方法。libFM是一个实现以随机梯度下降stochastic gradient descent (SGD)和可选择最小二乘alternating least squares (ALS) optimization以及使用蒙特卡洛的贝叶斯推理Bayesian inference using Markov Chain Monte C

2017-06-07 10:57:18 31556 1

转载【总结】推荐系统学习-LibMF

介绍 LibMF的作者是大名鼎鼎的台湾国立大学，他们在机器学习领域享有盛名，近年连续多届KDD Cup竞赛上均获得优异成绩，并曾连续多年获得冠军。业界常用的LibSVM， Liblinear等都是他们开发的，开源代码的效率和质量都非常高。 LibMF是在潜在空间使用两个矩阵，接近一个不完全矩阵。（原句是：LIBMF is an open source tool for appr

2017-06-07 10:55:25 24808

转载【总结】推荐系统学习-SVDFeature

介绍 SVDFeature是由Apex Data & Knowledge Management Lab在KDD CUP11竞赛中开发出来的工具包。它的目的是有效地解决基于特征的矩阵分解。新的模型可以只通过定义新的特征来实现。这种基于特征的设置允许我们把很多信息包含在模型中，使得模型更加与时俱进。使用此工具包，可以很容易的把其他信息整合进模型，比如时间动态，领域关系和分层信息。除了评分预测，还

2017-06-07 10:52:49 25766 1

原创【总结】推荐算法之工具包

1、SVDFeature 主页：http://svdfeature.apexlab.org/wiki/Main_Page 开发语言：C++ 2、LibMF 主页：http://www.csie.ntu.edu.tw/~cjlin/libmf/ 开发语言：C++ 3、LibFM 主页：http://www.libfm.org/ 开发语言：C++

2017-06-07 10:41:11 25368

原创【方法】实例详解机器学习如何解决问题

来源：http://tech.meituan.com/mt-mlinaction-how-to-ml.html前言随着大数据时代的到来，机器学习成为解决问题的一种重要且关键的工具。不管是工业界还是学术界，机器学习都是一个炙手可热的方向，但是学术界和工业界对机器学习的研究各有侧重，学术界侧重于对机器学习理论的研究，工业界侧重于如何用机器学习来解决实际问题。我们结合美团在机器学习上

2017-03-16 19:20:25 23751

转载【方法】机器学习中的数据清洗与特征处理

来源：http://tech.meituan.com/machinelearning-data-feature-process.html背景随着美团交易规模的逐步增大，积累下来的业务数据和交易数据越来越多，这些数据是美团做为一个团购平台最宝贵的财富。通过对这些数据的分析和挖掘，不仅能给美团业务发展方向提供决策支持，也为业务的迭代指明了方向。目前在美团的团购系统中大量地应用到了机器学

2017-03-16 19:18:01 29654

转载【总结】Hive SQL的编译过程

来源：http://tech.meituan.com/hive-sql-to-mapreduce.htmlHive是基于Hadoop的一个数据仓库系统，在各大公司都有广泛的应用。美团数据仓库也是基于Hive搭建，每天执行近万次的Hive ETL计算流程，负责每天数百GB的数据存储和分析。Hive的稳定性和性能对我们的数据分析非常关键。在几次升级Hive的过程中，我们遇到了一些大

2017-03-16 19:14:31 22949

转载【总结】基于机器学习方法的POI品类推荐算法

来源：http://tech.meituan.com/category-recommend-base-ml.html前言在美团商家数据中心（MDC），有超过100w的已校准审核的POI数据（我们一般将商家标示为POI，POI基础信息包括：门店名称、品类、电话、地址、坐标等）。如何使用这些已校准的POI数据，挖掘出有价值的信息，本文进行了一些尝试：利用机器学习方法，自动标注缺失品类的

2017-03-16 19:10:44 49603

转载【总结】美团之推荐系统

来源：http://tech.meituan.com/mt-recommend-practice.html前言推荐系统并不是新鲜的事物，在很久之前就存在，但是推荐系统真正进入人们的视野，并且作为一个重要的模块存在于各个互联网公司，还是近几年的事情。随着互联网的深入发展，越来越多的信息在互联网上传播，产生了严重的信息过载。如果不采用一定的手段，用户很难从如此多的信息流中找到对自己有价

2017-03-16 19:06:44 38091 1

转载【总结】Java NIO浅析

来源： http://tech.meituan.com/nio.htmlNIO（Non-blocking I/O，在Java领域，也称为New I/O），是一种同步非阻塞的I/O模型，也是I/O多路复用的基础，已经被越来越多地应用到大型应用服务器，成为解决高并发与大量连接、I/O处理问题的有效方式。那么NIO的本质是什么样的呢？它是怎样与事件模型结合来解放线程、提高系统吞吐的呢

2017-03-16 19:01:28 23438

空空如也

空空如也