于建民-CSDN博客

原创 ChatGPT前传

对于目前火热的ChatGPT，总是想多聊些，那就写点其前身的知识点吧。GPT（Generative Pre-trained Transformer）是OpenAI公司开发的关于自然语言处理的语言模型。这类模型在知识问答、文本摘要等方面的效果超群，更牛逼的是这居然都是无监督学习出来的模型。在很多任务上，GPT模型甚至不需要样本微调，就能在理解和执行效果上获得比当时最好的监督学习模型更好的性能。GPT-1GPT-2GPT-3提前假设大家都是了解NLP的术语和结构的，不清楚的可以自行补充知识。

2023-03-13 19:51:00 8384 4

翻译基于人类反馈的强化学习(RLHF)[译]

一篇关于RLHF（Reinforcement Learning from Human Feedback）的，翻过来以飨读者。

2023-02-24 18:23:06 4153

翻译扩散模型[译]

扩散模型的通用介绍

2023-02-23 11:27:33 5859

原创兴趣探测的多样性解决方案

问题背景还是继续前文的问题，给用户展示新闻的时候，除了保证兴趣满足度之外，还要保证用户兴趣发散探测，不至于兴趣太收敛。我们上文讨论到了用地雷克雷分布==》再到用F(user, tag, var)=ctr的方式，虽然弥补了单个用户重依赖历史行为的倾向，用到全局信息/点击/展现信息，但是仍然遗漏了重要的屏信息。现在，有更优的整屏多样性的解决方法可供我们选择，DPP（Determinantal Poi...

2020-04-18 22:14:45 717

原创微信的look-alike的启发

前言微信搞的look-alike很有意思哈，我们来看下，发现对我们做内容推荐还是很有启发的。解决问题怎么解决启发Reference

2020-04-12 11:21:36 505

原创兴趣探测的模型化探索

最近跟阿力讨论了下兴趣探测的事情，发现了非常有意思的解决方案。在此简要整理下，没准以后扩展成统一的数学模型理论，还可以发篇小文章呢。兴趣探测的核心问题：1）对什么样的用户探测，2）用什么资源探测，3）如何探测现在梳理出来的思路有两个，一个是将探测作为分布的分布来建模；一个是将探测作为用户状态转移的中间action来建模。希望能够找到个大一统的数学理论支持，将探测作为其中的一个子场景应用验证。...

2020-04-06 12:20:07 503

原创整屏建模解决挑选首条的尝试

问题背景在推荐流里，首位占据着读者视野内的重要位置，第一条推荐内容的优劣决定着读者的第一印象；同时不同位置点击的统计来看，也是顺位衰减的。现对屏内哪条数据该放到第一条，在模型侧尝试解决下。基本思路当一屏数据作为候选集，我们可以获得的是前几屏的行为信息，也有当前候选内容的所有信息，那么该把谁在这些约束下放到第一个上呢？当前的上下文是其余内容，总体的上下文是之前session行为，可以自然地想到...

2020-04-01 21:37:16 233

原创 DIEN在新闻推荐中的简化探索

前言阿里的DIEN的文章很有意思，用GRU对用户行为作兴趣状态描述，再用target与各个兴趣状态计算次attention，再交给AUGRU来捕捉兴趣演化。最近尝试着将其思路应用到实际新闻推荐中，鉴于原本DIEN模型稍微复杂，想做下简化工作，能够在捕捉用户历史兴趣不同权重的同时，保证预测效果稳定。兴趣表达层我们将用户的历史行为所代表的兴趣状态，分为长期兴趣和短期兴趣，在Ari...

2019-07-11 11:04:36 1232

原创图文推荐系统之数据冷启小结

数据冷启前言新闻推荐必须面对的入场问题简单粗暴有时更救命止渴更漂亮优雅的入场姿势Explorary前言问渠哪得清如许，为有源头活水来。数据冷启，即是新闻推荐系统的源头活水。新闻推荐必须面对的入场问题简单扯一下新闻推荐里面不被特别重视的环节：数据冷启。在某些童鞋的认知里，一个新闻推荐系统，最重要并且最出彩的部分肯定是Rank模块，推荐就等于Rank；其实并不然，一个完备的推荐系统，是包括方方...

2019-06-29 11:09:32 787

原创推荐系统之Airbnb推荐：Real-time Personalizaton using Embeddings for Search Ranking at Airbnb

前言Airbnb在2018年KDD的best-paper，关于向量化如何在民宿订购平台里的实时推荐实践的，写得非常实在。业务特点Aribnb他们具有非常鲜明的业务特点，是短租市场，且是个双向市场，既要优化商家又要优化租客，用户有非常强烈的搜索目标倾向。短期兴趣从哪里学短期兴趣？用户的一连串搜索及点击浏览行为中[session]，蕴含着其最终目标booking[订购]，为了能够表达...

2019-03-31 11:46:14 1809

翻译 The Illustrated Transformer【译】

前言翻译一篇非常赞的解释Transformer的文章，原文链接。在之前的文章中，Attention成了深度学习模型中无处不在的方法，它是种帮助提升NMT（Neural Machine Translation）的翻译效果的思想。在本篇博客中，我们解析下Transformer，该模型扩展Attention来加速训练，并且在Google的NMT中表现突出。然而，其最大的好处是可并行。实际上谷歌云...

2018-12-23 11:28:08 74537 46

原创 Bert源码阅读

前言对Google开源出来的bert代码，来阅读下。不纠结于代码组织形式，而只是梳理下其训练集的生成，训练的self-attention和multi-head实现，它的具体实现和论文里写的还是有很大差别的。训练集的生成主要实现在create_pretraining_data.py和tokenization.py两个脚本里。输入文本格式举例，下面是两篇文章外加一篇空文章。两篇文章之间...

2018-12-22 23:11:41 7065 4

原创 Bert论文阅读

前言 Google又出新作，Bert：Pre-training of Deep Bidirectional Transformers，号称在11项测试中取得了牛逼的效果。主要是将之前的Transform加上更为泛化的预训练，得到了很好的语言表达模型。 Transformer 这个模型，来自17年的&amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;quot;attention is all you need&amp;amp;amp;

2018-12-02 16:59:24 3629 4

原创推荐系统之阿里广告：Deep Interest Evolution Network for CTR

前言阿里又出了篇DIEN，据传提高了20.7%，让我们拿来一睹为快。亮点1）构建兴趣提取层，并加入辅助loss来更有效学习兴趣状态。2）构建AUGRU（GRU with Attention Update Gate），可以接住兴趣状态来model用户兴趣演化。直接上图辅助 loss 用GRU的隐状态来提取每一步的用户兴趣状态，由于点击与否只在最后一步上对隐状态有最大化的指导作用，...

2018-11-25 17:31:13 1765 2

原创使用TF Service搭建在线服务：part-2

前文已经在服务器上下载好了docker，下面来搭建一个完整的开发测试服务环境。

2018-09-16 14:13:11 1663 5

原创使用TF Service搭建在线服务：part-1

　　现在利用docker来配置可用的虚拟服务环境并搭载tf Service模块，直接在各个服务器上拉取虚拟服务镜像，就可以快速地部署模型预测服务了。 docker 安装　　Docker官方要求内核必须3.x+才可以，查看内核$ uname -r。　　docker对Ubuntu的支持是最友好全面的，但我们仍然需要面对机器是CentOS的时候。升级内核　　如果内核版本低于3，...

2018-09-15 17:00:17 1581

原创 Image Caption：图像字幕生成

前言图像处理与自然语言处理的结合

2018-08-18 18:59:47 6882

原创对比Attention的几种结构

前言之前看到几篇关于attention思想的应用文章，现在对比下其中的Attention具体结构上的区别。NMT by Jointly Learning to Align and TranslateEffective Approaches to Attention-based NMTShow, Attention and Tell: Neural Image Caption Gen...

2018-08-18 12:51:37 5217 5

翻译注意力机制【译】

非常好的一篇关于注意力机制的博客，翻译以飨读者。自从2015年深度学习和人工智能兴起以来，许多研究者开始对神经网络中的注意力机制开始感兴趣。这篇博客的目的是在更高维度的对深度注意力机制作解释，并且细化计算注意力的某些技术细节步骤。如果你想看更详细的内容，最近Cho写的review是不二选择。很遗憾的是，许多模型并不能直接拿来使用，仅有一小部分是有开源代码的。 Attention 涉及到...

2018-08-11 11:34:48 7251 4

原创 NMT：神经网络机器翻译

前言 SMT是在神经网络之前最主流的翻译模式，统计机器翻译。 NMT则是基于神经网络的翻译模式，也是当前效果最好的翻译模式。现在基于几篇paper来讲解下各个神经网络下的翻译模型。 NMT based RNN NMT based CNN Reference...

2018-08-05 16:41:15 26554 5

原创 Recurrent Neural Networks 简述

前言RNN是序列数据处理时匹配度最好的模型，现在对当前几个重要的RNN模型做个简单梳理。 RNN RNN: Recurrent Neural Network，循环神经网络。我想，当XX当年把RNN结构构造出来时，一定是佩服自己的想象力的。RNN具有天然的时间深度，并且对任意的序列数据场景具有适应性，即当样本间具有相关性时非常适合用RNN来解决。而Forward Network则普遍假设...

2018-07-29 15:14:17 4952

原创 Word Embedding 简述

自然语言处理，最基础的部分是语言模型，即如何描述语句所需要的数学模型。概率语言模型现在用的最欢的就是概率语言模型了，比如这个句子“小猫在草地上打滚”，我们队这句话出现的概率拆解成条件概率：P(sentence)=P(w0)P(w1|w0)P(w2|w0w1)P(w3|w0w1w2)⋅⋅⋅P(sentence)=P(w0)P(w1|w0)P(w2|w0w1)P(w3|w0w1w2)···...

2018-07-29 13:25:51 1922 1

原创优化方法小结

GD Moment GD [ bias correct ] RMSprop GD Adam GD AdaGrad Descent AdaDelt GD AdaMax 各种适应性，在有道云笔记上有部分内容。

2018-07-11 14:32:49 463

原创推荐系统之YouTube视频：Deep Neural Networks for YouTube Recommendations

YouTube用深度网络分别完成了候选视频集的选择和线上的rank。

2018-06-20 19:28:01 6155 7

原创推荐系统之雅虎图文：Embedding-based News Recommendation for Millions of Users

前言雅虎日本搞的一套东西，师夷长技以制夷。亮点1）用降噪自编码实现文章的embedding 2）用RNN学习用户行为的embedding 主要就是在倒腾Embedding，然后用来做推荐。...

2018-06-20 19:27:02 3649 2

原创推荐系统之阿里广告：Deep Interest Network for Click-Through Rate Predictioin

前言　　阿里的商业广告CTR预测，使用了最新的Attention机制，我们来看一下是怎么用的，在相关的推荐工作中借鉴下经验。为什么用Attention 为什么要用attention？　　1）业务中的发现，用户的历史行为数据，并不都对每一次的点击做贡献，而是仅仅有一部分在起作用。这就很像attention了，告知某些点上是与当前的状态最相关的。　　举个栗子：一个爱好游泳的人，购...

2018-06-20 19:25:30 7068 5

原创如何用tf刚出一个高效的FM和DeepFM实操模型

前言大名鼎鼎的FM模型，在工程界内是很受欢迎的。本文将其在新闻CTR预估中的实践做简单总结，以飨读者。基础知识线性LR模型：y=w0+∑ni=1wixiy=w0+∑i=1nwixiy=w_0 + \sum_{i=1}^nw_i x_i FM：Factorization model，在线性模型LR的基础上，增加交叉组合特征，并用权重分解方法来解决稀疏特征的问题。 y=w0+∑ni...

2018-06-13 20:06:55 7417 2

原创多尺度问题解法小结

1）为对抗多尺度问题网络的图像输入，应该不拘泥于尺寸大小的才对，这是个朴素的想法。卷积操作对输入尺寸是无必须要求的，任意尺寸均可。但是如果加上全连接层，该层必须要求是固定尺寸的输入，那么问题就来了。怎么才能解决这种问题。 a) 将全连接去掉，对最后的feature-map做[1x1]的max-pooling，直接加softmax。这篇文章里[]，就是这么干的。 b) 在featur...

2018-06-09 21:26:47 5296

原创 R-CNN的进化之路

前言　　R-CNN(Reigions with CNN features)是老牌的目标检测算法，趁此机会一块总结下各个版本，R-CNN 2014 →→\rightarrow fast R-CNN 2015 →→\rightarrow faster R-CNN 2016，感受下逐步优化的思路。 R-CNN 　　R-CNN的主要思路是：先提取出候选检测区域，再用CNN提取各个候选区域的...

2018-05-20 12:33:00 930 6

原创闲话YOLO三部曲

前言　　YOLO最近又出了YOLO-V3，给实时目标检测带来了更强的推力，让我们看下YOLO从V1到V3的变迁，感受下作者在改进上的思路历程。目标检测　　通常的目标检测，是对图像中的物体识别类型，并指出该物体的位置（center_x, center_y, width, height）。比起普通的图像识别问题，难度明显增大，将物体识别和位置预测混到一起，更为棘手。针对这类问题，出现

2018-05-13 14:32:50 1344 1

原创对抗样本之黑箱对抗：Practical Black-Box Attacks Against Machine Learning

前言　　看到篇paper，提供了一个极其厉害的生成对抗样本的黑箱攻击方式，之前的对抗攻击必须要知道受攻击模型的详细信息（包括模型结构参数，训练样本集等），但是本文所要分享的方法，是完全不需要知道这些信息的，只需要可以接触到受攻击模型的判别label即可完成对抗攻击。多么神奇而牛气哄哄的方法，让我们一块膜拜下这篇文章，看看为什么会有效。攻击的限制面对的问题：　　在不知道受攻击模...

2018-04-15 18:08:49 5385 1

原创对抗样本之人机迁移：Adversarial Examples that Fool both Human and Computer Vision

前言　　Goodfellow、Elsayed团队又将对抗样本往前推进了一大步，产生了可以同时迷惑机器和人类的对抗样本，着实让人惊讶。主要是通过对机器识别模型产生迁移对抗样本，从而迷惑人类视觉，让我们看下具体是怎么做到的吧。

2018-03-18 16:43:30 1786

翻译实时风格迁移：Style Transfer in Real-Time

　　为啥最近总是翻译呢，新年刚过，注意力不能很集中~刚好这几篇博文的图很漂亮~ 　　翻译篇风格迁移实时计算相关的文章，原文这里　　在前面的博文里，已经了解风格迁移的基本思路是将一张图的风格迁移到另一张图内容上去。gatys方法的缺陷在于生成一张图片需要大量时间，每次风格迁移图的生成都要解决一个新的优化问题。下面每张图片大约需要2个小时左右在CPU上迭代1000次。　　　　问题来了，P...

2018-02-26 10:08:02 6403 4

翻译对抗样本之科普：attacking maching learning with adversarial examples

　　翻译一篇对抗样本的科普文章，原文这里。对抗样本　　对抗样本是攻击者故意设计出来引发机器学习模型误判的输入样本，就像是机器的幻视。本文将展示对抗样本如何通过不同的媒介起作用，并讨论为什么安全系统防御对抗样本是非常困难的。　　在OpenAI（就是造火箭的马斯克退出的那个AI公司）我们认为对抗样本是很值得研究的安全领域，鉴于其提供了可短期内解决的具体AI安全问题，并且修正难度足...

2018-02-24 09:54:56 2462

原创风格迁移

　　好久之前就想研究下风格迁移了，很酷炫的玩法~现在主要整理下风格迁移的基本方法，高分辨率的处理，以及计算效率问题。风格迁移　　既要保留原本图片的基本内容，又想将其他喜欢的绘画风格叠加上来，就像下面的例子：　　　　那么对喜欢的绘画风格，怎么将其风格，搬到另外一张图片上呢？ what is texture of a image? 　　texture of imag...

2018-02-22 17:20:54 9125

原创 CNN的隐层可视化

CNN的隐层到底是什么样子的？本博文主要讲解zerler提出的一种反卷积的技术，来可视化隐层内容。反卷积　　直接显示隐层值是不可观察的，如果能够反向映射到输入的像素空间内，岂不是很好，就可以从人的认识层面来可视化隐层的内容了。多么聪明地想法，剩下的问题就是如何由隐层反向计算到输入层。转置卷积　　将filter-bank直接转置，对feature-map做卷积计算，得到输入。　　注意：这里

2018-02-06 10:59:42 3503 1

原创 Network自身能力利用率问题

随笔　　大家在设计network时，更关注的是准确率什么的，但是一个好的network，不仅在准确率上是高的，而且自身结构上也是精简高效的。　　关于如何评价设计的网络结构是否发挥了最大的能效呢？下面介绍几个指标。 information density 　　Information density = accuracyparameters" role="presentation"

2018-02-01 17:39:58 550

原创从 dropout 到 Inception Network

前言　　乍看两者好像差的很远的样子，现梳理下Inception的发展脉络，发现其中还是有很深的渊源的。dropout是ensemble by training方法，maxout则在dropout的思路上，扩展出了新的approximate路子，对approx的进一步优化，则有了Network in Network，对特征的表达需求更高（也是对网络深度的探索），发展出了Inception Ne

2018-01-28 16:44:10 1152

原创 wide & Deep 和 Deep & Cross 及tensorflow实现

CSDN简直就是最烂的编辑器了，艹，两遍了，这篇文章被莫名覆盖掉！！！前言　　最近读了下Google的两篇文章《Wide&Deep Learning》和《Deep&Cross Network》，趁着热乎比较下，顺道写个demo，免得后面用的时候瞎搞。　　前者是用来给用户推荐潜在喜欢的APP；后者是用来预测用户可能点击的广告排序。基于用户基本信息和行为日志来做个性化的推荐，是商业化的重要一步，

2018-01-14 16:20:32 23964 17

原创不同loss函数在不同网络结构下的误差后传

前言　　推导下最小均方差（MSE）和交叉熵（CE）两种loss函数的导数，看看还是否满足误差后传的原则？有什么区别？　　在一般地网络结构下是怎么样的？在CNN下又是怎么推导的？直接讨论多元判别的情况，二元读者自行推导。 MSE & CE 　　上个小图，说明下最后输出结构及两种loss的形式。　　MSE的思路：是不管哪个输出维度，都想尽量靠近。　　CE的思路：只将样本集出现的概率最大化。交

2017-12-22 20:07:13 1885

ollyday.exe

空空如也