张雨石-CSDN博客

原创迁移到微信公众号的通知

后续的关于Transformer、Bert、Tensorflow以及编程、见识等方面的文章还有很多，欢迎关注我的微信公众号获取。

2020-07-27 11:31:29 831

广告推荐算法系列文章：莫比乌斯: 百度的下一代query-ad匹配算法百度凤巢分布式层次GPU参数服务器架构DIN: 阿里点击率预估之深度兴趣网络基于Delaunay图的快速最大内积搜索算法DIEN: 阿里点击率预估之深度兴趣进化网络EBR: Facebook基于向量的检索阿里巴巴电商推荐之十亿级商品embeddingOverall这篇文章所介绍的模型，用于在用户没有输入搜索词来表达意图的时候，给用户推荐商品的场景。这里的收费方式一般是CPC，即Cost per Click，每次点击收

2020-10-28 11:17:26 1551 1

原创 DIN: 阿里点击率预估之深度兴趣网络

广告推荐算法系列文章：莫比乌斯: 百度的下一代query-ad匹配算法百度凤巢分布式层次GPU参数服务器架构DIN: 阿里点击率预估之深度兴趣网络DIEN: 阿里点击率预估之深度兴趣进化网络本文的知识点来源于参考文献[1]，是阿里巴巴2018年在KDD上的论文。本文可以视为Attention机制在推荐系统上的应用。对Attention机制不了解的同学可以看下面的文章进行学习。Transformer: Attention的集大成者Bert系列背景-推荐模型正如我们在分布式层次GPU参

2020-10-20 17:22:46 947

原创 Federated Learning: 问题与优化算法

工作原因，听到和使用Federated Learning框架很多，但是对框架内的算法和架构了解不够细致，特读论文以记之。这个系列计划要写的文章包括：Federated Learning: 问题与优化算法Federated Learning: 架构OverallFederated Learning, 中文翻译是联合学习，或者很多人翻译成联邦学习，是一种在移动端训练模型的框架。不知为何，翻译成联邦学习总让我有点笑场，就像one-hot编码被翻译成独热编码一样。难不成以后还有帝国学习，共和国学习

2020-10-20 17:06:30 2626 2

原创 Transformer优化之稀疏注意力

最近要开始使用Transformer去做一些事情了，特地把与此相关的知识点记录下来，构建相关的、完整的知识结构体系。以下是要写的文章，文章大部分都发布在公众号【雨石记】上，欢迎关注公众号获取最新文章。Transformer:Attention集大成者GPT-1 & 2: 预训练+微调带来的奇迹Bert: 双向预训练+微调Bert与模型压缩Bert与模型蒸馏：PKD和DistillBertALBert: 轻量级BertTinyBert: 模型蒸馏的全方位应用MobileBert:

2020-10-01 10:12:43 5529 1

原创 Roberta: Bert调优

2020-09-30 12:02:24 2286

原创莫比乌斯: 百度的下一代query-ad匹配算法

本文介绍的内容来自于百度在KDD2019上的论文[1].众所周知，百度、头条乃至于Google、Facebook的主要营收点在广告。广告业务的成败关系着众多互联网公司的生死。由于广告存量的巨大，目前的需求是平均每次query需要从上亿的广告中筛选出相关的出来。因而目前百度现在的广告匹配算法采取三层结构：当用户进行查询的时候，跟Search类似，需要对query做后处理，包括query rewriting、query expansion和semantic matching。然后使用快速查询的算法在上

2020-09-29 00:11:25 619

原创 Electra: 判别还是生成，这是一个选择

2020-09-29 00:00:12 606

原创 Bert: 双向预训练+微调

2020-09-28 23:49:22 2827 1

原创 GPT-1 & 2: 预训练+微调带来的奇迹

2020-09-28 23:29:24 2723 1

原创 Transformer: Attention的集大成者

最近要开始使用Transformer去做一些事情了，特地把与此相关的知识点记录下来，构建相关的、完整的知识结构体系，以下是要写的文章，本文是这个系列的第一篇, 目前已有其他篇章放在公众号【雨石记】上，欢迎点击下面目录任何一个链接转往公众号：Transformer:Attention集大成者GPT-1 & 2: 预训练+微调带来的奇迹Bert: 双向预训练+微调Bert与模型压缩Bert与模型蒸馏：PKD和DistillBertALBert: 轻量级BertTinyBert: 模型

2020-08-29 00:07:16 701

原创炼丹术的终结二——可迁移结构学习

本文首发于我的知乎专栏深度学习与计算机视觉, 欢迎关注，最新内容抢先看。上一文中介绍了如何用控制器（LSTM）搜索CNN网络和LSTM网络结构，从而生成出不逊于人类手工设计的网络结构。方法虽然已经work了，但是由于需要生成的参数很多，导致最后的网络结构的搜索空间非常的大，以至于非常耗时，在一个小的数据集上仍然需要800个GPU并行运算数天乃至一周之多。为了解决这个问题，文献[1]中提出了一种降...

2019-12-29 15:05:14 604

原创炼丹术的终结——神经网络结构搜索之一

深度学习在2010年燃起来以后，较大的革新集中出现在网络结构上。例如，在图像领域，出现了AlexNet, VGG, GoogNet, Inception系列，Res-Net，DenseNet和MobileNet等不同的卷积神经网络；在文本处理领域，出现了RNN，GRU，LSTM等不同的循环神经网络结构。再加上在不同的网络结构中的调参（层数，每层的单元数，卷积核的大小，卷积核的stride的大小等等...

2018-04-10 00:23:14 11880 3

原创看图说话——CNN和LSTM的联合应用

看图说话是深度学习波及的领域之一。其基本思想是利用卷积神经网络来做图像的特征提取，利用LSTM来生成描述。但这算是深度学习中热门的两大模型为数不多的联合应用了。本文是参考文献[1]的笔记，论文是比较早的论文，15年就已经发表了，不新。但还是想写下来它的细节以备后用。关于CNN(卷积神经网络)和LSTM(长短期记忆网络)的细节，本文不再赘述其细节。读者们需要了解的是：卷积神经网络是一种

2018-01-21 00:37:12 96849 7

原创 StarGAN-多领域图像翻译

Pix2Pix模型解决了有Pair对数据的图像翻译问题；CycleGAN解决了Unpaired数据下的图像翻译问题。但无论是Pix2Pix还是CycleGAN，都是解决了一对一的问题，即一个领域到另一个领域的转换。当有很多领域要转换了，对于每一个领域转换，都需要重新训练一个模型去解决。这样的行为太低效了。本文所介绍的StarGAN就是将多领域转换用统一框架实现的算法。

2017-12-18 00:50:56 32965 7

原创 CycleGAN-Unpaired图像翻译

在Pix2Pix中，输入图像数据都是成对的。但在现实生活中，两个不同领域的图像很难有成对的。莫奈的画很好，但莫奈永远也画不出21世纪的样子，那么要想让21世纪的图像变成莫奈风格，就必须用到无pair数据。在语言翻译中，常用的假设是Cycle一致性，即X语言翻译到Y语言在翻译回X语言，应该和初始的表达是一致的。而一言以蔽之，本文介绍的CycleGAN算法就是基于Cycle一致性来解决Unpaired图像翻译问题。

2017-12-17 01:30:49 10815 4

原创 Pix2Pix-基于GAN的图像翻译

语言翻译是大家都知道的应用。但图像作为一种交流媒介，也有很多种表达方式，比如灰度图、彩色图、梯度图甚至人的各种标记等。在这些图像之间的转换称之为图像翻译，是一个图像生成任务。多年来，这些任务都需要用不同的模型去生成。在GAN出现之后，这些任务一下子都可以用同一种框架来解决。这个算法的名称叫做Pix2Pix，基于对抗神经网络实现。

2017-12-16 16:49:21 73447 7

原创 GAN之根据文本描述生成图像

GAN[2,3]的出现使得图像生成任务有了长足的进步。一些比较好玩的任务也就应运而生，比如图像修复、图像超清化、人脸合成、素描上色等。今天我们将介绍一种更加复杂的应用，那就是基于文本生成图像。

2017-11-19 16:47:03 38807 2

原创看得“深”、看得“清” —— 深度学习在图像超清化的应用

日复一日的人像临摹练习使得画家能够仅凭几个关键特征画出完整的人脸。同样地，我们希望机器能够通过低清图像有限的图像信息，推断出图像对应的高清细节，这就需要算法能够像画家一样“理解”图像内容。至此，传统的规则算法不堪重负，新兴的深度学习照耀着图像超清化的星空。

2017-04-21 13:34:01 21423 4

原创基于深度学习的图像语义编辑

深度学习在图像分类、物体检测、图像分割等计算机视觉问题上都取得了很大的进展，被认为可以提取图像高层语义特征。基于此，衍生出了很多有意思的图像应用。

2017-04-12 23:24:39 20096 7

原创卷积“换脸”

卷积“换脸”图像风格转换[1][2][3]在效果上的成功，使得研究者们开始拓展它的应用范围，换脸就是其中之一。在图像风格转换算法框架下，如果将风格图像换做目标人脸，那么就有可能将图像中的人脸换掉。由于图像风格转换的算法框架下是语义级别的图像内容操作，因而，在图像风格转换框架下的换脸可以达到原图的表情、肤色、光照不变。

2017-04-04 20:37:11 17268 7

原创深度学习之图像修复

图像修复问题就是还原图像中缺失的部分。基于图像中已有信息，去还原图像中的缺失部分。从直观上看，这个问题能否解决是看情况的，还原的关键在于剩余信息的使用，剩余信息中如果存在有缺失部分信息的patch，那么剩下的问题就是从剩余信息中判断缺失部分与哪一部分相似。而这，就是现在比较流行的PatchMatch的基本思想。

2017-03-19 18:25:44 65802 35

原创卷积新用之语言模型

长期以来，基于LSTM的深度学习算法由于可以对任意长度的上下文进行建模而盘踞在自然语言处理界的山顶。卷积神经网络虽然蠢蠢欲动，却始终不得其法。而今，这个在CV上嚣张拨扈的东西终于把手伸到了NLP界，而且是在最basic的语言模型问题上。

2017-02-12 20:32:42 8004

原创基于MRF和CNN的图像生成

论文将MRF和CNN结合起来，把[2]的Gram矩阵用MRF Loss进行了替代。即能利用CNN抽象特征的提取能力，又能利用MRF的空间布局限制，提高了生成图像的质量。

2017-01-07 14:47:30 12544

原创感知损失(Perceptual Losses)

图像风格转换算法将图片生成以生成的方式进行处理，如风格转换，是从一张噪音图（相当于白板）中得到一张结果图，具有图片A的内容和图片B的风格。而Perceptual Losses则是将生成问题看做是变换问题。即生成图像是从内容图中变化得到。

2017-01-04 22:36:29 69964 6

原创深度卷积对抗生成网络(DCGAN)

卷积神经网络在有监督学习中的各项任务上都有很好的表现，但在无监督学习领域，却比较少。本文介绍的算法将有监督学习中的CNN和无监督学习中的GAN结合到了一起。

2016-12-25 20:31:35 97045 10

原创面朝大海——我的2016

终于，当我坐下回味的时候，我也有了我要怀念的事物，想象中的过去，总是那么的美好。快乐是美好的，激动是美好的，甚至痛苦是美好的，消沉也是美好的。2016，教给我的，就是面朝大海，吞吐一切。别人自有别人的辉煌风光，而我活出了自己的波澜壮阔。

2016-12-25 14:11:40 8936 9

原创图像风格转换(Image style transfer)

图像风格转换是最近新兴起的一种基于深度学习的技术，它的出现一方面是占了卷积神经网络的天时，卷积神经网络所带来的对图像特征的高层特征的抽取使得风格和内容的分离成为了可能。另一方面则可能是作者的灵感，内容的表示是卷积神经网络所擅长，但风格却不是，如何保持内容而转换风格则是本文所要讲述的。

2016-12-20 23:39:41 60529 5

原创对抗生成网络（Generative Adversarial Net)

现在，生成模型还没有体会到深度学习的利好，在Discriminative模型上，成果如雨后春笋，但在生成模型上，却并非如此。原因如下：- 在最大似然估计及相关策略上，很多概率计算的模拟非常难- 将piecewise linear units用在生成模型上比较难那么，是不是生成模型就借不了深度学习发展的东风了呢？我只能说，有的时候，不得不曲线救国。

2016-11-13 19:59:45 68698 7

原创我的硬汉观——《丧钟为谁而鸣》读书感悟

谁都不是一座岛屿，自成一体；每个人都是欧洲大陆的一小块，那本土的一部分；如果一块泥巴被海浪冲掉，欧洲就小了一点，如果一座海岬，如果你的朋友或你自己的庄园被冲掉，也是如此；任何人的死亡使我有所缺损，因为我与人类难解难分；所以千万不必去打听丧钟为谁而鸣；丧钟为你而鸣。

2016-07-10 23:04:01 10085 3

原创 tensorflow架构

TensorFlow，以下简称TF，是Google去年发布的机器学习平台，发布以后由于其速度快，扩展性好，推广速度还是蛮快的。江湖上流传着Google的大战略，Android占领了移动端，TF占领神经网络提供AI服务，未来的趋势恰好是语音图像以及AI的时代，而Google IO上发布的Gbot似乎正是这一交叉领域的初步尝试。

2016-06-12 12:49:08 63443 9

原创 ReLU上的花样

ReLU的有效性体现在两个方面：克服梯度消失的问题加快训练速度而这两个方面是相辅相成的，因为克服了梯度消失问题，所以训练才会快。

2016-05-15 22:22:09 13192

原创美国MTV之行

世界很大，有无限的可能性。这句话是真的。——题记一世界很神奇，存在着另一个国度，说的语言不一样，拥有的文化不一样，社会情境也不一样，生活习惯也不一样，这本身就是足以令人震撼的事情。关键是它目前还是最先进最强大的国家。所以这次出行，我是抱着朝圣之心去的，无论是去公司总部还是去这个国家。——题记二

2016-05-08 18:35:16 6988 13

原创 parameter_server架构

现在的机器学习系统，但凡是大一点的公司，恐怕都在用分布式了。而在分布式机器学习领域，最出名的恐怕就是少帅的PS框架了。读了一些原始论文，我试着来理解一下。

2016-04-25 14:06:37 21516 2

原创奇葩的非理性

自从看了《暗时间》之后，一直对心理学念念不忘，我觉得人生要经常进行思考，思考万物，思考自己。而我想看心理学就是想掌握一种自我分析的工具，思考的多了，就知道自己想的是什么，但自己为什么这么想却不得而知。直到今天我看了一本书——《怪诞行为学》，是一本将经济学同心理学结合到一起的书，非常受启发，解释了很多我平时觉得很奇怪的事情.

2016-04-18 13:26:54 2137 1

原创 Inception in CNN

之前也写过GoogLeNet的笔记，但那个时候对Inception有些似懂非懂，这周重新看了一遍，觉得有了新的体会，特地重新写一篇博客与它再续前缘。

2016-04-03 23:57:28 55926 13

原创决策森林和卷积神经网络二道归一

现在有很多人认为神经网络可以和人脑中的机制相似。我却认为，或许人脑中有的机制与此类似，但一定是一个复杂的系统。但我们其实可以完全不必模仿人脑的构造，因为人工建立的智能一定比人脑在各个方面都要强上百倍，也正如学飞行不能看雄鹰振翅而是空气动力学一样。因为我的如此认识，所以当我看到有一片论文是将决策森林和卷积神经网络糅合到一起的时候，我感觉到`something is more close.`

2016-03-27 19:04:35 14042 2

原创二值神经网络（Binary Neural Network，BNN）

在我刚刚过去的研究生毕设中，我在ImageNet数据集上验证了图像特征二值化后仍然具有很强的表达能力，可以在检索中达到较好的效果。而Bengio大神的这篇文章，则不止于将特征二值化，而是要将权重和每层的激活值统统二值化。相比于非二值化的网络，将大量的数学运算变成了位操作。这样就节省了大量的空间而前向传播的时间，使神经网络的应用门槛变得更低。

2016-03-18 20:00:37 58898 17

原创 Learning to Rank简介

机器学习有三大问题，分类、回归和排序。分类和回归之前了解了很多的算法，但排序还没有深入的了解过。本文对排序的诸多算法做一个阐述。

2016-03-13 18:17:28 4793 1

原创街拍衣饰搜索

问题定义如下，就是街拍图片到商店图片的品牌精准搜索。

2016-03-13 10:23:52 2787

论文笔记_一种结合推荐对象间关联关系的社会化推荐算法

本资源是论文《一种结合推荐对象间关联关系的社会化推荐算法》的笔记。该论文提出的算法是以PMF为框架基础的。资源包括两个文件，分别对应博客http://blog.csdn.net/stdcoutzyx/article/details/21416809和http://blog.csdn.net/stdcoutzyx/article/details/21347157

2014-03-17

机器学习公开课笔记1-12

本资源是机器学习公开课笔记的pdf版。其内容均已发表到blog中，blog地址：http://blog.csdn.net/stdcoutzyx。资源中包含1-12的课程内容。

2014-02-22

斯坦福机器学习公开课6-8

内含三个pdf文件，分别在博客http://blog.csdn.net/stdcoutzyx中有对应的文章，主要讲述了支持向量机的内容，包括最优间隔分类器、对偶问题、序列最小化算法等等，另外，笔记6中还包括了部分朴素贝叶斯和神经网络的内容。

2013-08-06

斯坦福机器学习公开课笔记1-5

来源于博客：http://blog.csdn.net/xinzhangyanxiang/article/details/9285001，汇总了五篇博文，主要针对斯坦福ML公开课的1-5

2013-07-09

常用linux命令小结

我自己总结的linux常用命令，来源于日常积累的各种网页博客。因为不耐烦反复的查，索性自己总结了一个pdf，里面包括常用的linux命令，包括gcc,grep,tar,sed,find,screen,nohup,scp等，另外还有一些常用的文本处理命令如cat，split，head，tail，uniq，wc,more,less等。

2013-06-01