5 lpty

尚未进行身份认证

我要认证

走进科学

等级
TA的排名 1w+

Siamese CBOW: Optimizing Word Embeddings for Sentence Representations

引言Siamese CBOW,来自Tom Kenter等的于2016年发的论文:Siamese CBOW: Optimizing Word Embeddings for Sentence Representations作者提到,当前的很多句向量的表示方法都是简单的用词向量的加和平均,这种方法表现出一定的有效性,但是并没有针对特定任务的句向量进行优化的方法。因此本文提出一种训练句向量的方法,借...

2019-04-15 17:29:48

DECOUPLED WEIGHT DECAY REGULARIZATION

引言Adam作为一个常用的深度学习优化方法,提出来的时候论文里的数据表现都非常好,但实际在使用中发现了不少问题,在许多数据集上表现都不如SGDM这类方法。后续有许多工作针对Adam做了研究,之前整理过关于优化算法的发展历程:从Stochastic Gradient Descent到Adaptive Moment Estimation,里面也介绍了一些对于Adam效果不好的研究工作。这篇论文依...

2019-04-09 17:20:59

Reducing BERT Pre-Training Time from 3 Days to 76 Minutes

引言Bert在工业使用中表现相当优异,但是预训练时间非常的长。Bert的作者公开的记录是用了16块TPU训练了三天。本论文就是针对训练时间上进行的优化,提出了LAMB优化方式,在不损失训练精度的情况下,将BERT的训练时间缩短到了76分钟,如下:

2019-04-09 11:24:08

Deep contextualized word representations

引言 这是2018年NAACL上的Best Paper,即是大名鼎鼎的ELMo,原文地址:https://arxiv.org/pdf/1802.05365.pdf对比传统Word2Vec这种形式的词向量,本文提出的模型是一种动态模型。在以往的词向量表示中,词都是一种静态的形式,无论在任何的上下文中都使用同一个向量。这种情况下很难表示一词多义的现象,而ELMo则可以通过上下文动态生成词向量,从理论上会是更好的模型,从实测效果来看在很多任务上也都达到了当时的SOTA成绩。

2019-04-04 09:49:04

Identity Mappings in Deep Residual Networks

引言ResNet来自2015年he等人的paper:Deep Residual Learning for Image Recognition

2019-03-21 10:23:36

从Stochastic Gradient Descent到Adaptive Moment Estimation

引言深度学习优化算法,基本的发展历程就是:SGD -> SGDM -> NAG ->AdaGrad -> AdaDelta -> Adam -> Nadam当说到优化算法时,我们说的是什么?优化算法对于优化算法,给定一个具有参数θ的目标函数,一般会定义为损失函数,

2019-02-18 14:47:25

Taylor Formula与Gradient Descent

Taylor Formula泰勒公式,它的一般形式如下:一般希望将复杂形式的函数用较为简单的方式来表示,另一种表述便是,用量上的复杂来解决质上的困难。那为什么泰勒展开式是这种形式的?上面说要用简单的形式表示复杂函数,那么如何选择表达式呢?类比切圆法,是不是可以用局部的线性近似来表示整体,假如有函数y=x3y=x^3y=x3,自变量的变化量为ΔxΔxΔx,则:Δy=(x+Δx)3−x3=...

2019-02-15 15:14:00

Internal Covariate Shift与Normalization

引言Batch norm在深度学习中已经是一个常用且有效的方法,用来加速网络收敛及防止梯度消失等神经网络常见的问题,那么batch norm为什么有效呢?从源头出发,神经网络难以训练的原因是什么?Internal Covariate Shift深度神经网络涉及到很多层的叠加,而每一层的参数更新会导致上层的输入数据分布发生变化,通过层层叠加,高层的输入分布变化会非常剧烈,这就使得高层需要不...

2019-02-13 15:02:39

An Information Retrieval Approach to Short Text Conversation

引言Hang Li 等发在2014年arxiv上的文章,原文地址:https://arxiv.org/pdf/1408.6988.pdf基于新浪微博的数据集做的短文本单轮QA,从论文名可以看到,这是基于检索的方式做的,作者称之为short text conversation (STC)。大概流程是先做Retrieval召回candidate pairs,之后对待定数据做人工标注,再对candi...

2019-02-01 17:10:34

Protege、D2RQ、JENA与SPARQL

引言关于的知识图谱的相关概念在从语义网络到知识图谱这篇博文中有简单的描述,下面介绍一下在知识图谱实际使用中的一些工具。数据来源于The Movie Database (TMDb)抓取的电影数据,统计如下:演员数量:505人电影数量:4518部电影类型:19类人物与电影的关系:14451电影与类型的关系:7898演员的基本信息包括:姓名、英文名、出生日期、死亡日期、出生地、...

2019-01-25 19:12:58

从语义网络到知识图谱

引言知识图谱,目前来说也没有一个特别明确的定义,“Exploiting Linked Data and Knowledge Graphs in Large Organisations”书中的描述如下:A knowledge graph consists of a set of interconnected typed entities and their attributes.在我的另一...

2019-01-24 17:07:16

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

引言Google在2018年发出来的论文,原文地址:BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

2019-01-15 19:29:32

Some papers about NLP

Attention1、Neural Machine Translation by Jointly Learning to Align and Translate2、Effective Approaches to Attention-based Neural Machine Translation3、ABCNN: Attention-Based Convolutional Neural Net...

2019-01-14 19:38:44

从Word Embedding到Bert模型—自然语言处理中的预训练技术发展史

原文:张俊林–从Word Embedding到Bert模型—自然语言处理中的预训练技术发展史引言Bert最近很火,应该是最近最火爆的AI进展,网上的评价很高,那么Bert值得这么高的评价吗?我个人判断是值得。那为什么会有这么高的评价呢?是因为它有重大的理论或者模型创新吗?其实并没有,从模型创新角度看一般,创新不算大。但是架不住效果太好了,基本刷新了很多NLP的任务的最好性能,有些任务还被刷爆...

2019-01-11 19:55:50

Attention Is All You Need

引言google 在2017年发布的一篇论文,即是transformer,原文地址:Attention Is All You Need

2019-01-07 21:59:16

ABCNN: Attention-Based Convolutional Neural Network for Modeling Sentence Pairs

引言Wenpeng Yin等发表在arXiv上的论文,原文地址:地址这应该是第一篇提出Attention用于CNN的文章,主要用来解决句子对的问题,作者在answer selection (AS),、paraphrase identification(PI)、textual entailment (TE)三个任务上进行实验,均取得了不错的结果。模型...

2019-01-02 17:36:34

Effective Approaches to Attention-based Neural Machine Translation

引言Minh-Thang Luong等在2015年arXiv上的论文,原文地址:地址这是继Bahdanau提出attention用于NLP的后续工作,作者提出了两种新的,相对于前面工作简单但有效的网络,一种称为global方法,实现上与Bahdanau使用的方式很相似,在每一次生成目标词时,都需要所有对源语句隐藏状态计算相似度,但相对来说更为直接简单;另一种称为local方法,不同的是在计算时...

2018-12-28 10:45:54

Neural Machine Translation by Jointly Learning to Align and Translate

引言Dzmitry Bahdanau等人在2016年arXiv上的paper,原文地址arXiv:1409.0473v7 [cs.CL] 19 May 2016这篇应该是最早将Attention机制用到NLP中的论文,作者提到神经网络机器翻译的目标是训练一个单一庞大的网络去直接生成翻译结果,相比统计机器翻译由各个小组件进行结合有很大不同。而一般的神经网络机器翻译模型都是由一个encoder与...

2018-12-19 17:33:04

A Convolutional Neural Network for Modelling Sentences

引言Nal Kalchbrenner等人在2014年arXiv上的paper,原文地址:arXiv:1404.2188v1 [cs.CL] 8 Apr 2014。自然语言处理的基础问题在于句子的语义表示,其他特定的任务如分类等都是在语义表示的基础上进行高层次的处理,所以如何对句子进行表达就成为了核心问题。针对目前存在的模型,作者提出了DCNN–Dynamic Convolutional Ne...

2018-12-11 23:53:30

Recurrent Neural Network for Text Classification with Multi-Task Learning

引言Pengfei Liu等人在2016年的IJCAI上发表的论文,论文提到已存在的网络都是针对单一任务进行训练,但是这种模型都存在问题,即缺少标注数据,当然这是任何机器学习任务都面临的问题。为了应对数据量少,常用的方法是使用一个无监督的预训练模型,比如词向量,实验中也取得了不错的效果,但这样的方法都是间接改善网络效果。作者提出了一种新的方法,将多个任务联合起来训练,用来直接对网络进行改善,...

2018-12-05 17:34:04

查看更多

CSDN身份
  • 博客专家
勋章 我的勋章
  • GitHub
    GitHub
    绑定GitHub第三方账户获取
  • 专栏达人
    专栏达人
    授予成功创建个人博客专栏的用户。专栏中添加五篇以上博文即可点亮!撰写博客专栏浓缩技术精华,专栏达人就是你!
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv1
    勤写标兵Lv1
    授予每个自然周发布1篇到3篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。