liuy9803-CSDN博客

原创论文阅读——“Bilingual Expert” Can Find Translation Errors

https://www.researchgate.net/publication/326621822_Bilingual_Expert_Can_Find_Translation_Errors“双语专家”可以发现翻译错误Github：https://github.com/lovecambi/qebrainAbstract...

2020-07-13 16:25:37 840

原创论文阅读——A Simple and Effective Approach to Automatic Post-Editing with Transfer Learning

https://www.aclweb.org/anthology/P19-1292.pdf一个简单有效的迁移学习自动后编辑方法Github：https://github.com/deep-spin/OpenNMT-APE

2020-06-26 18:13:17 1167

原创论文阅读——用于自动后编辑的单语和双语神经机器翻译模型的对数线性组合

Log-linear Combinations of Monolingual and Bilingual Neural Machine Translation Models for Automatic Post-Editinghttps://arxiv.org/pdf/1605.04800.pdf本文介绍了AMU (Adam Mickiewicz University) 团队提交的 WMT 2016 自动后编辑 APE 任务，探索神经翻译模型在 APE 中的应用，使用不同的模型作为对数线性.

2020-05-22 00:21:05 921 1

原创论文阅读——Pushing the Limits of Translation Quality Estimation

https://www.aclweb.org/anthology/Q17-1015.pdf挑战翻译质量评估的极限Github：https://github.com/Unbabel/OpenKiwi翻译质量评估可以极大减少后编辑工作，本文使用单词级质量评估和自动后编辑之间的协同，将一个新模型堆叠到具有丰富特征的单词级质量评估系统中，使用自动后编辑系统的输出作为一个额外的功能，取得了非常好的效果，在 WMT16 单词级 F1^MULT 为57.47%（比 sota 增加了7.95%），句子级 .

2020-05-19 10:23:20 676

原创论文阅读——Predictor-Estimator using Multilevel Task Learning with Stack Propagation for Neural QE

https://www.aclweb.org/anthology/W17-4763.pdf使用多任务学习与堆栈传播的质量估计方法Predictor-EstimatorGithub：https://github.com/Unbabel/OpenKiwi两段神经网络 QE 模型，多任务学习估计句子、单词和短语的翻译质量，基于端到端的堆叠神经模型 Predictor-Estimator，训练时使用 stack propagation，可以在单一模式下联合训练单词预测模型和 QE 模型。Pr..

2020-05-15 11:33:59 812

原创 OpenKiwi 使用的 QE 系统

QUETCHQUality Estimation from scraTCHhttp://www.statmt.org/wmt15/pdf/WMT37.pdf模型输入：对于 MT 中的每个单词，围绕该单词固定大小的窗口，与源句中对齐单词的窗口相连接，得到该目标单词的双语上下文向量。模型结构：单隐层 MLP，lookup 得到词向量（训练中更新），激活函数为 tanh。模型输出：softmax 计算每个单词的 OK/BAD 的概率，该模型单独训练以预测源句标签、gap 标签和目标标签。

2020-05-12 00:40:19 700

原创论文阅读——Automatic Testing and Improvement of Machine Translation

https://arxiv.org/pdf/1910.02688.pdf机器翻译的自动测试和改进Github：https://github.com/zysszy/TransRepair（无代码）本文提出一种测试和修复机器翻译系统一致性的自动方法——TransRepair，在没有标准翻译的情况下，结合 metamorphic testing 蜕变测试的 mutation 变化检测不...

2020-05-09 01:32:45 796

原创论文阅读——OpenKiwi: An Open Source Framework for Quality Estimation

https://arxiv.org/pdf/1902.08646.pdfOpenKiwi：一个用于质量评估的开源框架Github：https://github.com/Unbabel/OpenKiwiOpenKiwi 是一个用于翻译质量评估的开源 Pytorch 框架，支持单词级和句子级质量评估系统的训练和测试，实现了 WMT 2015-18 中一些获奖的质量评估系统。使用 WM...

2020-05-07 15:17:04 864

原创论文阅读——Structure-Invariant Testing for Machine Translation

https://arxiv.org/pdf/1907.08710.pdf机器翻译的结构不变测试Github：https://github.com/PinjiaHe/StructureInvariantTesting神经机器翻译 NMT 模型的复杂性和难解性使得它们远远不够健壮，这个问题也没有得到充分的研究。因此作者引入 structure-invariant testing 结构...

2020-05-05 10:11:49 1056

原创论文阅读——A Call for Clarity in Reporting BLEU Scores

https://arxiv.org/pdf/1804.08771v1.pdfGithub：https://github.com/awslabs/sockeye/tree/master/contrib/sacrebleu由于在不同的环境下经常产生新的测试集，机器翻译领域面临着新的挑战，而且在如何进行度量评价方面缺乏共识。常用的 BLEU score 会随着 parameterizati...

2020-05-02 23:29:46 956

原创论文阅读——A Study of Cross-Lingual Ability and Language-specific Information in Multilingual BERT

https://arxiv.org/pdf/2004.09205.pdf多语言BERT中跨语言能力和语言特定信息的研究（未开源）Multilingual BERT (m-BERT Devlin et al., 2019) 在跨语言迁移任务中表现很好，优于静态非上下文词嵌入。比较相同数据的非上下文和上下文模型的跨语言性能，发现影响迁移性的关键因素是数据集和上下文窗口大小。观察多语 BE...

2020-04-28 18:33:57 856

原创论文阅读——Testing Machine Translation via Referential Transparency

https://arxiv.org/pdf/2004.10361.pdf通过引用透明性测试机器翻译Github：https://github.com/ReferentialTransparency/RTI（无代码）由于神经网络的复杂性和难解性，现代机器翻译软件还远远不够健壮，因此作者引入一种简单而广泛用于验证机器翻译软件的方法 referentially transparent ...

2020-04-28 00:55:11 995

原创论文阅读——Topic Modeling in Embedding Spaces

https://arxiv.org/pdf/1907.04907.pdf嵌入空间中的主题建模Github：https://github.com/adjidieng/ETM

2020-04-23 18:21:08 2995 1

原创论文阅读——Learning Contextualized Sentence Representations for Document-Level Neural Machine Translation

https://arxiv.org/pdf/2003.13205.pdf学习文档级神经机器翻译的上下文句子表征（未开源）

2020-04-15 10:40:36 538

原创论文阅读——Aligned Cross Entropy for Non-Autoregressive Machine Translation

https://arxiv.org/pdf/2004.01655.pdf对齐交叉熵的非自回归机器翻译（未开源）非自回归机器翻译模型对整个目标序列进行并行预测，极大地提高了解码速度。然而由于模型中缺少自回归因子，难以对词序建模，且交叉熵损失会严重影响词序的微小变化，因此作者提出使用 aligned cross entropy 对齐交叉熵 AXE 作为非自回归模型的损失函数，AXE 使用...

2020-04-14 18:04:45 1081

原创论文阅读——Unsupervised Neural Machine Translation with Indirect Supervision

https://arxiv.org/pdf/2004.03137.pdf带有间接监督的无监督神经机器翻译（未开源）

2020-04-13 15:49:07 528

原创论文阅读——面向任务的对话中无监督度量的相关性对自然语言生成的评估

Relevance of Unsupervised Metrics in Task-Oriented Dialogue for Evaluating Natural Language Generationhttps://arxiv.org/pdf/1706.09799.pdf实现地址：https://github.com/Maluuba/nlg-eval...

2020-04-07 17:50:06 638

原创论文阅读——Transformer++

Transformer++https://arxiv.org/pdf/2003.04974.pdf

2020-03-26 17:28:35 1435

原创论文阅读——使用聚类评估LDA的稳定性并提高其可靠性

Improving Reliability of Latent Dirichlet Allocation by Assessing Its Stability Using Clustering Techniques on Replicated Runshttps://arxiv.org/pdf/2003.04980.pdf实现地址：https://github.com/JonasRiege...

2020-03-19 17:12:05 1647

原创论文阅读——DYNAMIC EVALUATION OF NEURAL SEQUENCE MODELS

https://arxiv.org/pdf/1709.07432.pdf神经序列模型的动态评估方法实现地址：https://github.com/benkrause/dynamic-evaluation作者提出一种使用动态评价改进神经序列模型的方法，模型使用梯度下降来适应最近的序列，从而使它们为再次发生的序列模式 patterns 分配更高的概率。动态评估将 Penn Treeb...

2020-03-17 00:48:01 496

原创论文阅读——使用自训练方法在句子级NMT捕获文档上下文

Capturing document context inside sentence-level neural machine translation models with self-traininghttps://arxiv.org/pdf/2003.05259.pdf（未开源）句子级NMT已经接近人类水平，但是通过翻译单个句子来翻译文档会导致有歧义但语法上有效的文本。而文档级...

2020-03-15 23:30:39 451

原创论文阅读——Temporal Convolutional Attention-based Network For Sequence Modeling

https://arxiv.org/pdf/2002.12530.pdf代码：https://github.com/haohy/TCAN用于序列建模的基于注意力的时序卷积网络作者提出一种时序卷积注意力网络 Temporal Convolutional Attention-based Netword（TCAN），包括两部分：Temporal Attention（TA）捕捉序列内部的...

2020-03-12 22:23:45 6013 4

原创论文阅读——INCORPORATING BERT INTO NEURAL MACHINE TRANSLATION

https://openreview.net/pdf?id=Hyl7ygStwB将BERT引入机器翻译代码：https://github.com/bert-nmt/bert-nmtBERT在文本分类、阅读理解等多种NLP任务上都显示出了强大的能力。然而，如何将BERT有效应用于NMT还缺乏足够的探索。作者提出了 BERT-fused model，首先使用BERT提取输入序列的表征...

2020-03-10 23:58:37 2232

原创论文阅读——Dual Learning for Machine Translation

https://arxiv.org/pdf/1611.00179.pdf用于机器翻译的双重学习Github：https://github.com/microsoft/DualLearning https://github.com/yistLin/pytorch-dual-learning论文提出一种双重学习机制，可以从无标记的数据中自动学习，解决了人工标记...

2020-03-09 18:37:59 842

原创论文阅读——Deliberation Networks: Sequence Generation Beyond One-Pass Decoding

用于序列生成的推敲网络（未开源）http://papers.nips.cc/paper/6775-deliberation-networks-sequence-generation-beyond-one-pass-decoding.pdf传统的Encoder-Decoder框架在解码和生成序列的过程中只采用一次（one-pass）正向传播过程，缺乏推敲（deliberation）的过...

2020-03-09 00:49:13 1119

原创机器翻译评测——NIST算法及安装

Windows环境首先安装Cygwin https://cygwin.com/install.htmlCygwin能在Windows环境下模拟UNIX/Linux环境编程，比安装虚拟机节省储存空间。下载-选联网安装-下载网址选阿里云镜像 http://mirrors.aliyun.com/cygwin - 安装binutils, gcc, gcc-mingw, gdb, make, per...

2020-03-07 23:45:48 2196 2

原创论文阅读TripleNet: Triple Attention Network for Multi-Turn Response Selection in Retrieval-based Chatbot

https://arxiv.org/pdf/1909.10666.pdf基于检索的聊天机器人的多轮响应选择的三重注意力网络Github：https://github.com/wtma/TripleNet论文贡献：使用triple attention来建模三元输入<context、query、response>，而不是传统的<context、response&g...

2020-03-05 17:51:10 1915

原创论文阅读——Toward Making the Most of Context in Neural Machine Translation

https://arxiv.org/abs/2002.07982充分利用上下文的NMTGithub（无代码只有介绍）：https://github.com/Blickwinkel1107/Toward-Making-the-Most-of-Context-in-Neural-Machine-Translation论文提出了一个文档级NMT框架，对每个句子的本地上下文、源语言和目...

2020-03-04 15:17:55 899 1

原创论文阅读——Modeling Future Cost for Neural Machine Translation

https://arxiv.org/abs/2002.12558NMT的未来成本建模（未开源）根据当前生成的目标词及其上下文信息，对未来的时间相关成本进行估计，以促进NMT模型的训练。在当前的时间步长的学习的未来上下文表示被用来帮助在解码中生成下一个目标词。利用预先习得的翻译知识（即，翻译模型和语言模型）来预先计算一个源句中任意跨度的输入词的未来成本。计算出的未来成本估计了翻译源...

2020-03-03 22:56:42 262

原创论文阅读——Robust Unsupervised Neural Machine Translation with Adversarial Training

https://arxiv.org/abs/2002.12549加入对抗训练的鲁棒的无监督NMT（未开源）以前的工作只关注如何在干净的数据上建立sota UNMT，而在真实的场景中，输入语句中常常存在小的噪声。模型对输入中的微小扰动很敏感，会导致各种误差。首先定义两种类型的噪声，即单词噪声和词序噪声。研究UNMT和SNMT在这种嘈杂场景下的性能，结果表明UNMT模型的性能优于SN...

2020-03-03 22:48:06 462

原创从Seq2Seq，Attention，Transformer到ELMo，BERT，GPT-2（二）

五、ELMo论文《Deep contextualized word representations》认为，高质量的词表征应该包含丰富的句法和语义信息，并且能够对多义词进行建模（传统的词向量如word2vec是上下文无关的）。ELMo 分为两个阶段：在大型语料库上预训练一个深度双向语言模型 biLM，然后将LM各层作为新特征补充到下游任务中。这个LM是预训练过的双向耦合 coupled LSTM...

2019-03-11 17:59:54 2168

原创从Seq2Seq，Attention，Transformer到ELMo，BERT，GPT-2（一）

一图了解从 Seq2Seq，Attention，Transformer 到 ELMo，BERT，GPT-2 的发展过程。一、Seq2SeqSeq2Seq全称Sequence to Sequence，结构为RNN Encoder-Decoder，Encoder将变长源序列映射为定长向量，Decoder将该向量映射回变长目标序列。论文《Learning Phrase Represen...

2019-03-01 12:03:46 4333

原创深度学习之词向量

一、词向量自上世纪90年代开始，特征空间模型就应用于分布式语言理解中，在当时许多模型用连续性的表征来表示词语，包括潜在语义分析LSA、隐含狄利克雷分布LDA主题模型。Bengio et al.在2003年首先提出了词向量的概念，当时是将其与语言模型的参数一并训练得到的。Collobert和Weston则第一次正式使用预训练的词向量，不仅将词向量方法作为处理下游任务的有效工具，还引入了神经网络模...

2019-02-04 15:05:38 9506

原创深度学习之目标检测SSD

SSD（Single Shot MultiBox Detector）将边界框的输出空间离散为不同层特征图上的一组不同尺寸和长宽比的默认框。SSD discretizes the output space of bounding boxes into a set of default boxes over different aspect ratios and scales per feature ...

2018-10-23 23:27:59 1726

原创深度学习目标检测之YOLO系列

近年来目标检测流行的算法主要分为两类：1、R-CNN系列的two-stage算法（R-CNN、Fast R-CNN、Faster R-CNN），需要先使用启发式方法selective search或者CNN网络RPN产生候选区域，然后在候选区域上进行分类和回归，准确度高但速度慢。2、YOLO，SSD这类one-stage算法，仅仅使用一个CNN网络直接预测不同目标的类别和位置，速度快但准确性要低一...

2018-10-12 12:34:28 3273

原创深度学习目标检测之RCNN、SPP-net、Fast RCNN、Faster RCNN

一、目标检测介绍目标检测（目标提取）是一种基于目标几何和统计特征的图像分割，将目标的分割和识别合二为一，主要是明确从图中看到了什么物体、它们分别在什么位置。传统的目标检测方法一般分为三个阶段：首先在给定的图像上选择一些候选区域，然后对这些区域提取特征，最后使用分类器进行分类。1、区域选择传统的目标定位方法是穷举法，由于目标可能在图片的任意位置且大小不定，因此需要使用不同长宽的滑动窗口对...

2018-10-03 00:30:13 861

原创深度学习之生成式对抗网络GAN

一、GAN介绍生成式对抗网络GAN（Generative Adversarial Networks）是一种深度学习模型，是近年来复杂分布上无监督学习最具前景的方法之一。模型通过框架中（至少）两个模块：生成模型（Generative model）和判别模型（Discriminative model）的相互博弈学习产生相当好的输出。原始GAN理论中并不要求G和D都是神经网络，只需要是能够拟合...

2018-09-11 10:31:24 2836 1

原创深度学习之长短期记忆网络LSTM

LSTM（Long Short-Term Memory networks）是一种时间递归神经网络，是RNN的改进之一，解决了RNN不易处理的远距离信息上下文依赖、梯度消失或梯度爆炸等问题。LSTM的结构类似RNN，区别在于将传统神经元用记忆单元代替，这个单元由遗忘门、输入门和输出门组成，根据规则判断信息期限，长期记忆信息可以传到很深的层，短期记忆信息将很快被遗忘。所有的递归神经网络都...

2018-09-05 15:07:43 5103 2

原创深度学习之RNN

递归神经网络RNN（也称循环神经网络）是一种节点沿着序列连接形成有向图的网络，显示时间序列的temporal dynamic behavior。与前馈神经网络不同之处在于，RNN可以使用其内部状态(记忆)来处理输入序列，递归/周期性的recurrent是指其每一个节点都执行相同的任务，但是输出依赖于输入和记忆，RNN适用于连续的手写识别、语音识别、机器翻译等任务。一、RNN的结构 ...

2018-09-02 23:51:26 1580

原创深度学习典型神经网络之ResNet

深度残差网络ResNet是2015年ILSVRC的冠军，深度达152层，是VGG的8倍，top-5错误率为3.6%。ResNet的出现使上百甚至上千层的神经网络的训练成为可能，且训练的效果也很好，利用ResNet强大的表征能力，使得图像分类、计算机视觉（如物体检测和面部识别）的性能都得到了极大的提升。一、残差学习根据无限逼近定理(Universal Approximation The...

2018-08-30 15:16:21 4194

空空如也

空空如也