我黑切呢**-CSDN博客

原创动态/双向attention和QANet

1.动态注意网络（DCN）：1.1 encoder查询术语序列向量表示（GloVe）： (xxxQ^QQ1_11，xxxQ^QQ2_22,…,xxxQ^QQn_nn)文档术语序列向量表示（GloVe）：(xxxD^DD1_11，xxxD^DD2_22,…,xxxD^DDm_mm)使用LSTM编码文档：dddt_tt=LLLSSSTTTMMMe_een_nnc_cc(dddt_tt−_-−1_11,xxxD^DDt_tt)。文档编码矩阵：DDD = [d1d_1d1….

2021-03-05 13:44:35 362 1

原创 Graph-based Hierarchical Relevance Matching Signals for Ad-hoc Retrieval

abstract本文提出了一个基于图的分层相关匹配模型（GHRM），它可以同时捕获subtle 和general的层次匹配信号。 https://github.com/CRIPAC-DIG/GHRM1.介绍分层查询文档相关性匹配过程示例。(a)查询和候选文档(省略部分文字)。(b)文档中部分文字图。（c）包含关键词并丢弃与查询无关的词的层次图：3 PROPOSED METHOD3.1 Problem Formulation查询和文档：本文目的是对关于查询词和文档词的一系列相.

2021-03-04 19:20:43 402 1

原创 DeFormer（20 ACL）

DeFormer: Decomposing Pre-trained Transformers for Faster Question Answering https://github.com/StonyBrookNLP/deformerMotivation单塔模型运行速度慢，并且内存密集，本文引入DeFormer，它在较低的层单独处理question和passages，这允许预先计算段落表示，从而大大减少运行时计算。1.介绍根据这个事实：预训练模型较低的层往往侧重于local现象，如句..

2021-03-03 15:43:06 613 1

原创 Document Modeling with Graph Attention Networks for Multi-grained Machine Reading Comprehension

Document Modeling with Graph Attention Networks for Multi-grained Machine Reading Comprehension https://github.com/DancingSoul/NQ_BERT-DMMotivation自然问题两种粒度的答案，即长答案(通常是一个passage)和短答案(长答案内的一个或多个实体)。现有方法在训练过程中单独处理这两个子任务，而忽略了它们的依赖性。1 Introduction图1介绍了..

2021-03-03 14:09:44 257

原创 Message Passing Attention Networks for Document Understanding

Message Passing Attention Networks for Document Understanding https://github.com/giannisnik/mpad.1.Motivation将MP（message passing）架构应用于文本表示学习。2 Message Passing Neural Networks对于一个图GGG=（VVV,EEE）,考虑节点vvv∈VVV，在ttt+++111时刻，一个massage 向量由节点vvv的邻居计算得出：然后..

2021-02-27 21:36:51 2172 5

原创 Text Level Graph Neural Network for Text Classification

Text Level Graph Neural Network for Text ClassificationMotivation解决基于GNN的文本分类主要面临的不支持在线测试的固定语料层次图结构和高内存消耗的实际问题。2 Method首先为给定的文本构建一个文本层次图；文本级图的所有参数都取自一些全局共享矩阵。然后，在这些图上引入消息传递机制，从上下文中获取信息。最后，基于所学的表示来预测给定文本的标签。2.1 Building Text Graph对于文本TTT = {r1r_1r1,.

2021-02-25 20:44:56 480

原创 Neural Graph Matching Networks for Chinese Short Text Matching

Neural Graph Matching Networks for Chinese Short Text Matching1.介绍中文短文本匹配不同于英文，中文分词可能是错误的、模糊的或不一致的，从而损害最终的匹配性能。比如下图：字符序列“南京市长江大桥”经过不同的分词可能表达为不同的意思。本文针对这种情况提出了一种用于中文短文本匹配的神经图匹配方法(GMN)。不是将每个句子分割成一个单词序列，而是保留所有可能的分割路径，形成一个单词格图（segment1，segment2，segment...

2021-02-25 15:05:36 1134 12

原创 NumNet

NumNet: Machine Reading Comprehension with Numerical Reasoning https://arxiv.org/abs/1910.06701 https://github.com/ranqiu92/NumNet1.Motivation将数值推理集成到机器阅读理解模型中。两个关键因素：数值比较：问题的答案可以通过在文档中进行数值比较，如排序和比较，直接获得。例如，在表1中，对于第一个问题，如果MRC系统知道...

2021-02-24 20:03:14 315

原创 TextING

Every Document Owns Its Structure: Inductive Text Classification via Graph Neural Networks https://github.com/CRIPAC-DIG/TextING1. Motivation现有的基于graph的工作既不能捕捉每个文档中的上下文单词关系，也不能实现新单词的归纳学习。2. 介绍基于图的方法有两个主要缺点。首先，忽略了每个文档中上下文相关的单词关系。具体来说，TextGCN ...

2021-02-20 22:31:25 1906

原创 Poly-encoders（2020 ICLR）

Poly-encoders: architectures and pre-training strategies for fast and accurate multi-sentence scoring 非官方github ： https://github.com/chijames/Poly-Encoder1.摘要Cross - encoder 对句子对进行完全self-attention ，Bi - encoder分别对句子对进行编码。前者往往性能更好，但实际使用起来太慢。在..

2021-02-03 14:55:09 1962

原创 Question Directed Graph Attention Network for Numerical Reasoning over Text

Question Directed Graph Attention Network for Numerical Reasoning over Text摘要对文本进行数字推理，如加法、减法、排序和计数，是一项具有挑战性的机器阅读理解任务，因为它需要自然语言理解和算术计算。为了应对这一挑战，作者提出了一种异构图表示，用于这种推理所需的文章和问题的上下文，并设计了一个问题导向图注意网络来驱动该上下文图上的多步数值推理。介绍作者认为QANET和NumNet对于复杂的数值推理是不够的，因为它们缺少数值...

2021-02-02 13:24:14 924

原创 K-BERT

K-BERT: Enabling Language Representation with Knowledge Graph https://github.com/autoliuweijie/K-BERT.Motivayion弥补语言模型缺乏领域知识的弊端摘要预先训练的语言表示模型，如BERT，从大规模语料库中获取一般的语言表示，但缺乏特定领域的知识。阅读一篇领域文本时，专家用相关知识进行推理。为了使机器能够实现这一功能，作者提出了一种基于知识的语言表示模型，其中三元组作为领域知识注入到句...

2021-02-01 13:03:40 458 1

原创 DC-BERT

DC-BERT: DECOUPLING QUESTION AND DOCUMENT FOR EFFICIENT CONTEXTUAL ENCODINGMotivation关注预训练的LM应用于open-domain的无法处理高吞吐量的传入问题。DC-BERTBBBEEERRRTTT的较低层编码更多的局部句法信息，如词性标签，而较高层往往依赖于更广泛的上下文来捕捉更复杂的语义。DDDCCCBBBEEERRRTTT受这个启发，它将BBBEEERRRTTT的较低层解耦到本地上下文(question和.

2021-01-24 19:43:29 400

原创 DUET and updated DUET(2016 and 2019)

Learning to Match Using Local and Distributed Representations of Text for Web Search摘要DUET由两个独立的深度神经网络组成，一个使用局部表示匹配查询和文档，另一个使用学习的分布式表示匹配查询和文档。这两个网络作为单个神经网络的一部分被联合训练。Motivationlocal 模型进行精确匹配，分布式模型进行同义词，相关术语或者语义匹配。讨论作者提出三个高效IR的属性exact match :这是I..

2021-01-24 15:09:15 417

原创 ColBERT（2020SIGIR）

ColBERT: Eficient and Efective Passage Search via Contextualized Late Interaction over BERTMotivation预训练的LM在IR上计算成本太高。本文考虑降低计算成本的同时，保证检索性能，并且结合基于表示和交互的模型（如下图ddd）。IR模型对比：(ddd):每个查询 embedding 都通过MaxSim操作符与所有文档嵌入交互，MaxSim操作符计算最大相似度(例如cos)，并且这些操作符的标量输出..

2021-01-22 15:44:46 2354

原创 Real-Time Open-Domain Question Answering with Dense-Sparse Phrase Index（DENSPI）

Real-Time Open-Domain Question Answering with Dense-Sparse Phrase Index nlp.cs.washington.edu/denspi Training takes 16 hours (64-GPU hours) and indexing takes 5 days (500 GPU-hours）1.摘要现有的开放域问答（QA）模型不适合实时使用，因为它们需要针对每个输入查询按需处理多个长文档。在本文中，作者介绍了文档短...

2021-01-20 16:22:57 297

原创 KHAMA（2019IJCAI）

Knowledge-enhanced Hierarchical Attention for Community Question Answering with Multi-task and Adaptive Learning介绍作者认为社区QA存在下列问题：外部事实知识没有得到充分利用（KB）CQA模型应当考虑输入序列的不同语义级别（attention）现有的CQA模型没有考虑输入question的类别，可能丢失重要特征（多任务：QA+question 分类）现有的CQA模型不能有效的处理.

2021-01-14 19:22:51 172

原创知识指导文本检索和阅读：graph-retriever+graph-reader（2020 University of Washington）

Knowledge Guided Text Retrieval and Reading for Open Domain Question Answering介绍在基于文本的open-domain QA中，如何在不牺牲覆盖面的情况下最好地利用知识库(KB)仍然是一个悬而未决的问题。之前的工作已经将知识库事实转化为句子，以提供额外的证据在本文中，但是不显式地使用知识库图结构。作者展示了这种结构对于在基于开放域文本的问答中检索文本段落和融合它们之间的信息是非常有益的。作者介绍了一种基于文本的开放领域...

2021-01-14 15:51:23 554 1

原创 DPR

Dense Passage Retrieval for Open-Domain Question Answeringhttps://github.com/facebookresearch/DPR摘要开放域问题回答依赖于有效的段落检索来选择候选上下文，其中传统的稀疏向量空间模型，如TF-IDF或BM25，是事实上的方法。作者表明检索实际上可以单独使用密集表示来实现，其中embedding是通过简单的dual-encoder framework从少量的questions 和 passages 中学习的.

2021-01-12 17:08:42 1873

原创 Multi-Task-DNN（2019ACL）

Multi-Task Deep Neural Networks for Natural Language Understanding https://github.com/namisan/mt-dnn.ModelLexicon Encoder ( l1):输入XXX = {x1x_1x1,…,xmx_mxm}，mmm个token,X可以是单个句子，也可以是多个句子的打包首个token：[CLS]句子分割：[SEP]embedding：word, segment, and pos...

2020-12-30 18:37:54 233

原创 DeepRank（17’CIKM）

DeepRank: A New Deep Architecture for Relevance Ranking in Information Retrieval htps://github.com/pl8787/textnet-release.Motivation人类判断文本匹配过程:检测相关位置确定局部相关性聚集本地相关性以输出相关性标签DeepRank模拟上述人类判断过程。问题定义查询： qqq = (w1w_1w1, . . . ,wMw_MwM)文档： ddd...

2020-12-28 16:12:26 515 1

原创 Deep Syntax-Semantics Model（2020 EMNLP）

Improving Text Understanding via Deep Syntax-Semantics Communication动机Syntax-Tree model与sequential semantic model相结合，提高下游任务性能。Introduction句子中句法和语义的比较。相同的颜色表示相同(相似)的语义目标。Model多层结合模型定义句子SSS = {w1w_1w1,…,wnw_nwn}，对应的sequential 表示：树表示：Sequen..

2020-12-23 15:01:53 180

原创 VD-BERT（统一视觉对话 2020 EMNLP）

VD-BERT: A Unified Vision and Dialog Transformer with BERThttps://github.com/salesforce/VD-BERT.本文贡献展示了BERT可以通过简单的视觉基础训练来有效地适应视觉对话任务，以捕捉复杂的视觉对话交互。此外，VD-BERT是第一个支持discriminative和 generative训练设置的统一模型，没有显式解码器。不需要对外部视觉语言数据进行预处理，模型在视觉对话基准的discriminative设.

2020-12-21 15:11:06 2914

原创跨语言检索的QA（google research EMNLP 2020）

LAReQA: Language-Agnostic Answer Retrieval from a Multilingual Pool trained models are available at https://tfhub.dev/s?q=lareqa. dataset and evaluation code are available at https://github.com/google-research-datasets/lareqa.提出一个Language-Agnostic的检..

2020-12-21 12:59:42 503

原创 DiSAN（18’AAAI）

DiSAN: Directional Self-Attention Network for RNN/CNN-Free Language Understanding https://github.com/taoshen58/DiSANmotivation取代RNN和CNN，提出只有attention组成的适用于不同NLP任务的框架Multi-dimensional Attention传统attention和mulit-attention对比（均为MLP类型）：传统attention：略m..

2020-12-12 21:32:59 272

原创 POSIT-DRMM（18’Google）

Deep Relevance Ranking Using Enhanced Document-Query Interactions https://github.com/nlpaueb/deep-relevance-ranking.Introduction在DRMM（它使用对上下文不敏感的术语编码和查询-文档术语交互）的基础上，整个模型中注入了丰富的对上下文敏感的编码。并研究了多种变体。都为基于交互的神经检索模型。预备知识DRMM（匹配直方图）:PACRR和PACRR-DRMM..

2020-12-12 17:06:24 196

原创查询建议的反馈记忆网络（18‘WWW）

Query Suggestion with Feedback Memory Networkidea模拟用户与搜索引擎的互动，对用户对搜索结果的偏好建模以获得查询建议。Model（FMN）问题定义给定一个查询qqq，它的搜索结果DDD = {d1d_1d1,d2d_2d2,…,dnd_ndn}，他的点击位置为ppp，即文档dpd_pdp,FMN考虑点击文档作为正例D+D^+D+，跳过的文档作为负例D−D^-D−模型框架FMN将D+D^+D+和D−D^-D−编码到正反馈memory..

2020-12-11 15:03:55 2277

原创 RoBERTa记录

RoBERTa: A Robustly Optimized BERT Pretraining Approach相比于BERT的改进：用更大的batchs、更多的数据对模型进行更长时间的训练去除next sentence prediction 目标使用较长序列的训练动态改变应用于训练数据的mask模式。...

2020-12-10 19:42:55 61

转载 GPT家族

GPT无监督的预训练（LM）+有监督微调（task-specific）（多任务学习）Unsupervised pre-training语料库UUU = {u1u_1u1,…,unu_nun},LM（multi-layer Transformer decoder）损失：具体：Supervised fine-tuning输入句子：{x1x_1x1,…,xmx_mxm},lable:yyyLoss:Unsupervised pre-training LM辅助 Supervise.

2020-12-10 15:21:27 217

原创 ALBERT记录

题目：ALBERT: A LITE BERT FOR SELF-SUPERVISED LEARNING OF LANGUAGE REPRESENTATIONS https://github.com/google-research/ALBERT.动机降低模型大小，并改进性能采用两种参数简化技术：factorized embedding parameterization（对Embedding因式分解）。Cross-layer parameter sharing.相比于BERT的改进...

2020-12-10 12:57:17 88

原创 Transformer for ranker（EMNLP 2020 ）

题目：Modularized Transfomer-based Ranking Framework 代码： https://github.com/luyug/MORES贡献：在这项工作中作者们将 Transformer ranker 模块化为单独的模块，以进行文本表示和交互。作者将展示该设计如何使用离线预计算表示和轻量级在线交互来显着加快排名。模块化设计也更易于解释，并为 Transformer 排名中的排名过程提供了启示。作者在大型监督排名数据集上的实验证明了 MO...

2020-12-09 22:12:59 245

原创图神经匹配（2020CIKM）

标题：Learning Better Representations for Neural InformationRetrieval with Graph Information动机神经网络排序模型近年来在信息检索领域得到了广泛的关注，并取得了良好的排名性能。然而，这些检索模型大多侧重于捕获查询和文档之间的文本匹配信号，而没有考虑可能有助于检索任务的用户行为信息。具体来说，用户的点击和查询重构行为可以分别用点击通过二部图和会话流图来表示。这种图形表示包含了丰富的用户行为信息，可以帮助我们更好地理解用.

2020-12-03 20:39:01 484

原创 pytorch报错

为什么需要每次计算梯度都要清空根据pytorch中的backward()函数的计算，当网络参量进行反馈时，梯度是被积累的而不是被替换掉；但是在每一个batch时毫无疑问并不需要将两个batch的梯度混合起来累积，因此这里就需要每个batch设置一遍zero_grad 了。为什么要with torch.no_grad():更新时：w1 -= learning_rate * w1.gradw2 -= learning_rate * w2.grad它也是一张计算图（所有的tensor运算都是一张计算图）

2020-11-01 16:50:42 156

原创 LSTM+CNN+ATTENTION（QA）

一、四个模型注意力：实验数据集：InsuranceQA二、三个变化：1.LSTM只用输入们2.提出对比五个比较函数（图右边5个）3.最后一层加Cnn实验1 https://github.com/shuohangwang/SeqMatchSeq三、变化：嵌入层用预训练语言模型代替（ELMo）+ATTENTION+聚类+迁移学习实验...

2020-10-24 16:09:34 4113

原创 DSSM笔记

模型：INPUT将一个单词序列的文档ddd转换为网络输入层的向量表示xxx需要两个步骤：将单词中的每个单词转换为单词向量通过连接这些单词向量来构建第一步：one-hot表示每一个word（N=150K）为了获得质量更高的词向量，同时映射WWW得3-letter向量（30K）。最后链接Convolutional Layerwindow大小：3c是窗口大小为3的单词的上下文向量Max-pooling LayerFully-Connected Layers训练DSSM参数：.

2020-09-23 18:09:31 152

原创 Deep Learning Powered In-Session Contextual Ranking using Clickthrough Data

IDEA用户与搜索引擎的交互提供了许多线索，可以利用这些线索通过个性化来提高搜索结果的相关性。上下文信息（查询历史、单击的文档等）提供了有关用户搜索意图的强烈信号，可用于个性化搜索体验和改进web搜索引擎。问题当前搜索引擎采用“AveQueryOverlap”，它计算当前会话中连续查询对之间的token重叠。缺少从历史查询和当前查询中获得的一些语义信息。检查是否具有以前查询中的一些域特征，例如一个用户在上个月发布的所有查询；它还包含一些关于用户点击行为的分布信息，以反映用户的域偏好，但并不严格与.

2020-09-23 12:58:30 138

空空如也

空空如也