自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Facico的博客

程序员之所以犯错误,不是因为他们不懂,而是因为他们自以为什么都懂。

  • 博客(522)
  • 收藏
  • 关注

原创 博客迁回通知

OI退役后就没怎么打博客了,但到大学学了些新的东西还是打打博客比较好。然后,在gtihub自建站用了一年。确实是可修改性比较强,但是由于我比较懒,用了hexo的一个模板之后再也没变过。而且由于github也不太稳定,经常性的网页、图源之类的崩溃,隔三差五的hexo就冒几个错出来。不搞了,我回来了!!! facico.github.io暂停运营...

2020-09-17 15:23:47 220 1

原创 A Large-Scale Chinese Short-Text Conversation Dataset

A Large-Scale Chinese Short-Text Conversation Dataset大型中文短文本对话数据集提供已清洗中文对话数据集LCCC,有base、large版本所有模型和数据https://github.com/thu-coai/CDial-GPT数据集采用了推特、Reddit、微博以及技术论坛等社交媒体来建立语料库。公开的资源语料库非常丰富的,但也包含了许多噪音点,这些噪音点需要处理。通过众包资源来构建高质量的对话数据集,服务于更高级的对话任务如维基

2021-08-01 17:07:25 1359 15

原创 Approximate Nearest Neighbor Negative Contrastive Learning for Dense Text Retrieval

Approximate Nearest Neighbor Negative ContrastiveLearning for Dense Text Retrieval密集检索 (DR) 的有效性通常需要与稀疏检索相结合主要瓶颈在训练机制,训练中使用的负面实例不能代表不相关文档本文介绍最邻近负对比估计(ANCE):从语料库的最邻近(ANN)索引构造负样本的计件制,该索引与学习过程并行更新以选择更真实的负样本(这种方式从根本上解决了DR训练和测试中数据分布间的差异)实验中,ANCE提升了BERT-Si

2021-07-20 13:33:23 2312

原创 Dense Passage Retrieval for Open-Domain Question Answering

Dense Passage Retrieval for Open-Domain Question Answering段落检索是open domian QA的重要问题传统方法是使用稀疏向量空间模型,如TF-IDF或BM25本文重点研究室是密集向量空间模型,密集表示采用简单的双层编码器框架,同时采用了非常少的问题和段落对传统检索器的问题传统检索器不能很好匹配语义关系,只能关键词匹配而密集向量检索器通过语义训练,可以更好捕获语义信息...

2021-07-20 00:21:56 1066

原创 Understanding the Behaviors of BERT in Ranking

Understanding the Behaviors of BERT in Ranking该文章主要是研究BERT在passage re-ranking任务上的效果数据集MS MARCO数据集:QA问答数据集,从Bing上的用户搜索日志中的一些query,以及对应的一些候选passage。该任务的要求便是从候选的passage中选择能够回答该query的正确passage,包含一百多万个query和一百多万个passage。ClueWeb数据集类似四种基于BERT的模型1.BERT(Rep)

2021-07-17 20:13:55 263

原创 Passage Re-ranking with BERT

Passage Re-ranking with BERTtask有一个给定的问题,要给出答案分三个阶段1、通过一个标准的机制从语料库中见多大量可能与给定相关的文档2、passage re-ranking:对这些文档打分并重paixu3、分数前几的(前10、或前15等)的文档将会是这个问题答案的来源,用答案生成模型产出答案这篇论文主要是研究第二个阶段方法要做的工作即是:对于一个询问qqq,一个候选文章did_idi​,给出一个分数sis_isi​询问为句子A,限制在64个token内文章

2021-07-17 19:05:49 972

原创 TransE:Translating Embeddings for Modeling Multi-relational Data

Translating Embeddings for Modeling Multi-relational Data目的即知识图谱提取成向量知识图谱三元组一般形式(sub,rel,obj)如:(Barack Obama, place of birth, Hawai),这个关系就是Hawai是Barack Obama的place of birth这只是三元组的一种形式,从属、包含、什么什么是什么等等关系都能变成三元组类似词向量的构建,这里希望将KG(knowledge graph)中的

2021-06-07 11:03:51 341

原创 GCN与文本分类Graph Convolutional Networks for Text Classification

TextGCNGraph Convolutional Networks for Text Classificationhttps://github.com/yao8839836/text_gcn?utm_source=catalyzex.com属于把GCN用在NLP上的开山之作,构造比较简单,效果也不错,不过使用的是最简单的“频域卷积网络”,所以速度比价慢不知道作者有没有试过简易的多项式的GCN核或切比雪夫网络构造图边权Ai,j={PMI(i,j)i,j都是单词,PMI(i,j)>

2021-06-01 09:14:55 661 1

原创 图卷积网络GCN

GCNCNN中的卷积本质上就是共享参数的过滤器,可以较为有效地提取空间特征而很多其他的研究中还有很多非欧拉结构的数据1.CNN无法处理非欧拉结构的数据,传统的离散卷积在Non Euclidean Structure的数据上无法保持平移不变性2.希望在拓扑图上有效地提取空间特征来进行机器学习3.广义上来讲任何数据在赋范空间内都可以建立拓扑关联,因此GCN有很大的应用空间提取拓扑图空间特征的两种方式(1)vertex domain把顶点相邻的点找出来问题就变成:怎么确定相邻点,

2021-05-30 09:56:00 323

原创 DUMA: Reading Comprehension with Transposition Thinking

DUMA: Reading Comprehension with Transposition Thinking验证了我看完DCMN+的猜想,将复杂的DCMN+的模型换上了attentionencoder接一个预训练模型decoder来预测答案两层之间加一个Dual Multi-head Co-Attention (DUMA) layerEncoder还是拼接P=[p1,p2,...,pm],Q=[q1,q2,...,qn],A=[a1,a2,...,ak]E=Enc(P⊕Q⊕A)=[e

2021-04-25 11:11:20 505

原创 DCMN+: Dual Co-Matching Network for Multi-choice Reading Comprehension

DCMN+: Dual Co-Matching Network for Multi-choice Reading ComprehensionRACE数据集特点:答案可能不在给定的阅读材料中,这样需要模型更加深度地理解阅读材料基于bert的以往做法:把(question,choice)连在一起看成一个句子,然后和passage做匹配缺点:这样question和choice之间没有交互信息上述流程相当于:先让passage和question做匹配,计算结果再和choice做匹配。但选项和问题应

2021-04-20 14:42:34 468

原创 A Probabilistic Formulation of Unsupervised Text Style Transfer

A Probabilistic Formulation of Unsupervised Text Style Transfer无监督的问题转化设X={x(1),x(2),…,x(m)}X=\{x^{(1)}, x^{(2)},\dots,x^{(m)}\}X={x(1),x(2),…,x(m)}是领域D1D_1D1​的数据,Y={y(m+1),y(m+2),…,y(n)}Y=\{y^{(m+1)}, y^{(m+2)},\dots,y^{(n)}\}Y={y(m+1),y(m+2),…,y(n)}是领域

2021-04-14 10:00:53 303

原创 IMaT: Unsupervised Text Attribute Transfer via Iterative Matching and Translation

IMaT: Unsupervised Text Attribute Transfer via Iterative Matching and Translation大致流程1、Matching:在目标语料库构造语义相似的伪平行样本2、使用seq2seq类的模型,学习一个文本生成器3、通过细化对齐中不完善的部分,迭代反复提高transfer的功能1、Matching在第0(t=0t=0t=0)次迭代时,通过在两个语料库中配对来构造伪平行样本X^,Y^(0)\hat X,\hat Y^{(0)}X

2021-04-14 08:14:13 242

原创 ON VARIATIONAL LEARNING OF CONTROLLABLEREPRESENTATIONS FOR TEXT WITHOUT SUPERVISION

ON VARIATIONAL LEARNING OF CONTROLLABLEREPRESENTATIONS FOR TEXT WITHOUT SUPERVISIONCP-VAE解决VAE在文本生成的过程中,在聚合后验的隐藏空间中表示中产生大量空洞区域提出一个将后验概率约数到一个简单值的方法,通过调控这个简单值来实现对隐层表示的控制同时在无监督的长句子生成中表现良好(如风格转换任务)method将模型分成两个部分:1、我们希望控制的相关因子z(1)z^{(1)}z(1);2、无关因

2021-03-31 20:37:55 179

原创 Controllable Unsupervised Text Attribute Transfer via Editing Entangled Latent Representation

Controllable Unsupervised Text Attribute Transfer via Editing Entangled Latent RepresentationControllable Unsupervised Text Attribute Transfer via Editing Entangled Latent Representation由于将风格和内容分开可能会破坏完整性,这里采用风格和内容纠缠在一起来表示整个模型被分为三个部分1、encoderEθeE_{\

2021-03-15 18:56:35 330

原创 Unsupervised Text Generation by Learning from Search(TGLS)

Unsupervised Text Generation by Learning from Search(TGLS)Unsupervised Text Generation by Learning from Search"先搜索后学习"的无监督文本生成方法在paraphase generation和text formalization上,无监督模型上SOTA,有逼近监督模型的效果文章的主要贡献1、提出了无监督文本生成的通用模型框架(TGLS),在搜索中学习2、展示了将大规模预训练模型

2021-03-14 00:16:49 380

原创 SMART: Robust and Efficient Fine-Tuning for Pre-trainedNatural Language Models

SMART: Robust and Efficient Fine-Tuning for Pre-trainedNatural Language Models through Principled RegularizedOptimizationSmoothness-inducing Adversarial Regularizationfine-tunning的优化如下min⁡θF(θ)=L(θ)+λSRS(θ)whereL(θ)=1n∑i=1nℓ(f(xi;θ),yi)(损失函数)\min_{\the

2021-03-11 21:31:16 350

原创 Virtual Adversarial Training(VAT)

Virtual Adversarial Training:A Regularization Method for Supervised and Semi-Supervised Learnimg对抗训练Goodfellow对对抗训练损失函数定义如下Ladv(xl,θ)=D[q(y∣xl),p(y∣xl+radv,θ)]whereradv=argmaxD[q(y∣xl),p(y∣xl+radv,θ)]L_{adv}(x_l,\theta)=D[q(y|x_l),p(y|x_l+r_{adv},\thet

2021-03-10 16:56:48 541

原创 Style Transfer from Non Parallel Text by Cross Alignment

Style Transfer from Non Parallel Text by Cross Alignment引入一个跨语料库(两个语料库有相同的content,但数据非并行)且能精确对齐的表达学习一个encoder,可以把input映射到一个与style无关的content表达。再将其传递给与style有关的decoder解码。不用VAE(变分自编码器),因为我们需要使潜在content表达更丰富与自然三个任务:情感转化,单词替换密码的破译,恢复语序和CV的风格转化一样的有

2021-03-10 16:10:10 540

原创 DeBERTa

DeBERTa[DeBERTa: Decoding-enhanced BERT with Disentangled Attention](https://arxiv.org/abs/2006.03654)code:https://github.com/microsoft/DeBERTaGPT2差不多的参数,15亿参数。。。keyDisentangled Attention(分散注意力)架构和bert类似,主要区别是Attention分数计算额外增加了位置信息BERT:每个输入层to

2021-03-09 20:53:23 1012

原创 UNILM

UNILMUnified Language Model Pre-training for Natural Language Understanding and Generationkey综合所有的LM - 像bert在NLU任务上表现很好,但是在NLG任务上表现就不太行,UNILM就可以兼备两个任务采用三个无监督目标:双向LM,单向LM,Sequence-to-Sequence LMUNILM模型单向LM,双向LM和Sequence-to-Sequence LM之间的transf

2021-03-09 20:21:31 407

原创 K-BERT

K-BERTK-BERT: Enabling Language Representation with Knowledge Graphbert在特定领域表现不好融合KG借鉴并改进ERNIE1、知识图谱中的关系信息没有被用到2、实体向量和词向量是使用不同的方法得到的,可能存在空间不一致3、对于实体数量巨大的大规模知识图谱,实体向量表将占据很大的内存上图输入句子:Tim Cook is currently visiting Beijing now关联的三元组信息:Apple

2021-02-22 22:17:15 435

原创 ERNIE 1.0->ERNIE2.0

ERNIEERNIE: Enhanced Representation from kNowledge IntEgration百度在bert上的改进,适用于中文NLP模型知识增强bert通过字的搭配可以很容易推测出mask中的字,如乒乓[球],但是不能显示地对语义信息进行建模(如乒乓球)因此提出了短语和实体级别的mask方式,通过此方法融合外部知识[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-S3GfqbWy-1613551656503)(https:

2021-02-22 22:17:04 1176 2

原创 StructBERT(ALICE)

StructBERT(ALICE)STRUCTBERT: INCORPORATING LANGUAGE STRUCTURES INTO PRE-TRAINING FOR DEEP LANGUAGE UNDERSTANDING效果仅次于ERNIE2.0,在GLUE上比ERNIE2.0高,目前国内GLUE绑最高作品先看两句话i tinhk yuo undresatnd this sentneces.研表究明,汉字序顺并不定一影阅响读。比如当你看完这句话后,才发这现里的字全是都乱的上面全是乱序,改进

2021-02-22 22:16:52 224

原创 sentence-BERT

sentence-BERTSentence-BERT: Sentence Embeddings using Siamese BERT-Networks工程论文,应用效果很好在文本相似性任务上,之前的bert系列已经可以达到sota,但是bert要求句对拼接到一起传入模型,这样会造成巨大的计算开销如用10000条句子,大概会计算10000*10000/2=50000000次,如果使用bert要花65小时这就导致很多相似度计算、聚类等任务不能较好的进行这里sentence-BERT基于预训练过的

2021-02-17 15:56:38 842 1

原创 DistillBERT

DistillBERTDistilBERT, a distilled version of BERT: smaller,faster, cheaper and lighter不同于two-step,distillBERT在预训练的时候蒸馏知识蒸馏softmax的温度知识蒸馏的losssoft labels/soft prediction:teacher输出soft labels作为结果提供给student学习,最后得到distillation loss(Lsoft\mathcal{L

2021-02-17 15:55:23 615

原创 TinyBERT

TinyBERTTinyBERT: Distilling BERT for Natural Language Understanding对Bert encoding中Transformer进行压缩,使用two-step学习框架在精度允许的范围内节约计算资源和推理速度Transformer蒸馏Embedding-layer DistillationLembd=MSE(ESWe,ET)ES∈Rl×d0,ET∈Rl×dl:sequencelengthd0:studentembedding维度d:t

2021-02-17 12:56:49 241

原创 SpanBERT

SpanBERTSpanBERT: Improving Pre-training by Representing and Predicting Spans没有segment embedding,只有一个长句子,类似RoBERTa使用Span Masking将NSP改成了SBOSpan Masking首先引入了ERINE中的Whole Word Masking、Named Entity Masking、Phrase Masking这上面的做法能让效果提升,但是MASS模型中表明,对于这些词

2021-02-17 12:55:43 284

原创 ELECTRA

ELECTRAEfficiently Learning an Encoder that Classifies Token Replacements Accurately特点1:使用了新的模型预训练框架,采用generator和discriminator的结合方式,但不同于GAN2:将Masked Language Model的方式改为了replaced token detection3:模型小,设备要求低(小模型时表现好,大模型时效果不如其他)​ 将MLM换成replaced

2021-02-17 12:54:43 193

原创 ALBERT

ALBERTALBERT: A Lite BERT For Self-Supervised Learning Of Language Representations主要优化在参数的减少Factorized embedding parameterization作者实验发现,把bert的hidden state增大效果会降低,所以反向考虑将参数减少(BERT-xlarge是hidden-state较大的)设embedding的维度为E,hidden state的维度为H,在bert中E=HE

2021-02-17 12:53:29 205

原创 RoBERTa与Adv-RoBERTa

RoBERTaRoBERTa:A Robustly Optimized BERT Pretraining Approach比起bert的改进1、训练的时间更长2、移除了next predict loss(就是没有NSP部分)3、训练的序列更长4、动态调整masking机制bert使用的随机掩码和预测token,bert在实现预处理的时候执行一次掩码,得到一个静态掩码如dupe_factor=10, epoch=40, 则每种mask的方式在训练中会被使用4次。(将训练数

2021-02-17 12:50:28 169

原创 NLPGym - A toolkit for evaluating RL agents onNatural Language Processing Tasks

NLPGym - A toolkit for evaluating RL agents onNatural Language Processing Tasks没有什么新思想,就是建立了一个把NLP和RL结合的工具,RL用于1、序列标注(sequence tagging)RL用于解决被结构化的预测任务:如命名实体识别、词性标注2、文本总结(text summarization)RL的agent选择要被用来总结的句子3、QA(question answering)RL的a

2021-02-17 12:48:36 108

原创 众包

Building a Conversational Agent Overnight with Dialogue Self-Play(Google) Building a Conversational Agent Overnight with Dialogue Self-Play领域:单域、多域对话系统对话收集机器对话机器框架(MLM),功能导向性流程,用于训练对话智能体1、通过自动化任务无关的步骤以减少建立对话数据集所需的代价,从而对话开发者只需要提供对话的任务特定的层面2、获得更高质量

2021-02-17 12:47:45 335

原创 XLNet: Generalized Autoregressive Pretrainingfor Language Understanding

XLNet: Generalized Autoregressive Pretrainingfor Language Understanding将bert的autoenconder(AE)模型换成了autoregressive(AR)模型autoregressive模型就是常规的语言概率分布模型,用极大似然p(X)=∏p(xt∣x<t)p(X)=\prod p(x_t|x_{<t})p(X)=∏p(xt​∣x<t​),也可以反向p(X)=∏p(xt∣x>t)p(X)=\pro

2021-02-17 12:41:05 508

原创 Hidden Technical Debt in Machine Learning Systems论文小记

Hidden Technical Debt in Machine Learning Systems这篇文章主要针对在AI项目开发、团队合作中的技术债的问题,一篇很有意思的综述论文现在的趋势是开发和部署ML系统相对快速且便宜,但是要维护却困难且昂贵,可以通过技术债(oftechnical debt)的角度理解,而承担这些债务需要和里的战略理由一般技术债可以通过:重构代码(refactoring code)、改进单元测试(improvingunit tests)、删掉没用的代码(deletingde

2020-11-06 15:39:44 835

原创 Position信息的处理

NLP问题中,位置的相关信息是非常重要的信息、 如在RNN中,就能自然的处理出位置的相关信息 但是在transformer模型中,由于self-attention的方法,会导致位置信息的丢失最简单的形式PE(positionembedding)=pos=0,1,2,...,T−1PE(position embedding)=pos=0,1,2,...,T-1PE(positionembedding)=pos=0,1,2,...,T−1这样处理:在文本长的时候,PE的值会很大,影响了原来.

2020-10-23 18:00:01 342

原创 PEGASUS

PEGASUS: Pre-training with Extracted Gap-sentences for Abstractive Summarization针对文本摘要任务本身提出了新的监督式的预训练目标GSG在12个文本摘要数据集实现了SOTA(state-of-the-art)在低资源的情形下能取得不错的效果GSG(Gap Sentence Generation)GSG做和Bert类似的处理,将mask信息的层级提高到句子(就是每次mask掉几个句子),为了更接近生成式摘要,对于ma

2020-10-05 08:10:56 433

原创 Bert学习小记

BERT: Pre-training of Deep Bidirectional Transformers forLanguage Understandingembeddinginput embedding = token embedding + segmentation embedding + position embeddingsegment embedding对于句子对来说(两个句子放在一起训练),EA表示坐标的句子,EB表示右边的句子[CLS]每个序列的第一个标记[SEP]句子

2020-10-01 16:32:38 256

原创 联邦学习(Federated Learning)学习小记

联邦学习设计目标与框架在保障大数据交换时的信息安全、保护终端数据和个人数据隐私、保证合法合规的前提下,在多参与方或多计算结点之间开展高效率的机器学习例如两公司要联合训练一个AI框架,但是又无法直接进行数据交换,可以使用联邦学习来建立模型。更广泛的模型就是通过众多的用户端得到的**“非平衡且非独立同分布”**的数据来训练。更形象点:正常的机器学习模型是把数据收集到服务器端,将数据带到代码面前来;而联邦学习则是把代码发送到数据端,从而使用户的数据无需上传就可以参与模型的训练。不过在用户端需要上传训

2020-09-25 14:55:40 6297 12

原创 Pytorch学习

Pytorch学习Tensor张量tensor是pytorch里面的数据类型标量,向量和矩阵三个其实都是张量,标量是零维的张量,向量是一维的张量,矩阵是二维的张量tensor的成员tensor.data:张量的数据值是什么tensor.grad:该张量的梯度(如果没有就显示NONE)tensor.grad_fn:指向该张量处的函数计算(计算图中的计算节点),进行梯度反向传播的时候会用到。如果是由用户创建的tensor,则该值 为 NONEtensor.grad_fn.next_

2020-09-23 14:34:36 203

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除