大琳琳爱吃鱼-CSDN博客

翻译 BERT4Rec: Sequential Recommendation with Bidirectional Encoder Representations from Transformer

Abstract：根据用户历史的行为信息，对用户动态的偏好衍变进行建模，是对推荐系统产生的巨大挑战。现有算法使用序列神经网络，只能从左向右，利用单向信息进行建模。尽管这些放大得到了很好的效果，但是他们设定的严格顺序是不实际的。因此，本文提出针对推荐系统的transformer的双向编码器表示。由于利用深度双向信息会造成信息的泄露，为了解决这个问题，本文使用Cloze task训练模型，利用上下...

2019-06-21 14:44:10 4464

翻译 Synchronous Bidirectional Inference for Neural Sequence Generation

abstract：目前seq2seq任务大多是从左到右一个词一个词生成的神经网络的方法，比如LSTM或者self-attention，可以充分利用历史信息，但是不能利用未来信息（future information），从而导致结果的不平衡（左边由于右边）本文提出一种同步双向推理模型：提出平衡搜索策略，利用同步双向解码同时交互使用left2right和right2left的双向解码...

2019-06-13 18:55:54 568

原创神经网络的小笔记

1.epoch和batch的区别a.epoch是指模型的迭代次数，每一个epoch是模型的一次迭代，使用整个数据集迭代一次b.batch发生在一次epoch中，指的是每次参数更新仅使用batch_size个训练样本。一次epoch需要进行batch_num次，每次用batch_size个样本进行更新（batch_num * batch_size = 训练集样本个数）2.dropout为...

2019-03-07 17:37:51 209

原创 BERT模型

1、背景语言模型的与训练在自然语言处理的任务中有着重要的作用。1.1 自然语言处理的任务a.句子层面（sentence-level）=>判断句子之间的关系自然语言推理（natural language inference）自然语言改写（natural language paraphrasing）b.词层面（token-level）命名实体识别(named entit...

2018-11-29 18:19:57 24117 1

原创 aiml使用记录

1.使用场景适用于简单对话，并且问题具有较大相似性。目前用于专业问题的回答，所以大多是单轮对话，即问题-答案(略显智障)。2.常用tag aiml是一个html标签类型的文档，其中最常用的标签有<pattern>和<template>，分别表示问题和答案。相当于问题库进行匹配，得到答案（需要问的问题和pattern中的问题一样(虽然有*但个人感觉依旧不好...

2018-09-06 17:16:11 1106 1

原创 Attention机制的小理解

1.传统的encode-decode模型输入序列：输出序列：中间语义变量所以对于，也就是这就表明输入序列的每一个元素对于输出序列的每一个元素的作用是等价的，这显然是不合理的。比如机器翻译中，中文“我爱你”，对应英语中“I love you”。其中“我”对于“I”和“love”的翻译作用力显然不同。为了解决...

2018-08-31 18:48:51 11355

翻译 Attention Is All You Need

摘要目前的序列转化模型都是基于编码器-解码器的复杂CNN和RNN。目前最好的模型就是将编码器与解码器利用注意力机制（attention mechanism）连接起来。本文提出一种简单的模型结构，遗弃了CNN和RNN，仅仅使用注意力机制。在两个机器翻译的任务上，本文模型在性能上比现有模型好。1.Introduction RNN，LSTM以及gated RNN在序列模型中已经...

2018-08-31 15:33:45 3288

翻译 Mapping Text to Knowledge Graph Entities using Multi-Sense LSTMs

方法本文方法主要有两部分组成。（1）将知识图谱用带权重的文本特征进行拓展，然后利用随机游走生成集合序列输入到skipgram模型，从而生成KB空间。（2）将text转化为KB中的entity可以通过一个multi-sence监督模型（lstm+消歧机制），将每一个text生成一个KB空间的点。实体向量的文本特征对于KB空间，我们将根据Perozzi et ...

2018-08-29 16:29:55 872 1

翻译 Effective Use of Word Order for Text Categorization with Convolutional Neural Networks

Effective Use of Word Order for Text Categorization with Convolutional Neural Networks背景 CNN充分用于图像数据去探索图像的1D结构，本文作者将CNN用于文本数据，探索数据的1D结构（例如词序）。与利用低维数据作为输入不同，作者直接用CNN作用与高维的文本数据。这样做的好处在于可以学习出小的...

2018-08-28 17:29:12 578

笔记杂谈