一只NLP的萌新er-CSDN博客

原创 Text-RCNN

Text-RCNN模型结构代码模型结构分为三部分，第一部分采用Bi-RNN来获取文本的上下文特征表示，第二部分采用max-pooling进一步提取特征信息，第三部分采用全连接层来获取类别概率。代码class Model(nn.Module): def __init__(self, config): super(Model, self).__init__() if config.embedding_pretrained is not None:

2021-04-11 19:19:32 512

原创 TextRNN+attention

TextRNN+attentionattention机制代码attention机制attention机制在文本分类任务中引入注意力机制，可以更好地提升模型效果，增加模型的可解释性。在不利用attention时，文本序列中每个单词对分类任务的贡献程度是相同，然而现实是，分类任务上总会存在一些无用词，因此，引入attention可以很好衡量每个单词对分类任务的贡献程度。αt\alpha_tαt为每个单词经线性注意力后的权重值。代码# coding:utf-8import torch.nn.

2021-04-09 16:41:42 1957 4

原创数据预处理

数据预处理数据集预处理构建词向量生成数据集数据集Movie Review Data链接，包含正面和负面评论的影评数据集，数据集分为两个文件：pos和neg，每个文件包含了5331条影视评论。分类类别为正面、负面（二分类）。预处理数据集中包含了常见的标点符号，在处理过程中，并没有对标签符号进行去除。以word为单位，按空格来对数据集进行分词。求取句子最大长度，同时构建word2id，并用0将所有句子pad为最大长度。 pos_samples = open(self.path + "/rt-pola

2021-04-08 15:38:17 393

原创 Text-RNN

TextRNN模型结构模型结构假定一段文本序列含有n个单词，在输入至网络结构之前，单词需经过预训练的词向量转换为向量形式，那么转换后的文本序列为：普通RNN网络由于其面临梯度爆炸和梯度消失的风险以及其不具备长距离传播信息（虽然理论上可以）的缺点，出现新的变种RNN网络，如LSTM（长短期记忆网络）。双向LSTM网络（Bi-LSTM）可以很好地从前后两个方向对文本进行特征提取，经词向量转化后的文本向量序列依次输入至Bi-LSTM中，利用最后时刻输出的特征信息经全连接层和softmax模块进行分类。

2021-04-08 11:08:54 282

原创统计机器学习

统计机器学习统计机器学习，即计算机基于数据构建统计模型运用模型对数据进行预测分析。统计机器学习研究的对象是数据，数据可以是:计算机及互联网上的各种数字、文字、图像、视频、音频数据以及它们的组合(多模态学习)。同时数据的基本假设是同类数据具有一定的统计规律性。统计机器学习的目的是：用于对数据（特别是未知数据）进行预测和分析。统计机器学习的方法是：监督学习（Supervised learning）非监督学习（Unsupervised learning）半监督学习（Semi-supervised l

2020-09-15 20:58:18 2946

原创 Transformer

Transformer（一种网络结构）是谷歌在2017年NIPS发表的论文《Attention is all you need》上提出的。在Transformer提出之前，NLP领域常用RNN型序列网络结构来处理文本数据，另外CNN网络，由于其提取局部信息的强大能力，在NLP领域也一席之地。Transformer是不同于RNN、CNN的网络结构，它完全采用自注意力机制，在Transformer中没有序列形式，而是采用了位置形式来表示文本数据。参考博客：Transformer原理详解一背景介绍...

2020-08-31 21:06:19 2535

原创 TEXTCNN

TEXTCNN出自论文《Convolutional Neural Networks for Sentence Classification》中，作者将CNN网络用于句子级别的文本分类。原文中TEXTCNN网络结构图如图所示：首先，将n个映射为词向量的单词链接成一句话，即：在卷积操作中，作者采用了多个不同高度的卷积核进行卷积操作，即：从而形成特征映射c：在c上采用1-max池化操作得出这个卷积核过滤器的特征向量cˇ=max(c)\check{c}=max(c)cˇ=max(c).由于作者采用

2020-08-05 15:32:20 929

原创 GloVe

GloVe背景介绍GloVe模型讲解原理GloVe模型GloVe模型细节损失函数细节代码背景介绍word2vec最大的问题是基于局部窗口而训练出来的词向量是没有全局性的(一定程度上)，还有一种利用全局矩阵分解形式训练的词向量，但这种方法在词对推理任务上表现不是很好。GloVe采用了词频共现的模型来训练词向量，即基于全局词汇共现的统计信息来学习词向量，从而将统计信息和局部上下文窗口两种方法的有点结合起来。GloVe模型讲解原理在日常阅读中，我们会发现一些词汇经常是一起出现的，比如当描述一件衣服的颜

2020-07-28 18:04:47 462 2

原创 Word2Vec

Word2Vec背景知识语言模型词表示对比模型NNLMRNNLM模型结构skip-gram模型CBOW模型关键技术Hierarchical Softmax (层次Softmax)负采样（Negative Sampling）模型复杂度分析代码实现背景知识Word2Vec是一种词向量的表示方式，是在论文《Efficient Estimation of Word Representations inVector Space》中提出，有两种网络模型来训练（Skip-gram和CBOW模型）。由Word2Vec

2020-07-22 15:52:02 1185 6

原创多标签文本分类/三种神经网络/网络模型

多标签文本分类多标签文本分类简介三种神经网络结构网络模型文本分类网络模型多标签文本分类网络模型多标签文本分类简介NLP（自然语言处理），即让计算机去理解人类的自然语言（文本、语音等），进而完成各种各样的任务（NER、文本分类、机器翻译、阅读理解、问答系统、智能对话、搜索推荐系统等等），被誉为人工智能皇冠上的明珠。自然语言处理任务总结可以分为：自然语言生成和自然语言理解。文本分类是NLP的一项基础任务，属于自然语言理解，旨在对于给定文本文档，自动地分配正确的标签。文本分类在许多方面的应用很多，例如：信息

2020-06-19 16:09:13 11823

原创预训练语言模型综述

《Pre-trained Models for Natural Language Processing: A Survey》总结序章随着深度学习的发展，各种神经网络被广泛应用于解决自然语言处理（NLP）任务，如卷积神经网络（CNNs），递归神经网络（RNNs），基于图的神经网络（GNNs）和注意机制。相比于非神经网络NLP方法通常严重依赖于离散的手工特征，神经网络方法通常使用低维密集向量（分布...

2020-04-21 20:23:35 4876 3

原创基于深度学习的文本分类综述

《Deep Learning Based Text Classification: A Comprehensive Review》总结笔记。1.序章基于深度学习的文本分类模型在情感分析、新闻分类、问答和自然语言推理等多种文本分类任务中已经超越了经典的基于机器学习的方法。论文在回顾150多种深度学习模型后，分类简单讲述了多种文本分类模型，涵盖了基于前馈神经网络的模型、基于RNN的模型、基于CNN...

2020-04-19 17:28:52 4806 2

原创文本分类算法综述

最近在阅读Kowsari, Meimandi J , Heidarysafa等人的《Text Classification Algorithms: A Survey》一文，在此半翻译半总结地总结一下笔记。1.序章文章概述了文本特征提取、降维方法、现有的算法与技术（模型）、评估方法。也简述了每种技术的局限性以及其在实际问题中的应用。大多数文本分类和文档分类的过程都可以分为四个阶段：特征提取、...

2020-04-13 14:55:44 1954

原创卷积神经网络及其在文本分类上的应用

1. 卷积神经网络理解CNN理解NLP中的CNNCS224N–CNN2.文本分类文本分类综述12篇顶会论文理解文本分类3.TEXTCNN实践TEXTCNN-1-TFTEXTCNN-2-TFTEXTCNN-3-torchTEXTCNN-4-torch4.另外，图卷积神经网络在文本分类上的应用 GCN–text classification...

2020-04-02 11:26:30 531

原创阅读理解、问答系统

阅读理解阅读理解概述阅读理解详谈问答系统问答系统综述问答系统技术总结

2020-04-01 11:39:55 499

原创机器翻译概述、seq2seq、attention机制

1.机器翻译通过计算机将一种语言翻译为其他语言。机器翻译发展概述CS224N机器翻译讲解2.seq2seqseq2seq模型，即Sequence to Sequence，从一个序列到另一个序列的转换。seq2seq模型图解seq2seq简单讲解seq2seq模型详解seq2seq与attention机制3.attention机制attention，即注意力，就是专注于当前任务...

2020-03-31 14:52:51 177

原创语言模型、RNN梯度消失/爆炸、RNN网络变种

1.语言模型语言模型（LM）是一个系统，用于预测下一个可能出现的单词。更正式的解释是：给定T个单词序列，根据这T个单词来计算出第T+1个单词的概率分布，从而选出最可能出现的单词。经典的语言模型有N-gram语言模型、NN语言模型、RNN语言模型。语言模型语言模型语言模型知乎专栏 CS224N第六课学习笔记1.1 N-gram语言模型N-gram语言模型是统计语言模型，根据前n-1...

2020-03-27 16:17:15 161

原创语义结构：依存分析

语义结构：依存分析每种语言都有其各自的结构，理解其句子结构可以帮助我们更好地理解语义。句子结构通俗来说，就是所谓的主谓宾等结构，这种以主语+谓语+宾语来分析句子结构的方法称为短语结构文法（上下文无关文法）。还有另外一种分析句子结构的方法：依存分析法。所谓依存分析，是指句子中每一个词都被其他词修饰或者被修饰（如果一个词修饰另一个词，它就是那个词的依赖），理清句子中每一个词所依赖的其他词及其关系...

2020-03-20 16:17:38 1296

原创 WORD2VEC总结

word2vec学习word2vec后的一个总结。word2vec是训练词向量的一种方式，出自论文《Efficient Estimation of Word Representations in Vector Space》中，是谷歌Tomas Mikolov提出的一种开源的训练词向量的工具包。在word2vec中可以通过两种模型：CBOW模型和SKip-gram模型，来训练词向量。CBOW模型...

2020-03-09 15:34:15 305

原创《中文jieba分词》总结

针对jieba分词作业做一个总结，方便以后查看。中文分词分词，即切词，在NLP文本预处理中经常使用一些方法来对文本进行分词，从而使文本从“字序列”升级到“词序列”。为什么要进行分词？在中文中，一个个汉字有其自身的含义，但是组成词语时，其含义可能会发生很大的变化，使得之后进行文本处理任务时不能很好的理解句子的含义。（比如“和”，“平”，“和平”，三者的含义有很大的不同。）另外，从字序列升级成词...

2020-02-29 16:57:24 475

qq_40377498的博客