chen_yiwei-CSDN博客

转载 CRF（条件随机场）原理

文章目录问题的引入从例子说起——词性标注问题定义CRF中的特征函数从特征函数到概率几个特征函数的例子转载CRF条件随机场简单解释详细解释：NLP —— 图模型（二）条件随机场（Conditional random field，CRF）问题的引入假设你有许多小明同学一天内不同时段的照片，从小明提裤子起床到脱裤子睡觉各个时间段都有（小明是照片控！）。现在的任务是对这些照片进行分类。比如有的照片...

2019-03-26 20:35:15 910

转载 Bert原理

文章目录模型的结构EmbeddingsEncoders功能输出层模型训练Masked Language ModelNext Sentence Prediction参考：BERT详解图解BERTBERT的理解模型的结构模型主要由Embedding，多个Transform-Encoders模块，功能输出层组成。EmbeddingsBERT的输入将会编码成三种Embedding的单位和。...

2019-03-20 21:01:45 785

转载 Transform模型原理

文章目录整体框架Position EmbeddingScaled Dot-Product AttentionMulti-Head Attention总结模型Position EmbeddingEncoder与DecoderSoftmax动画过程本文参考:一步步解析Attention is All You Need细讲 | Attention Is All You Need对Attentio...

2019-03-19 20:24:03 14244 2

转载 NLP实践九：HAN原理与文本分类实践

文章目录HAN原理代码实践HAN原理参考多层注意力模型用于文本分类的注意力模型整个网络结构包括五个部分：1）词序列编码器2）基于词级的注意力层3）句子编码器4）基于句子级的注意力层5）分类整个网络结构由双向GRU网络和注意力机制组合而成，具体的网络结构公式如下：1）词序列编码器给定一个句子中的单词witw_{it}wit，其中 i 表示第 i 个句子，t 表示第 t 个...

2019-03-18 19:55:10 2393

转载 NLP实践九：Attention原理与文本分类代码实践

文章目录Attention机制的通用定义Seq2Seq中的Attention什么是Seq2Seqattention在seq2seq中的应用计算attention的第一步计算attention的第二步计算attention的第三步计算attention的第四步几种常见的attention向量计算方式Soft-attentionHard-attentionlocal attention （半软半硬at...

2019-03-18 18:52:56 4998

转载 NLP实践八:TextRNN和TextRCNN实现文本分类

TextRNN原理这里的文本可以一个句子，文档(短文本，若干句子)或篇章(长文本)，因此每段文本的长度都不尽相同。在对文本进行分类时，我们一般会指定一个固定的输入序列/文本长度：该长度可以是最长文本/序列的长度，此时其他所有文本/序列都要进行填充以达到该长度；该长度也可以是训练集中所有文本/序列长度的均值，此时对于过长的文本/序列需要进行截断，过短的文本则进行填充。总之，要使得训练集中所有的文本...

2019-03-16 15:09:44 6639

原创 NLP实践七：TextCNN原理与代码实践

文章目录TextCNN原理Pytoch代码实现TextCNN文本分类模型定义训练TextCNN原理TextCNN是一种应用于文本分类的卷积神经网络，由Yoon Kim 在Convolutional Neural Networks for Sentence Classification 一文中提出。extCNN的网络结构如图所示，由词嵌入层，卷积层，最大池化层和全连接层组成。词嵌入层：假设...

2019-03-14 22:28:51 1076

转载 NLP实践七：卷积神经网络

文章目录一卷积神经网络的引入卷积运算二维卷积一维卷积三维卷积卷积运算对于神经网络的作用稀疏交互参数共享等变表示二卷积神经网络结构卷积层卷积操作过程卷积层的感受野池化层全连接层一卷积神经网络的引入卷积神经网络也是一种前馈神经网络，是一种专门用来处理具有类似网格结构的数据的神经网络。例如，时间序列数据和图像数据。该神经网络使用了卷积数学运算，是一种特殊的线性运算。卷积神经网络的稀疏交互、参数...

2019-03-14 16:55:33 981

原创 NLP实践六：Fasttext实现文本分类

文章目录一 Fasttext原理模型架构层次SoftMaxN-gram子词特征二 Pytorch代码实践模型定义：训练函数定义：数据加载：训练：一 Fasttext原理fasttext是facebook开源的一个词向量与文本分类工具，在2016年开源，典型应用场景是“带监督的文本分类问题”。提供简单而高效的文本分类和表征学习的方法，性能比肩深度学习而且速度更快。参考FastText算法原理解...

2019-03-13 11:36:33 2894 1

转载 NLP实践六：词袋模型到word2vec

文章目录一.词袋模型二 wordembeddingone-hot共现矩阵Cocurrence matrixDistributed representationword2vec三 word2vec 的训练两种算法CBOWSkip-gram加速训练方法Hierarchical SoftmaxNegative Sampling一.词袋模型来自词袋模型bow和词向量模型word2vec所谓词袋模型B...

2019-03-13 11:21:59 2126

转载 NLP实践五：正则化

文章目录正则化的理解与L1.L2正则化什么是正则化为什么要正则化？怎样理解正则化？L2正则化L1正则化正则化参数 λ正则化的理解与L1.L2正则化正则化的理解，来自：理解深度学习中的正则化L1L2正则化来自机器学习中 L1 和 L2 正则化的直观解释什么是正则化正则化方法很早之前就已经出现了，在机器学习方法中应用广泛，比如支持向量机（这个不知道也没关系）。它的形式很简单，是在目标函数后额...

2019-03-11 16:52:02 1062

转载 NLP实践五：神经网络基础概念

目录神经网络结构1神经网络的输入输出1 激活函数Sigmoid.Tanh.ReLU.3代码实现神经网络结构1神经网络的输入输出来自：神经网络算法推演假如神经网络仅由“神经元”构成，以下即是这个“神经元”的图示：这个“神经元”是一个以 x1,x2,x3\ \textstyle x_1, x_2, x_3 x1,x2,x3截距+1 为输入值的运算单元，其输出为:...

2019-03-11 16:25:54 354

转载 NLP实践四：LDA主题模型

LDA主题模型基本原理LSA（Latent semantic analysis，隐性语义分析）、pLSA（Probabilistic latent semantic analysis，概率隐性语义分析）和 LDA（Latent Dirichlet allocation，隐狄利克雷分配）这三种模型都可以归类到话题模型（Topic model，或称为主题模型）中。相对于比较简单的向量空间模型，主题...

2019-03-09 19:59:57 511

转载 NLP实践四：SVM实现文本分类

SVM的简单理解（参考机器学习之SVM）线性分类线性分类的目的就是将数据分开，如图：怎么确定最佳的分隔线？从直观上来说，分割的间隙越大越好，把两个类别的点分得越开越好。在SVM中，成为Maximum Marginal，是svm的一个理论基础之一。选择是的空隙最大的函数是有很多道理的。比如从概率的角度讲，就使的置信度最小的点置信度最大。上图中被红色和蓝色的线圈出来的点就是所谓的支...

2019-03-08 20:21:59 10824 1

转载 NLP实践四：朴素贝叶斯实现文本分类

朴素贝叶斯原理贝叶斯公式条件独立公式，如果X和Y相互独立，则有： P(X,Y)=P(X)P(Y)\ P(X,Y) =P(X)P(Y) P(X,Y)=P(X)P(Y)条件概率公式： P(Y∣X)=P(X,Y)/P(X)\ P(Y|X) = P(X,Y)/P(X) P(Y∣X)=P(X,Y)/P(X) P(X∣Y)=P(X,Y)/P(Y)\...

2019-03-08 17:10:45 741 1

原创 NLP实践三：特征选择

目录TF-IDFTF-IDF原理TF-IDF实践互信息互信息计算参考链接TF-IDFTF-IDF原理TF-IDF(Term Frequency-Inverse DocumentFrequency, 词频-逆文件频率)。TF-IDF是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频...

2019-03-06 20:41:22 789

原创 NLP实践二：分词的基本概念与生成词向量矩阵

目录基本概念分词的多种匹配方法（[这部分是直接复制的](https://blog.csdn.net/u013061183/article/details/78259727)）正向最大匹配法：逆向最大匹配法：双向最大匹配法：unigram、bigram、trigram的概念词向量矩阵生成过程加载数据集分词生成词汇表生成word_index加载预训练词向量模型生成词向量矩阵参考链接基本概念分词的多...

2019-03-04 21:09:35 4795 3

转载 ROC,PR,AUC的基本概念

常见评测指标TP:将正类预测为正类数FP:将负类预测为正类数FN:将正类预测为负类数TN:将负类预测为负类数准确率准确率（正确率）=所有预测正确的样本/总的样本（TP+TN）/总精确率表示的是预测为正的样本中（一种是把正类预测为正类即TP，一种是把负类预测为正类即FP）有多少是真正的正样本精确率= 将正类预测为正类 / 所有预测为正类 TP/（TP+FP）召回率召回率（...

2019-03-03 11:31:49 1483

原创 NLP实践一：数据探索（数据集处理）

THUCnews与IMDB数据预处理THUCnews数据下载读取数据与分词IMDB数据下载读取数据与分词参考链接THUCnews数据下载中文数据集：THUCNewsTHUCNews数据子集：https://pan.baidu.com/s/1hugrfRu 密码：qfud读取数据与分词以测试集为例：import pandas as pdimport numpy as nptrain...

2019-03-03 11:27:47 1497 4

chen_yiwei的博客