布拉拉巴卜拉-CSDN博客

原创 NLP（二）文本生成 --VAE与GAN模型和迁移学习

NLP之文本生成原理（二）--VAE与GAN模型VAE与GAN模型1. Auto Encoder 自编码器1.1 结构1.2 核心思想1.3 损失函数1.4 Denoising Auto Encoder(降噪自编码器)2. Variational Auto Encoder (VAE)2.1 核心思想2.2 损失函数2.3 KL divergence(KL散度)3. GAN(generative adversarial networks)3.1 GAN结构与核心思想3.2 训练 GAN 的难点3.3 如何优化

2020-08-18 21:47:49 3489

原创 NLP（一）文本生成 --Sampling问题

NLP之文本生成原理（一）--Sampling问题NLP之文本生成原理（一）--Sampling问题1. Greedy Decoding1.1 Greedy Search1.2 Beam Search1.3 Greedy Decoding与Beam Search存在问题2. Sampling引入随机性2.1 随机Sampling(vocab(y~i~))2.2 随机Sampling存在问题2.3 top-k sampling2.4 Neucleus SamplingNLP之文本生成原理（一）–Sampli

2020-08-18 21:45:34 2964 1

原创机器学习（十二）~条件随机场(CRF)

机器学习（十二）~条件随机场（CRF）机器学习（十二）~条件随机场(CRF)1. HMM要点1.1 两个假设1.2 三组参数2. MEMM要点2.1 核心思想2.2 存在问题3. 条件随机场(CRF)4. Liner-Chain CRF公式与解析5. CRF三大问题6. CRF应用机器学习（十二）~条件随机场(CRF)终于把CRF这关过了，查了好多资料，网上很多资料都模棱两可，看了还是不明就里，建议小伙伴们最好的方法还是老老实实啃论文、啃书，权威又有逻辑，条理清晰，看不进去书的小伙伴们，这篇博客希望可以

2020-08-16 16:10:54 555

原创 PyTorch实战（X） - - 神经网络常见细节技巧

神经网络常见细节技巧定义模型时：initrange = 0.5 / self.embed_size self.out_embed = nn.Embedding(self.vocab_size, self.embed_size, sparse=False) self.out_embed.weight.data.uniform_(-initrange, initrange) //权重初始化的一种方法torch.bmm()为batch间的矩阵相乘（b,n,m)*(b,m,

2020-08-14 11:45:45 797

原创项目实战（十） - - GPT-2实现文本生成

项目实战（十） - - GPT-2实现文本生成GPT-2实现文本生成1. Result 呈现2. GPT-2 VS BERT3. Self-Attention VS Masked Self-Attention4. SamplingGPT-2实现文本生成由于GPT-2主要基于Transformer的Decoder模块，前两节笔记中已将大部分要点详细介绍，本节更多的关注GPT-2不同的部分1. Result 呈现GPT-2实现文本生成的成果展现，给定一个输入，模型会将后续向量依次输出，从而生成句子子，理

2020-08-14 11:44:29 3705 3

原创项目实战（九） - - Transformer实现与分析

项目实战（九） - - Transformer实现与解读1. Transformer简介2. Encoder-Decoder整体结构2.1 Transformer Encoder2.2 Transformer Decoder3. 核心技巧与代码解析3.1 Positional Encoding3.2 Self Attention Mechanism3.3 Multi-Head Self Attention3.4 残差连接3.5 Layer Normalization4. Transformer VS Seq

2020-08-08 14:54:15 2035 1

原创项目实战（八） - - BERT实现与Fine-tuning

项目实战（八） - - BERT解读与Fine-tuning1. BERT简介2. 两个语言模型任务：2.1 完形填空Masked Language Model2.2 Next Sentence Prediction3. 细节技巧3.1 LOSS计算3.2 激活函数GELU4. 代码实现与解析5. Fine-tuning1. BERT简介BERT 全称为 Bidirectional Encoder Representation from Transformer，是 Google 以无监督的方式利用大量无

2020-08-06 19:02:46 1496

原创项目实战(七) - - 机器翻译（二）Seq2Seq+Attention

PyTorch实战 - - 机器翻译（二）Seq2Seq+Attention1. 任务概述2. 算法流程3. 代码实现与解析1. 任务概述在上篇Seq2Seq的文章中我们介绍了怎么用encoder-decoder框架实现机器翻译任务，现在加上注意力机制2. 算法流程Encoder(x,x_len):return encoder_output,encoder_hidContext=encoder_output,context_len=x_lenDecoder(Context,context_le

2020-08-03 09:13:57 680

原创项目实战（六） - - 机器翻译（一）Seq2Seq

PyTorch实战（六） - - 机器翻译（一）Seq2Seq1. 任务概述2. 算法流程3. 代码实现与解析1. 任务概述实现英文句子翻译成中文句子，除了机器翻译，seq2seq其实可以用在很多地方，例如自动对话机器人，文档摘要自动生成，图片描述自动生成等任务2. 算法流程①读取数据（英文句子，中文句子）②构建单词表、词编码③构造batch：按长度排序，每个batch内句长相似，pad补齐④定义模型⑤定义损失与优化⑥训练与评估3. 代码实现与解析读入中英文数据：[‘BOS’]+[t

2020-08-02 22:29:51 1056

原创项目实战（五） - - 用三种神经网络实现文本分类(AVG/RNN/CNN)

PyTorch实战（五） - - 文本分类1. 任务概述2. 算法步骤3. 代码实现与解析3.1 Word Averaging模型3.2 RNN模型3.3 CNN模型1. 任务概述2. 算法步骤3. 代码实现与解析导入相关包数据预处理（分词，语料库，词编码）TEXT=data.Field(tokenize=tokenizer)LABEL = data.LabelField(dtype=torch.float)train_data,test_data=datasets.IMDB.split

2020-08-02 18:04:46 761

原创项目实战（四） - - LSTM实现语言模型

PyTorch实战（四） - - 语言模型1. 任务概述2. 算法步骤3. 代码实现与解析3.1 导入相关包3.2 构造训练数据集3.3 定义模型3.4 定义loss function和optimizer3.5 训练步骤3.6 测试3.7 句子生成1. 任务概述根据上下文语境基于概率预测下一个词，通过对网络训练一定程度后，最后的模型参数可当成词向量使用2. 算法步骤构造数据集定义模型Layers:Embedding,LSTM,Linear训练与评估Loss:CrossEntropyLoss

2020-08-02 17:43:33 811

原创项目实战（三） - - 实现词向量模型Word2vec

PyTorch实战 - - 词向量Word2vec1. 词向量模型--Word2vec2. 两种网络结构2.1 CBOW2.1.1 算法任务2.1.2 算法步骤2.2 Skip-gram2.2.1 算法任务2.2.2 算法步骤3. 如何优化4. 代码实现与解析4.1 导入相关包4.2 数据预处理4.3 定义Dataset与DataLoader4.4 定义模型4.5 训练4.6 Evaluate4.7 test -- 求最相似的n个词5. Word2Vec存在的问题在自然语言处理应用中，词向量作为深度学习

2020-08-01 11:10:28 1059 1

原创项目实战（二） - - 搭建简单神经网络

PyTorch实战（二） - - 搭建简单神经网络1. PyTorc项目流程：2. 项目代码及解析1. PyTorc项目流程：①数据读取、转换、加载②将批量数据传入网络③计算损失④梯度清零⑤反向传播计算梯度2. 项目代码及解析// 导入相关包import torchimport torch.nn as nn// 随机创建一些训练数据N,D_in,H,D_out=64,1000,100,10x=torch.randn(N,D_in)y=torch.randn(N,D_out)

2020-07-31 18:58:01 321

原创项目实战（一） - - PyTorch简介

PyTorch实战（一） - - PyTorch简介1. 为什么选择选择PyTorch？2. PyTorch安装验证3. 常用PyTorch库：3.1. 常用网络层3.2. 常用激活函数3.3. 常用损失函数4. PyTorch项目流程5. CUDA简介6. 张量1. 为什么选择选择PyTorch？①用途： PyTorch的计算图是动态的，而其他框架通常是静态的，许多深度学习领域的前沿研究都需要动态图或从动态图中获益 (计算图是用于描绘神经网络中张量的函数操作，通常用于计算优化神经网络权重所需的导数)

2020-07-31 18:48:50 744

原创常见笔试编程数据结构（二）~ 链表类

数据结构（二）~ 链表链表*EASY1. ADT2. 删除链表中的节点，除了末尾节点，只允许访问要被删的节点3. 判定一个链表是否存在环4. 寻找循环链表中环的开始节点5. 删除链表倒数第N个节点(leetcode19)6. 链表分半¶7. 合并两个排好序的链表(leetcode21)8. 寻找两个链表的交叉口(leetcode160)9. 链表的插入排序10. 链表归并排序O（n lgn）--MergeSort11. Partition--QuickSort的第一步12. 反转链表(leetcode206

2020-06-28 13:44:54 190

原创常见笔试编程数据结构（一）~ 数组与矩阵类

数组、矩阵与链表1. 数组和矩阵* EASY(1) 挖雷游戏(2) 矩阵0变换(3) 旋转数组(4) 反转字符串(5) 最大数(6) Plus One(7) leecode189 旋转数组(8) leetcode283 移动零(9) leetcode 566 重塑矩阵(10) leetcode 485. 最大连续1的个数(11) leetcode 645. 错误的集合(12) leetcode 697. 数组的度(13) leetcode 766. 托普利茨矩阵* ADVANCED2. 链表* EASY*

2020-06-28 13:42:49 6993

原创常见面试题（二）~模型评估

面试题（二）~模型评估模型评估1 模型评估的局限性* 准确率的局限性* 精确率与召回率的权衡* 平方根误差的“意外”2 ROC曲线* 什么是ROC曲线？* 如何计算AUC?* ROC曲线VS P-R曲线？3 余弦距离* 结合你的学习和研究经历，探讨为什么在一些场景中要使用余弦相似度而不是欧氏距离？* 余弦距离是否是一个严格定义的距离？4 A/B测试的陷阱* 在对模型进行过充分的离线评估后为什么还要进行在线A/B测试？* 如何进行线上A/B测试？* 如何划分实验组和对照组？5 模型评估的方法* 在模型评估中，

2020-06-27 20:51:36 562

原创常见面试题（一）~特征工程

面试题（一）~特征工程特征工程1 归一化* 为什么需要对数值类型的特征做归一化？2 类别特征* 在对数据进行预处理时，应该怎样处理类别特征？3 组合特征* 什么是组合特征？如何处理高维组合特征？4 文本表示* 有哪些文本表示模型？它们各有什么优缺点？5 Word2Vec(常用词嵌入模型)* Word2Vec是如何工作的？它和LDA有什么区别与联系？6 图像数据不足时的处理方法* 图像分类时训练样本不足会有什么问题？如何缓解？特征工程1 归一化* 为什么需要对数值类型的特征做归一化？答：消除数据特征

2020-06-27 20:49:22 506 1

原创深度学习(八)~神经网络正则化方法

深度学习（八）~神经网络正则化方法神经网络正则化方法1. L1和L2正则化2. 权重衰减(Weight Decay)3. Early Stopping4. Dropout5. 数据增强(Data Augmentation)6. 标签平滑(Label Smoothing)神经网络正则化方法在传统的机器学习中，提高泛化能力的方法主要是限制模型复杂度，比如采用L1和L2正则化等方式。而在训练深度神经网络时，特别是在过度参数化时，L1和L2的效果往往不如浅层机器学习模型中显著。因此训练深度学习模型时，往往还会使

2020-06-23 08:26:43 631

原创深度学习(七)~神经网络常见优化方法

深度学习（七）~神经网络常见优化方法神经网络常见优化方法1. 神经网络为什么要优化？2. 优化什么？3. 梯度下降的方法(1). 梯度下降(2). 随机梯度下降(也称增量梯度下降法)(3). 小批量梯度下降4. 批量大小的选择5. 自适应学习率调整(1). Adagrad算法(2). RMSprop算法(3). Adadelta算法6. 梯度估计修正(1). 动量法(2). Nesterov加速度(3). Adam算法(4). 梯度截断7. 常用优化算法小结神经网络常见优化方法1. 神经网络为什么要优化

2020-06-23 08:25:43 2324

原创深度学习（六）~注意力机制

深度学习（七）~注意力机制注意力机制1. 为什么要引入注意力机制？2. 注意力分类3. 注意力机制计算步骤4. Encoder-Decoder框架(1). RNN-Encoder阶段(2). RNN-Decoder阶段(3). Attention-Decoder阶段5. 注意力机制实现形式(1). 软性注意力(2). 硬性注意力(3). 键值对注意力6. Self-Attention7. Self-Attention如何应用注意力机制1. 为什么要引入注意力机制？①计算能力的限制要记住更多信息，

2020-06-13 21:33:51 1569

原创深度学习（五）~ LSTM 与 GRU

深度学习（六）~基于门控的循环神经网络基于门控的循环神经网络1. 长短期记忆神经网络(LSTM)1. RNN vs LSTM2. LSTM工作机制(1).【LSTM前向传播】(2).【LSTM反向传播】2. 门控循环单元网络(GRU)1. GRU工作机制基于门控的循环神经网络1. 长短期记忆神经网络(LSTM)1. RNN vs LSTM参数学习过程中连乘项可能发生极大或极小的情况，从而影响最终结果，也即梯度消失与梯度爆炸问题LSTM采用了累加形式解决这一问题，但它的实现较复杂.与传统的循环神经

2020-06-12 12:59:20 1208

原创深度学习(四)~循环神经网络

深度学习（六）~循环神经网络循环神经网络1. RNN训练流程2. 参数学习(1)【RNN前向传播算法】(2)【随时间反向传播算法(BPTT)】(3) 随时间反向传播算法(BPTT) VS 实时循环学习算法(RTRL)3. RNN应用：(1). 序列到类别模式(2). 同步的序列到序列模式(3). 异步的序列到序列模式4. 长程依赖问题(1). 梯度消失(2). 梯度爆炸5. 改进方案-基于门控的循环神经网络(1) LSTM(2) GRU循环神经网络1. RNN训练流程【RNN训练过程】a. 前向计算

2020-06-11 21:22:40 1060

原创深度学习（三）~卷积神经网络

深度学习（五）~卷积神经网络卷积神经网络1. 卷积神经网络简介2. 卷积方式3. 卷积神经网络的层级结构4. 参数学习5. 几种典型的卷积神经网络：(1) LeNet-5①网络结构(2) AlexNet①网络结构②突破点(3) Inception网络：①突破点(4) 残差网络(ResNet)：卷积神经网络1. 卷积神经网络简介卷积神经网络是一种深层前馈神经网络，比全连接前馈网络参数更少特点：1.局部连接 2.权值共享 3.汇聚这些特点使得卷积神经网络具有一定程度上的平移、缩放和旋转不变性CNN

2020-06-11 21:21:05 477

原创深度学习（二）~常用神经网络结构

深度学习（二）~常用神经网络结构常用神经网络结构1. 前馈网络(1) 全连接神经网络(FNN)(2)卷积神经网络(CNN)2. 记忆网络(1) 循环神经网络(RNN)(2) LSTM(3) GRU3. 图网络常用神经网络结构1. 前馈网络特点：每一层神经元接收前一层神经元的输出，相当于有向无环图实现方式：前馈网络包括全连接前馈网络和卷积神经网络(1) 全连接神经网络(FNN)**特点：**每一层是全连接层—即每一层的每个神经元与上一层所有神经元都有连接；作用：**a. ** 多个全连接层可

2020-06-11 21:18:49 788

原创深度学习(一)~常见激活函数

深度学习（一）~常见激活函数常见激活函数1. Sigmoid型函数1. Logistic函数2. Tanh函数3. Hard-Logistic函数和Hard-Tanh函数2. ReLU函数(1). Leaky ReLU(2). 带参数的ReLU(即PReLU)(3). ELU函数(4). Softplus函数3. Swish函数4. GELU函数5. Maxout单元常见激活函数为了增强网络的表示能力和学习能力，激活函数须具备以下性质：(1) 连续并可导(允许少数点不可导)的非线性函数。可导的激活函数

2020-06-11 21:16:44 663

空空如也

空空如也