sun_brother-CSDN博客

转载 word2vec中的负采样

1. Hierarchical Softmax的缺点与改进　　　　在讲基于Negative Sampling的word2vec模型前，我们先看看Hierarchical Softmax的的缺点。的确，使用霍夫曼树来代替传统的神经网络，可以提高模型训练的效率。但是如果我们的训练样本里的中心词w是一个很生僻的词，那么就得在霍夫曼树中辛苦的向下走很久了。能不能不用搞这么复杂的一颗霍夫曼树，将模型...

2018-08-23 10:11:28 6620

原创哈希函数的构造方法与解决冲突的方法

哈希函数的构造方法有：直接定址法、数字分析法、平方取中法、折叠法、除留余数法、随机数法；处理冲突的方法：开放地址法（线性探测、二次探测、伪随机探测）、链地址法、多重散列法开放定址法解决冲突的做法是：当冲突发生时，使用某种探查(亦称探测)技术在散列表中形成一个探查(测)序列。沿此序列逐个单元地查找，直到找到给定的关键字，或者碰到一个开放的地址(即该地址单元为空)为止。与开放定址法...

2018-07-26 17:04:03 1125 1

原创 LSTM按句子长度在输出层取平均代码

# 取平均(BiLSTM)self.out = tf.concat(self.lstm_outputs, -1)#self.sequence_length 句子长度，self. inputs 输入的句子self.output = tf.reduce_sum(self.out, 1) / tf.reshape( tf.cast(self.sequence_length, d...

2018-07-20 20:16:17 1074

原创 CRF++中的模板构建

根据CRF++包中给出的例子可以较为清楚的知道有那些模板构建方法。模板构建分为两类，一类是Unigram标注，一类是Bｉgram标注。 Unigram模板是比较常用的模板，这类模板提取的信息较为全面，组成的模板数量也比较多；Bigram模板比较简单，一般是当前词和前面一个词的自动组合生成的Bigram特征集合。主要介绍Unigram模板UnigramU00:%x[-2,0] U01...

2018-06-15 17:12:35 3301

转载采样

引子最近开始拾起来看一些NLP相关的东西，特别是深度学习在NLP上的应用，发现采样方法在很多模型中应用得很多，因为训练的时候如果预测目标是一个词，直接的softmax计算量会根据单词数量的增长而增长。恰好想到最开始深度学习在DBN的时候采样也发挥了关键的作用，而自己对采样相关的方法了解不算太多，所以去学习记录一下，经典的统计的方法确实巧妙，看起来非常有收获。本篇文章先主要介绍一下经典的采样...

2018-06-15 09:43:03 192

转载 Deep Reinforcement Learning 基础知识（DQN方面）

Introduction深度增强学习Deep Reinforcement Learning是将深度学习与增强学习结合起来从而实现从Perception感知到Action动作的端对端学习的一种全新的算法。简单的说，就是和人类一样，输入感知信息比如视觉，然后通过深度神经网络，直接输出动作，中间没有hand-crafted工作。深度增强学习具备使机器人实现完全自主的学习一种甚至多种技能的潜力。虽...

2018-06-04 11:13:50 2701

原地址：https://blog.csdn.net/u011332699/article/details/74298555引子最近开始拾起来看一些NLP相关的东西，特别是深度学习在NLP上的应用，发现采样方法在很多模型中应用得很多，因为训练的时候如果预测目标是一个词，直接的softmax计算量会根据单词数量的增长而增长。恰好想到最开始深度学习在DBN的时候采样也发挥了关键的作用，而自己对采样相关的...

2018-05-28 16:19:26 2736 1

原创基于检索的聊天机器人

检索模型所使用的回复数据通常是预先存储且事先定义的数据，而不像生成式模型那样可以创造出未知的回复内容。准确来说，检索式模型的输入是一段上下文内容，和一个可能作为回复的候选答案，模型的输出是对这个候选答案的打分。寻找最合适的回复内容的过程是：先对一堆候选答案进行打分及排序，最后选出分值最高的那个作为最终回复。直觉来说，一对问答对如果query和response中语义上相近的词越多，那query和...

2018-05-27 10:34:20 5507

转载 TF-IDF介绍

TF-IDF（Term Frequency-Inverse Document Frequency），词频-逆文档频率算法，它是一种统计方法，用于评估一字词对一文件集或一语料库的中的某一篇文档的重要性，字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。总结一下，就是一个词在一篇文档中出现的次数越多，同时在其他所有文档中出现的次数越少，这个词越能代表这...

2018-05-18 11:17:03 7751 1

原创语言模型简介

语言模型语言模型可以对一段文本的概率进行估计，对信息检索，机器翻译，语音识别等任务有着重要的作用。语言模型分为统计语言模型和神经网络语言模型。下面一次介绍着两类语言模型。统计语言模型要判断一段文字是不是一句自然语言，可以通过确定这段文字的概率分布来表示其存在的可能性。语言模型中的词是有顺序的，给定m个词看这句话是不是一句合理的自然语言，关键是看这些词的排列顺序是不是正确的。所以统计语...

2018-05-17 19:18:40 12496 3

原创 word2vec、glove和 fasttext 的比较

Word2vec 处理文本任务首先要将文字转换成计算机可处理的数学语言，比如向量，Word2vec就是用来将一个个的词变成词向量的工具。 word2vec包含两种结构，一种是skip-gram结构，一种是cbow结构，skip-gram结构是利用中间词预测邻近词，cbow模型是利用上下文词预测中间词这两种模型有三层，输入层，映射层，输出层，隐藏层是线性结构，所以相对于语言模型训练较快。...

2018-05-17 08:59:26 25510 4

原创条件随机场模型与双向LSTM

条件随机场模型CRF（Conditional Random Field） CRF是一种判别式模型，判别式模型是对条件分布进行建模，生成式模型是对联合分布进行建模。判别式模型评估对象是最大化条件概率p(y|x)并直接对其建模，生成式模型评估对象是最大化联合概率p(x,y)并对其建模。典型的生成式模型有N-Gram语言模型，隐马尔科夫模型，马尔科夫随机场，朴素贝叶斯模型，LDA和最近很火的生成对...

2018-05-10 10:41:30 3276

原创 BP算法推导

BP算法推导BP算法（BackPropagation）反向传播算法又叫误差逆传播算法（error BackPropagation），它是迄今最成功的神经网络学习算法。现在从神经网络训练的角度推导BP算法。给定训练集D={(x1,y1),(x2,y2),⋯,(xm,ym)},xi∈Rd,yi∈RlD={(x1,y1),(x2,y2),⋯,(xm,ym)},xi∈Rd,yi∈RlD=\{(...

2018-05-02 16:41:43 2377 1

原创过拟合、正则化、L1与L2正则

正则化(regularization)，是指在线性代数理论中，不适定问题通常是由一组线性代数方程定义的，而且这组方程组通常来源于有着很大的条件数的不适定反问题。大条件数意味着舍入误差或其它误差会严重地影响问题的结果。通俗定义：就是给平面上不可约代数曲线以某种形式的全纯参数表示。主要解决的问题1、正则化就是对最小化经验误差函数加上约束（比如在分类损失函数中，交叉熵后面的那一项就是约束项，...

2018-04-25 14:26:50 1711 1

sun_brother的博客