Torero_lch-CSDN博客

原创 Python学习笔记_使用re正则表达式

一、正则单元1、特殊代码，正则表达式中指定的一些字符，指代一些内容或表达规则。\b:单词的开始或结束（只能匹配空格隔开的词）^和$:字符串的开始或结束{ }:表示重复[ ]:表示在范围中的选择，其中特殊代码不起作用|:或\:转义( ):分组\d \w \s 等：指代特定的内容2、内容单元数字：\d [0-9]字母：[a-zA-Z] \w：字母和...

2018-12-06 20:47:08 213

原创 Python学习笔记_使用argparse模块从命令行读取参数

#使用流程：import sysimport argparsedef cmd(): args = argparse.ArgumentParser(description = 'Personal Information ',epilog = 'Information end ') #必写属性,第一位 args.add_argument("name", ...

2018-12-06 20:40:24 1271 1

原创利用pandas求表格分组频率

利用pandas可以根据表中的一列来进行分组，之后可以利用.mean()分组求平均，.count分组求和，但碰到了一个特殊情况需要求每组里每个数出现的频率，没有找到现成的方法，就自己写了一个。思路：1、先利用groupby分组；2、遍历每个分组，得到每个组的表内容；3、在每个分组表里利用value_counts()统计不同值的出现次数，然后利用to_dict()转换成词典（数值：出...

2018-11-20 15:09:03 2355

原创 Joint entity and relation extraction based on a hybrid neural network论文笔记

Joint entity and relation extraction based on a hybrid neural network是中科院自动化所2017年发表在Neurocomputing期刊上的论文，提出了一种用于NER和RC的联合模型，可能同时用到了CNN和LSTM，所以叫做hybrid neural network。一、网络结构：主要分为三个模块：1、编码模块：先...

2018-11-15 14:48:50 2148 2

原创 End-to-End Relation Extraction using LSTMs on Sequences and Tree Structures论文笔记

ACL2016论文End-to-End Relation Extraction using LSTMs on Sequences and Tree Structures中提出了一种用于NER和NRC的端到端的联合模型，并在模型中融入了依存路径信息。这篇论文里涉及到的很多知识之前没关注到，在这里记录下来。1、端到端（end to end）没有找到官方解释，可以参考知乎里的问题，个人理解：端到...

2018-11-06 14:38:49 836

原创 Understanding the difficulty of training deep feedforward neural networks

Understanding the difficulty of training deep feedforward neural networks论文笔记

2018-10-01 20:28:42 283

原创 K-means

K-means算法理解，聚类算法，一直没有看它，但笔试总会考到

2018-09-30 23:38:09 144

原创激活函数和损失函数

激活函数和损失函数总结什么样的函数适合做激活函数？/损失函数？

2018-09-29 08:11:43 181

原创梯度爆炸gradient explode和梯度消失gradient vanish

梯度消失：什么是梯度消失？下图是Bengio等人2012年论文On the difficulty of training recurrent neural networks中提到的说法，当梯度快速的变为0时，使得模型无法学习到远程事件的关联。以前对梯度消失的理解比较模糊，以为就是梯度变得很小，没有去想是哪里的梯度变小，在什么时候发生的，以及在什么情况下会发生(发生的原因)。上面这句话说的比...

2018-09-29 08:10:38 1041

原创 Conv-GRNN and LSTM-GRNN

EMNLP2015论文Document modeling with gated recurrent neural network for sentiment classification笔记

2018-09-26 23:13:54 1960

原创常见排序算法

选择排序：首先在未排序的数列中找到最小的元素，放到数列起始位置，然后在剩余的元素中继续寻找最小的元素，然后放在已经排序序列的末尾，以此类推；时间复杂度：，非稳定；p.s：假设在数列中存在a[i]=a[j]，若在排序之前，a[i]在a[j]前面；并且排序之后，a[i]仍然在a[j]前面。则这个排序算法是稳定的！插入排序插入排序是在一个已经有序的小序列的基础上，一次插入一...

2018-09-20 12:23:34 146

原创计算机网络物理层

近来重读《计算机网络》的笔记；计算机网络定义：既然是网络，就肯定是由节点和链路构成的，不过这里的节点指通用的可编程硬，可编程表明一定包含中央处理器CPU，不仅指PC的CPU，包括计算机、集线器、交换机和路由器等。计算机网络的分类按网络作用范围分类：1、广域网2、城域网：作用范围一般是一个城市；3、局域网：地理上局限在1km左右，例如学校或企业；4、个人区域网：范围10m...

2018-09-16 15:24:30 166

其实直到现在，我对BPTT算法的理解都不太顺畅，暂时把目前的想法记录下来，之后自己实现一遍来加深理解。如果您看出了问题希望能提出来，感激不尽。循环神经网络因为不仅有空间上的层间关系，还有时序上的联系，导致在求梯度时和之前的反向传播算法有点不同。什么意思呢？在BP算法中，通过链式法则和全导数公式就可以求得损失函数关于某一个变量的梯度，但是在循环神经网络中，比如下图中，求E3关于U的偏导，不仅t=...

2018-09-11 20:17:13 2519 1

原创 HAN

NAACL2016论文Hierarchical Attention Network for Document Classification利用分层的注意力机制来构建文本表示向量并用于分类任务，效果很好，作者个人主页http://www.cs.cmu.edu/~zichaoy/。HAN模型就是分层次的利用注意力机制来构建文本向量表示的方法。文本由句子构成，句子由词构成，HAN模型对应这个结构...

2018-09-10 14:04:33 2637 1

原创 TextRNN

这篇是RNN类结构和其用于文本分类的学习总结；一、单向RNN结构：，权重矩阵U、V、W共享。二、双向RNN结构：，，仿照单向的写法也就是。从公式里也可以看出来，正向计算和反向计算不共享权值。三、长短时记忆网络LSTM结构：RNN神经元中只有这一计算，隐藏层的状态对短期的输入非常敏感，存在梯度消失和梯度爆炸的问题。有科学家提出LSTM解决了这个问题，原始的RNN神经元中只有一个隐...

2018-09-10 14:02:24 7643

原创 RCNN

中科院自动化所2015年发表在AAAI上的论文Recurrent Convolutional Neural Network for Text Classification中提出了RCNN。之前就看过来神的狗池历险记，不过那时还没开始接触NLP不知道来神是研究这个的，当看到论文作者时就惊呆了，赶紧去和博客进行对比，确认大神本人无疑了，果然厉害的人在哪都厉害(づ￣ 3￣)づ，博客地址https://l...

2018-09-08 22:53:40 503

原创 Char-CNN

论文Character-level Convolutional Networks for Text Classification中提出了Char-CNN来做文本分类。Char-CNN首先制作字符表，对应把字符转换成one-hot向量，于是一个句子就转换成了字符one-hot向量构成的向量矩阵，然后经过多个卷积层、池化层和全连接层进行分类。个人感觉论文中对模型细节的描述实在太精简了，去翻了好...

2018-09-08 22:52:35 2624 1

原创 TextCNN

Kim 2014年论文Convolutional Neural Networks for Sentence Classification提出了用于文本分类的TextCNN模型。TextCNN描述：首先将句子转换成对应的词向量矩阵，然后通过不同尺寸的卷积核进行计算，类似ngram提取不同长度的文本特征，最后通过池化层和全连接层进行分类。1、设定句子截断长度，把一句话截断或补齐，再将词语转换成...

2018-09-06 17:43:46 668

原创正则化

待填坑

2018-09-06 15:08:43 134

原创 FastText

Facebook 2016发表的论文Bag of Tricks for Efficient Text Classification中提出了FastText模型，结构与word2vec中的CBOW十分相似，如下：将文本中的词语向量求平均得到文本的整体表示（隐藏层hidden），然后输入到一个线性分类器(文中用的是softmax)中进行分类。文中还提出了两个技巧，1、在隐藏层加入ngram...

2018-09-05 11:37:54 460

原创 Word2Vec理解

记录词语的一种分布式表示方法word2vec，论文Distributed Representations of Sentences and Documents，其中有两种常用的无监督模型CBOW和Skip-gram，大同小异，但思想其实是有监督的。关键在于似然函数的构造和训练的加速。一、CBOW已知当前词的上下文来预测当前词，如图Huffman树：带权路径长度最短的树，又称最优...

2018-09-03 18:03:28 389

原创 Dropout理解

1、Dropout是怎么做的？1、随机删除某一层（非输入输出层）的部分神经元。2、然后进行正常的前向计算、反向训练和参数更新。只更新此时有的神经元连接参数，被删除的保持上次数值。3、重复上述步骤。2、dropout为什么可以防止过拟合？ 1、dropout的想法和Bagging类似，dropout掉不同的隐藏神经元就类似在训练不同的网络，相当于对很多个不同的神经网络取平均，而不...

2018-09-02 20:33:29 671

原创反向传播算法

问题：讲讲反向传播算法？1、什么是反向传播算法个人理解：目的是通过梯度下降来求解参数，并利用复合函数的链式求导法则来求梯度。在反向传播过程中，为避免求导路径的重复计算，可以保存一部分计算结果。2、计算过程3、全导数公式 z=f(x,y)，x=u(t)，y=v(t)。那么z关于t的导数就是全导数dz/dt=(偏z/偏u)(du/dt)+(偏z/偏v)(dv/dt)4、...

2018-09-02 16:37:43 319

原创朴素贝叶斯推导和常见问题

1、讲讲朴素贝叶斯朴素贝叶斯是基于贝叶斯定理和特征条件独立假设的分类方法。2、朴素贝叶斯算法流程获取训练样本，确定特征属性；对每个类别计算类各个类的类先验概率; 对每个特征计算分属于各个类别的类条件概率；对于一个样本，计算每个类别的类条件概率和各特征的类先验概率乘积以第4步值最大的类别作为样本的所属类别；其中，第2、3步时模型的训练阶段，第4、5步是应用阶段。3、N...

2018-08-30 17:00:13 2212

原创线性回归和逻辑回归常见问题

问题来源逻辑回归常见问题1.逻辑斯蒂回归推导2.简述一下线性回归3.为什么逻辑斯特回归中使用最大似然函数求得的参数是最优可能的参数值？最大似然估计的核心是让所采样的样本出现的概率最大，利用已知的样本情况，反推使其最有可能发生的模型参数。对于逻辑回归，样本已经采样了，使其发生概率最大才是符合逻辑的。4.逻辑回归是线性模型吗？逻辑回归是广义的线性模型，就是在线性回归基础上加了一...

2018-08-30 10:57:07 1568

原创逻辑回归推导

问题：讲讲逻辑回归1、什么是逻辑回归逻辑回归假设数据服从伯努利分布，通过极大化似然函数的方法，运用梯度下降来求解参数，达到将数据分类的目的。2、模型函数、目标函数和求解3、逻辑回归用于多分类有两种解决方法，训练k个LR;扩展为softmax回归。1、训练k个LR假设有k个类别，每次挑选一个类别，将其设定为正例，其他类别的样本全部设定为负例，训练出一个LR；然后选择不...

2018-08-29 17:15:46 557

宗成庆老师NLP讲义ch1

Classifying Relations via Long Short Term Memory Networks

空空如也