韩明宇-CSDN博客

原创迁移学习与模型融合问题若干

1.word2vec与Elmo模型在语义学习上差异是什么？word2vec就是nlp中预训练的一种方式。但是word2vec有一个缺点就是无法解决多义词，因为每一个词只有用一个向量表示。ELMO是“Embedding from Language Models"简称。在此之前word embedding本质是个静态方式，静态的意思就是说单词训练好之后就固定了，在以后使用时，单词不会跟着上下文...

2020-03-22 16:41:20 746

原创 CS224N刷题——Assignment3.1_A window into NER

Assignment #3A primer on named entity recognition这一节作业我们会建立几种不同的模型来实现命名实体识别（NER）。NER是信息抽取的一个子任务，旨在将文本中的命名实体定位并分类为预先定义的类别，如人名、组织、地点、时间表达式、数量、货币值、百分比等。对于上下文中给定的一个单词，预测它是否代表下列四个类别中的一个：人名（PER）：例如“Ma...

2019-08-19 20:54:20 395

原创 CS224N笔记——神经机器翻译与Attention机制

目录神经机器翻译NMT神经机器翻译的架构神经机器翻译的青铜时代现代神经机器翻译的序列模型RNN EncoderDecoder:循环语言模型机器翻译的发展神经机器翻译的四大优势统计/神经机器翻译神经机器翻译主要由工业界促进Attention:朴素RNN&长序列Attention机制词语对齐同时学习翻译和对齐Scoring 神经...

2019-08-19 20:54:01 522

原创 CS224N笔记——机器翻译和GRU以及LSTM

目录复习使用RNN的机器翻译GRULSTM 复习 Word2Vec：Glove：Nnet&Max-margin：，Multilayer Nnet&Backprop：，RNN：，Cross Entropy：Mini-batch SGD：使用RNN的机器翻译红圈所示特征表示必须能捕捉整个原文短语的语义，但是RNN无法记...

2019-08-19 20:53:57 295

原创 CS224N笔记——RNN和语言模型

目录传统语言模型循环神经网络语言模型损失函数训练RNN时的困难梯度消失问题梯度消失实例防止梯度爆炸减缓梯度消失困惑度结果问题：softmax太大且太慢一个实现技巧序列模型的应用双向和深层RNNs双向RNNs深层双向RNNs评测传统语言模型语言模型就是计算一个单词序列（句子）的概率的模型。可以用于机器翻译中，判断译文序列中...

2019-08-19 20:53:51 258

原创论文笔记《BERT》

论文题目：BERT-Bidirectional Encoder Representations from TransformersMasked Language Model(MLM)随机掩码语言模型：给定一个输入序列：[CLS] The dog jumped over the log. [SEP] 随机mask15%的token：[CLS] The dog jumped [MAS...

2019-07-18 20:13:53 384

原创论文笔记《Attention Is All You Need》

论文模型：Transformer目录Transformer之前的经典算法模型1.循环神经网络2.带有注意力机制的循环神经网络3.注意力权重函数4.卷积神经网络自注意力机制自注意力函数编码自注意力解码自注意力自注意力机制与注意力机制的区别并行的注意力头多头注意力Transformer模型框架模型框架编码器解码器编码器与解码...

2019-07-17 21:52:11 264

原创 LeetCode每周刷题（2019.7.8-2019.7.14）

409. 最长回文串利用哈希表（python字典）统计每个字母的频次，如果是偶数可以全部加入最长回文串，如果是奇数频次减一加入最长回文串，如果有奇数的字母加入，则可以放在回文串中心，最终长度加一。class Solution(object): def longestPalindrome(self, s): """ :type s: str ...

2019-07-15 21:39:46 154

原创 deeplearning.ai——字符级语言模型-恐龙岛

数据集包含了所有恐龙的名字，构建一个字符级语言模型来创建新的恐龙名称，算法能够学习不同的名称模式，并随机生成新的名称。完成这项作业能够学到：如何存储文本数据以便使用RNN进行处理如何合成数据，通过在每个时间步采样预测值并将其传递给下一个RNN单元如何构建一个字符级文本生成循环神经网络为什么剪裁梯度很重要1 - Problem Statement1.1 - Datas...

2019-07-15 17:07:29 541

原创 deeplearning.ai——构建循环神经网络

目录1 - Forward propagation for the basic Recurrent Neural Network1.1 - RNN cell1.2 - RNN forward pass2 - Long Short-Term Memory (LSTM) network2.1 - LSTM cell2.2 - Forward pass for LSTM3 -...

2019-07-15 14:21:46 216

转载爬虫之Re库入门

学习地址：https://www.icourse163.org/learn/BIT-1001870001?tid=1003245012#/ 正则表达式正则表达式的常用操作符匹配IP地址的正则表达式IP地址分四段，每段0-255 Re库的基本使用正则表达式的表示类型raw string类型（原生字符串类型）string类型，更繁琐Re...

2019-07-04 19:28:57 324

原创 LeetCode每周刷题（2019.7.1-2019.7.7）

69. x 的平方根利用二分法，如果中值平方大于x则在左边寻找，如果中值+1的平方小于等于x则在右边寻找，如果中值平方小于等于x且中值+1的平方大于x，则该中值就是返回的整数平方根。class Solution(object): def mySqrt(self, x): """ :type x: int :rtype: int...

2019-07-04 14:55:11 148

转载爬虫之Beautiful Soup库入门

学习地址：https://www.icourse163.org/learn/BIT-1001870001?tid=1003245012#/Beatiful Soup库官网：https://www.crummy.com/software/BeatifulSoup Beatiful Soup库的基本元素 Beatiful Soup库的理解Beatiful Soup库是解析、...

2019-07-03 14:58:20 311

原创 LeetCode每周刷题（2019.6.24-2019.6.30）

167. 两数之和 II - 输入有序数组由于数组已经按照升序排列，利用双指针，i指针指向数组头，j指针指向数组尾，如果两数之和大于目标数则j前移，如果两数之和小鱼目标数则i后移，直到找到两个值。class Solution(object): def twoSum(self, numbers, target): """ :type number...

2019-06-30 14:20:32 113

转载爬虫之Requests库入门

学习地址：https://www.icourse163.org/learn/BIT-1001870001?tid=1003245012#/ Requests库的七个主要方法 requests.get()方法 r=requests.get(url,params=None,**kwargs)url:拟获取页面的url链接 params:url中的额外参数，字典或字节流格式，...

2019-06-29 23:41:48 312

原创深度之眼-科赛网二分类大赛入门之路

比赛简介比赛网址：https://www.kesci.com/home/competition/5c234c6626ba91002bfdfdd3/content比赛题目：「二分类算法」提供银行精准营销解决方案赛题描述：数据：训练集：测试集（没有标签y）：字段说明：NO 字段名称数据类型字段描述 1 ID Int...

2019-06-29 17:57:15 1157

原创权力的游戏击杀和家族知识图谱（python+neo4j）

一、任务描述数据集是github上某大神整理出来的全八季任务信息，包括姓名、家族、杀了谁、被谁杀了等等。本文做的知识图谱仅包含所有人物及其被杀关系和家族关系。数据集链接：https://github.com/jeffreylancaster/game-of-thrones/blob/master/data/characters.json二、neo4j的安装和部署参考：https:/...

2019-06-21 22:31:46 2590

转载 TensorFlow共享变量

你可以在怎么使用变量中所描述的方式来创建，初始化，保存及加载单一的变量.但是当创建复杂的模块时，通常你需要共享大量变量集并且如果你还想在同一个地方初始化这所有的变量,我们又该怎么做呢.本教程就是演示如何使用tf.variable_scope()和tf.get_variable()两个方法来实现这一点.问题假设你为图片过滤器创建了一个简单的模块，和我们的卷积神经网络教程模块相似,但是这里包括...

2019-06-20 20:51:00 127

转载 TensorFlow变量：创建、初始化、保存和加载

当训练模型时，用变量来存储和更新参数。变量包含张量 (Tensor)存放于内存的缓存区。建模时它们需要被明确地初始化，模型训练后它们必须被存储到磁盘。这些变量的值可在之后模型训练和分析是被加载。本文档描述以下两个TensorFlow类：tf.Variable类 tf.train.Saver类创建当创建一个变量时，你将一个张量作为初始值传入构造函数Variable()。Tenso...

2019-06-20 18:06:57 508

原创达观杯文本分类——基于N-gram和LogisticRegression

任务与数据建立模型通过长文本数据正文（article），预测文本对应的类别（class）。数据包含2个csv文件：train_set.csv：此数据集用于训练模型，每一行对应一篇文章。文章分别在“字”和“词”的级别上做了脱敏处理。共有四列：第一列是文章的索引(id)，第二列是文章正文在“字”级别上的表示，即字符相隔正文(article)；第三列是在“词”级别上的表示，即词...

2019-06-20 10:32:49 1622

原创论文笔记《Neural Machine Translation by Jointly Learning to Align and Translate》

中文题名：基于联合学习对齐和翻译的神经机器翻译目录摘要背景：神经机器翻译任务定义编码器-解码器框架（基线）编码器（基线）解码器（基线）模型效果存在的问题学习对齐和翻译RNNenc vs RNNsearchRNNsearch的编码器RNNsearch的解码器注意力思想注意力机制RNNsearch模型的解码器的计算步骤RNNsearc...

2019-06-20 00:11:26 840 1

原创信息熵、互信息、KL散度

信息熵自信息量设离散信源X的概率空间为：，称事件发生所含有的信息量为的自信息量：信息熵自信息的数学期望为平均自信息量，称为信息熵：当r=2时：信息熵的单位由自信息量的单位决定，即取决于对数的底。交叉熵假设一个样本集中两个概率分布p,q，其中p为真实分布，q为非真实分布，如果采用错误的分布q来表示来自真实分布p的平均编码长度，则应该是...

2019-06-17 16:46:04 1818

原创最大后验估计与共轭分布

最大后验分布先验信息先验信息是指获得样本的试验之前，获得的经验和历史资料。先验分布将总体中的未知参数看成一个取值于的随机变量，它有一概率分布，记为，称为参数的先验分布。后验概率在贝叶斯统计学中，把以上的三种信息归纳起来的最好形式是在总体分布基础上获得的样本，和参数的联合密度函数是：在这个联合密度函数中，当样本给定之后，未知的仅是参数了，我们关心...

2019-06-17 15:47:24 301

原创 CS224N刷题——Assignment3.2_Recurrent neural nets for NER

Assignment #32. Recurrent neural nets for NER每一个RNN单元利用一个sigmoid将隐藏状态向量和输入结合起来，然后在每一个时间步利用隐藏状态来预测输出：其中是词向量，是RNN单元的参数，是softmax的参数。和之前一样，V是单词表的大小，D是词向量的大小，H是隐藏层的大小，C是预测的类别数（这里是5）。为了训练模型，我们对每...

2019-06-17 14:48:40 426 2

原创 deeplearning.ai——TensorFlow指南

1 - Exploring the Tensorflow Library导入库：import mathimport numpy as npimport h5pyimport matplotlib.pyplot as pltimport tensorflow as tffrom tensorflow.python.framework import opsfrom tf_util...

2019-06-07 19:30:38 719

原创深度学习中的优化方法

目录1.梯度下降2.随机梯度下降3.Mini-batch梯度下降4.Momentum5.Adam1.梯度下降即每一步在所有m个样本上更新一次梯度，也称作批量梯度下降(Batch Gradient Descent)。对于：其中，L是神经网络的层数，是学习率。2.随机梯度下降相当于每一个batch只有一个样本的mini-batch，更新策略与梯度下降大致...

2019-06-03 18:01:09 1885

原创主成分分析

协方差 1.协方差期望值分别为E[X]与E[Y]的两个实随机变量X与Y之间的协方差Cov(X,Y)：2.协方差矩阵设为n维随机变量，称矩阵：为n维随机变量X的协方差矩阵，其中为X的分量和的协方差。意义在力求数据信息丢失最少的原则下,对高维的变量空间降维,即研究指标体系的少数几个线性组合,并且这几个线性组合所构成的综合指标将尽可能多地保留原来指标变异方面...

2019-06-03 15:20:59 351

原创矩阵求导与Hessian矩阵

标量关于标量的导数向量关于标量的导数设向量和标量x，则矩阵关于标量的导数设M×N矩阵和标量x，则标量关于向量的导数设标量y和向量，则向量关于向量的导数设向量和向量，则，即Jacobian矩阵。矩阵关于向量的导数设M×N矩阵和p维向量，则，其中标量关于矩阵的...

2019-05-31 19:18:38 10357 1

原创 CS224N笔记——深入GRU和LSTM

目录深入GRUUpdate GateReset Gatetanh-RNN与GRU的对比GRU与LSTM的对比深入LSTM训练一个RNNEnsemble 深入GRU RNN的梯度消失：损失在反向传播中必须经过所有中间节点。GRU额外添加了一些“捷径”红线，允许梯度直接流过去，而不是连乘的方式递减过去。Update Gate用来自适应学...

2019-05-31 16:18:30 240

转载 CS224N笔记——依存句法分析

语言学的两种观点如何描述语法，有两种主流观点，其中一种是短语结构文法（上下文无关文法），英文术语是：Constituency = phrase structure grammar = context-free grammars (CFGs)。这种短语语法用固定数量的rule分解句子为短语和单词、分解短语为更短的短语或单词。一个取自WSJ语料库的短语结构树示例：另一种是依存结构...

2019-05-29 19:34:42 1269

原创 deeplearning.ai——构建深度神经网络做图像处理

目录4.1 Building your Deep Neural Network: Step by Step1 - Packages2 - Outline of the Assignment3 - Initialization3.1 - 2-layer Neural Network3.2 - L-layer Neural Network4 - Forward propag...

2019-05-25 21:07:02 766

原创 CS224N刷题——Assignment2.3_RNN:Language Modeling

Assignment #23.Recurrent Neural Networks: Language Modeling在这一节中，计算RNN语言模型的梯度。语言模型是NLP中的一个核心任务，语言模型也存在于语音识别、机器翻译等许多其他系统的核心部分。给定一个单词（表示为一个one-hot行向量）序列，语言模型根据下列模型预测下一个单词：其中是单词表中的一个单词。下面计算RN...

2019-05-24 21:57:06 185

原创 word2vec训练与相似度计算

中文语料预处理采用维基百科里的中文网页作为训练语料库，下载地址为：https://dumps.wikipedia.org/zhwiki/20190301/zhwiki-20190301-pages-articles.xml.bz2维基百科提供的语料是xml格式的，因此需要将其转换为txt格式。由于维基百科中有很多是繁体中文网页，故需要将这些繁体字转换为简体字。另外，在用语料库训练词向...

2019-05-18 13:50:22 3164 2

原创《统计学习方法》——逻辑斯蒂回归

逻辑斯蒂回归模型定义6.1（逻辑斯蒂分布）：设X是连续随机变量，X服从逻辑斯蒂分布是指X具有下列分布函数和密度函数：式中，为位置参数，为形状参数。二项逻辑斯蒂回归模型定义6.2（逻辑斯蒂回归模型）：二项逻辑斯蒂回归模型是如下的条件概率分布：有时为了方便，将权值向量和输入向量加以扩充，仍记作w,x，即，。这时，逻辑斯蒂回归模型如下：考察逻辑...

2019-05-17 21:22:02 758

原创《统计学习方法》——决策树

决策树模型与学习定义5.1（决策树）：分类决策树模型是一种描述对实例进行分类的树形结构。决策树由结点和有向边组成。结点有两种类型：内部结点和叶结点。内部结点表示一个特征或属性，叶结点表示一个类。用决策树分类，从根结点开始，对实例的某一特征进行测试，根据测试结果，将实例分配到其子结点；这时，每一个子结点对应着该特征的一个取值。如此递归地对实例进行测试并分配，直至达到叶结点。最后将实例分...

2019-05-17 14:00:01 367

原创 deeplearning.ai——通过单隐藏层的神经网络实现平面数据分类

Planar data classification with one hidden layer目录Planar data classification with one hidden layer1 - Packages2 - Dataset3 - Simple Logistic Regression4 - Neural Network model4.1 - Defin...

2019-05-16 18:10:38 389

原创 CS224N刷题——Assignment2.1_Tensorflow&Softmax

Assignment #2在这节作业中，神经网络的输入会是行向量，因为这对于TensorFlow来说是标准操作（有些内置TensorFlow函数假定输入是行向量），这意味着隐藏层的权重矩阵会右乘输入而不是左乘。1.Tensorflow Softmax实现一个线性分类器，损失函数定义为：其中x是行向量特征，W是模型的权重矩阵，我们将使用TensorFlow的自动微分功能来将该模型与所...

2019-05-16 11:54:19 179

原创 CS224N笔记——TensorFlow入门

目录深度学习框架简介TensorFlow是什么图计算编程模型图在哪里如何运行如何定义损失如何计算梯度变量共享总结深度学习框架简介为什么要用成熟的框架，而不是从头写一个：这些框架提供了大规模机器学习算法的成熟实现方便地计算梯度标准化机器学习应用，方便共享交流多种算法、理念、抽象、编程语言等的融合提供G...

2019-05-15 21:02:03 242

原创 CS224N刷题——Assignment1.4_情感分析

Assignment #14.Sentiment Analysis现在，通过你训练的词向量，我们将进行一个简单的情感分析。对于斯坦福情感树库数据集中的每个句子，我们将使用该句子中所有词向量的平均值作为其特征，并尝试预测所述句子的情感等级。这些短语的情感等级在原始数据集中以实际值表示，这里我们只使用五个类：“very negative (−−)”, “negative (−)”, “ne...

2019-05-15 11:24:32 624

原创 deeplearning.ai——构建一个LR分类器来识别猫

Logistic Regression with a Neural Network mindset目录1 - Packages2 - Overview of the Problem set3 - General Architecture of the learning algorithm4 - Building the parts of our algorithm4.1 -...

2019-05-14 21:59:30 424

空空如也

空空如也