自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

苏三慎的博客

原创 Transformers in NLP （一）：图说transformer结构

从transformer开始，nlp的模型渐渐开始成为了transformer一族的天下，所以想写一个系列聊一聊在nlp中那些运用transformer的模型。作为这个系列的第一篇，就从大名鼎鼎的transformer结构开始。一、编码器（encoder）与解码器（decoder）最早提出transformer的文章是attention is all you need，研究的nlp的任务是翻译，自然而然就借鉴了seq2seq的翻译结构，有了编码器（encoder)和解码器（decoder）。正如下面

2020-05-13 23:08:20 2520

原创读书笔记：推荐系统与深度学习-第五章-混合推荐系统

1 什么是混合推荐系统1.1 混合推荐系统的意义1.1.1 海量数据推荐海量数据推荐系统通常是三个部分构成的：在线系统、近线系统和离线系统。离线系统是传统的个性化推荐系统的主体，定期利用大量历史操作日志进行批处理运算，然后进行特征构造及选取，最终建立模型并更新。近线系统是将用户产生的事件，利用流式计算得到中间结果，这些中间结果一方面发送给在线部分用于实时更新推荐模型，另一方面将中...

2019-07-15 00:14:09 2595 1

原创吴恩达-deeplearning-第四课卷积神经网络-第四周课程笔记神经风格转换与人脸识别

课程来源：网易云课堂与coursera一、神经风格转化1、理论问题描述：给定一张需要转化的内容图像（C）一张想要转化成的风格的图像（S），通过无监督学习的方法将其转化为有S风格的内容图像G。解决方案：对C、S、G三个图像定义一个损失函数J，在对损失函数的优化过程中完成对G的训练，也就是说C、S是固定输入，G是通过训练优化的参数。损失函数J分为两个部分：内容损失函数，与C、G有关；风...

2019-06-03 22:14:38 950

原创读书笔记：推荐系统与深度学习-第四章-推荐系统的基础算法

前言：这本书是由清华大学出版社的《推荐系统与深度学习》，由黄昕、赵伟、王本友、吕慧伟、杨敏编著，前三章分别是对推荐系统的简单介绍、对深度学习的介绍以及对tensorflow的介绍，这里就不做笔记了。这一章主要介绍了传统的一些推荐方法以及利用深度学习方法（CNN、自编码、node2vec）进行一些特征表征和提取。1、基于内容的推荐算法1.1 基于内容的推荐算法基本流程特征（内容）提取基...

2019-04-30 21:37:48 1433

原创读书笔记：推荐系统实践-第八章-评分预测问题

1、离线实验方法测评目的：找到好的模型小化测试集的RMSE划分测试集与训练集和时间无关的预测任务，可以以均匀分布随机划分数据集和时间相关的任务，那么需要将用户的旧行为作为训练集，将用户的新行为作为测试集2、评分预测算法2.1 平均值全局平均值用户评分平均值物品评分平均值用户分类对物品分类的平均值，物品和用户分类的依据：流行度和活跃度，平均分2.2 ...

2019-04-26 15:39:36 1449

原创读书笔记：推荐系统实践-第七章-推荐系统实例

1、外围架构UI系统负责给用户展示网页并和用户交互。网站会通过日志系统将用户在UI上的各种各样的行为记录到用户行为日志中。日志可能存储在内存缓存里，也可能存储在数据库中，也可能存储在文件系统中。推荐系统通过分析用户的行为日志，给用户生成推荐列表，最终展示到网站的界面上。推荐系统的重要因素：推荐系统本身，界面展示，用户行为数据界面的一些特性：通过一定方式展示物品，主要包括物品的标...

2019-04-25 20:46:05 702 1

原创读书笔记：推荐系统实践-第六章-利用社交网络数据

1、获取社交网络数据的途径电子邮件：一般只有具有邮件系统的公司有研究社交关系的机会；如果获得了用户的邮件，可以使用邮箱后缀得到社交关系信息；社交官网还可以从电子邮件联系人中导入好友，进行冷启动。用户注册信息：如学校、公司等用户的位置数据：在同一位置的相关性可能会更高论坛和讨论组：同时加入了很多一样的组，或者在一个帖子里面讨论即时聊天工具：好友列表和分组信息，有隐私问题社交网站fa...

2019-04-25 15:34:04 879

原创读书笔记：推荐系统实践-第五章-利用上下文信息

1、时间上下文信息1.1 时间效应简介时间信息对用户兴趣的影响主要表现在以下几个方面：用户兴趣是变化的，应该关注用户最近的行为物品也是有生命周期的季节效应，节日也是1.2 系统时间特性的分析包含时间信息的用户行为数据集由一系列三元组构成，其中每个三元组(u,i,t)代表了用户u在时刻t对物品i产生过行为可以通过统计如下信息研究系统的时间特性数据集每天独立用户数的增长情况...

2019-04-24 20:39:26 394

原创读书笔记：推荐系统实践-第四章-利用用户标签数据

1、UGC标签系统的代表应用Delicious：给网页打标签CiteULike：给论文打标签Last.fm：给音乐打标签豆瓣：书影音Hulu：视频打标签的作用：表达标签系统帮助我表达对物品的看法。组织打标签帮助我组织我喜欢的电影。学习打标签帮助我增加对电影的了解。发现标签系统使我更容易发现喜欢的电影。决策标签系统帮助我判定是否看某一部电影。2、标签系统中的...

2019-04-24 16:58:58 502

原创读书笔记：推荐系统实践-第三章-推荐系统冷启动问题

1、冷启动问题简介冷启动主要分为三类：用户冷启动物品冷启动系统冷启动对于冷启动问题的一些解决方案：提供非个性化推荐，如热门排行榜，行为数据积累到一定程度以后再用个性化推荐利用用户注册时提供的年龄、性别等数据做粗粒度的个性化利用用户的社交网络账号登录（需要用户授权），导入用户在社交网站上的好友信息，然后给用户推荐其好友喜欢的物品要求用户在登录时对一些物品进行反馈，收集用户对这...

2019-04-23 21:06:35 294

原创读书笔记：推荐系统实践-第二章-利用用户行为数据

1、用户行为数据简介用户行为在个性化推荐系统一般会分为两种：显性反馈行为和隐性反馈行为。如何用统一的方式表示这些所有的行为？不同行为的不同数据集无上下文信息的隐性反馈数据集每一条行为记录仅仅包含用户ID和物品ID。无上下文信息的显性反馈数据集每一条记录包含用户ID、物品ID和用户对物品的评分。有上下文信息的隐性反馈数据集每一条记录包含用户ID、物品ID和用户对物品产生行。...

2019-04-23 16:51:14 945

原创读书笔记：推荐系统实践-第一章-好的推荐系统

1、什么是推荐系统？推荐系统作用可以解决信息过载的问题帮助用户发现对自己有价值的信息让信息能够展现在对它感兴趣的用户面前，从而实现信息消费者和信息生产者的双赢推荐系统和搜素引擎是互补工具搜索隐形满足了用户有明确目的时的主动查找需求推荐系统能在用户没有明确目的时候帮助他们发现感兴趣的内容推荐算法的本质是通过一定的方式将用户和物品联系起来，而不同的推荐系统利用了不同的方式。基...

2019-04-19 17:27:05 290

翻译斯坦福大学-自然语言处理与深度学习（CS224n）笔记第十三课 NLP中的卷积神经网络（CNN）

课程概要1、卷积神经网络（CNN）为什么需要在自然语言处理中引入卷积神经网络？什么是卷积？单层的卷积多通道(Multi-channel)在完成卷积之后，如何进行分类任务？2、训练技巧3、CNN的一些变体应用4、模型比较一、卷积神经网络（CNN）为什么需要在自然语言处理中引入卷积神经网络？因为在RNN无法再忽视前文的情况下，获得词组的信息。卷积神经网络的一个观点是：尝试...

2019-04-04 19:59:44 620

翻译斯坦福大学-自然语言处理与深度学习（CS224n）笔记第十二课语音处理的端对端模型

一、自动语音识别（ASR）将语音信号转化为转为对应的文字信息。为什么使用ASR？语音是与人类交流的一个自然的交互方式可以进行自由交流人类与之交互不需要学习新技术有更多的应用控制简单的设备：车内设备、家用设备等等和智能设备交互：聊天机器人等1、语音识别：经典的方法建立一个文本序列Y= y1y2…yL到音频序列X = x1x2…xT的统计模型。基于N元模型，然后利用...

2019-04-03 20:09:01 615

翻译斯坦福大学-自然语言处理与深度学习（CS224n）笔记第一课介绍

额

2019-04-02 21:25:38 1536 1

翻译斯坦福大学-自然语言处理与深度学习（CS224n）笔记第十一课 NMT与RNN的进一步讨论

本课概要1、gated recurrent units比如GRUs和LSTM的再次回顾2、机器翻译评估3、单词生成问题一、 gated recurrent units比如GRUs和LSTM的再次回顾在RNN的后馈计算中，很容易出现梯度消失的问题。梯度消失的原因是因为RNN结构中，所有的节点是一个一个按顺序相连的，所以权值矩阵就会依次相乘，很容易造成梯度消失。而在GRUs中，长距离的节...

2018-11-19 21:23:17 679

翻译斯坦福大学-自然语言处理与深度学习（CS224n）笔记第十课神经机器翻译（neural machine translation）与attention模型

一、机器翻译（MT）机器翻译是一个十分经典的语言理解的测试，涉及语言分析（language analysis）与语言生成（language generation）。机器翻译是一个巨大的商业市场，每年的市场规模达到400亿美元，在欧洲和亚洲都有市场。神经机器翻译（NMT）：神经机器翻译是利用一个巨大的神经网络来为整体机器翻译过程建模。1、神经机器翻译的历史回顾最早开始于1987年，All...

2018-11-15 17:51:20 1045

翻译斯坦福大学-自然语言处理与深度学习（CS224n）笔记第九课应用于机器翻译的RNN、GRU与LSTM

一、一些重要的概念的回顾二、传统的统计机器翻译方法使用平行语料库（parallel），有相互对应的两种语言有一个源语言f（source language），一个目标语言e（target language）使用贝叶斯规则来构建概率公式，其中翻译模型p（f|e）是基于平行语料库（parallel）来进行训练的，语言模型p（e）是基于只有英语的语料库进行训练的1、第一步：对应（ass...

2018-11-13 15:56:49 830

翻译斯坦福大学-自然语言处理与深度学习（CS224n）笔记第八课循环神经网络

一、传统语言模型语言模型可以计算一些系列的单词的概率P（w1，…,wT)可以用来进行机器翻译单词顺序：p(the cat is small) &amp;gt; p(small the is cat)单词选择：p(walking home after school) &amp;gt; p(walking house after school)对于单词的概率估计一般是依据马尔可夫假设，我们认为只有单...

2018-11-12 15:37:12 967

翻译斯坦福大学-自然语言处理与深度学习（CS224n）笔记第七课 tensorflow教程

1、什么是tensorflow？针对数量计算的使用数据流图流程图开源软件库由Google Brain团队开发的机器学习的研究Tensorflow 是表现机器学习算法的接口，以及执行算法的执行器。2、编程模型主要思想：将数量计算表现为图（graph）图节点表示是针对输入的操作（operation）以及输出图边表示节点之间流动的张量（tensor）变量（variable）是状...

2018-11-08 15:22:55 1042

翻译斯坦福大学-自然语言处理与深度学习（CS224n）笔记第六课依存句法分析

课程概要1、句法结构：成分句法、依存句法2、依存语法3、 Transition-based依存句法分析4、神经网络的依存句法分析一、句法结构：成分句法、依存句法参考斯坦福大学-自然语言处理入门笔记第十三课统计语言句法分析（prasing）二、依存语法参考斯坦福大学-自然语言处理入门笔记第十六课依存句法分析（Dependency Parsing）第一节三、Transit...

2018-11-06 21:37:39 2855

翻译斯坦福大学-自然语言处理与深度学习（CS224n）笔记第五课反向传播与项目指导

课程概要1、反向传播2、针对反向传播的不同观点3、项目指导一、反向传播的解释一任务：和上一课一样，判断中心词是否是一个命名实体地点，窗口定义和最后一层的函数都是一样的结构：含有两个隐层...

2018-11-05 15:58:57 878

翻译斯坦福大学-自然语言处理与深度学习（CS224n）笔记第四课单词窗口分类与神经网络

1、分类问题背景2、3、窗口分类&amp;amp;一、分类问题背景1、分类的一些主要符号说到分类任务，我们一般会有一个数据集包含样本：{xi,yi}i=1N\{x_i , y_i\}^N_{i=1}{xi,yi}i=1Nxi表示输入，比如单词（序号或者向量），上下文窗口，句子，文档等等yi表示我们尝试预测的标签，比如分类：情感、命名实体、买卖决策；其他的单词；或者是多单词的句子2、...

2018-11-04 15:57:19 1278

翻译斯坦福大学-自然语言处理与深度学习（CS224n）笔记第三课词向量（2）

一、word2vec1、回顾：skip-gramsword2vec的主要步骤是遍历整个语料库，利用每个窗口的中心词来预测上下文的单词，然后对每个这样的窗口利用SGD来进行参数的更新。对于每一个窗口而言，我们只有2m+1个单词（其中m表示窗口的半径），因此我们计算出来的梯度向量是十分稀疏的。对于2dv的参数而言，我们只能更新一小部分。因此一个解决方法是提供一个单词到词向量的哈希映射。2、负...

2018-11-01 21:10:50 1068

翻译斯坦福大学-自然语言处理与深度学习（CS224n）笔记第二课词向量（word vector）

课程概要1、单词含义2、word2vec介绍一、单词含义含义（meaning）指的是由单词表达的观点。我们一般使用单词含义的方法是，使用像WordNet那样的分类词典，给每个单词对应的上下义关系以及同义词集合（具体可见Introduction to NLP by Chris &amp; Dan翻译第十九课单词含义与相似性第二节）。上面的这种方法会存在的问题有：会忽略一些细微差别，比如...

2018-10-31 13:32:12 1059

翻译斯坦福大学-自然语言处理入门笔记第二十一课问答系统（2）

一、问答系统中的总结（summarization）目标：产生一个摘要文本包含那些对用户重要和相关的信息总结的应用领域：任何文档的摘要和大纲，邮件摘要等等根据总结的内容，我们可以把总结分为两类：单文档总结：给出一个单一文档的摘要、大纲、标题多文档总结：给定一组文档，给出内容主旨；比如说同一个事件的新故事，关于一些话题和问题的网页根据总结的目的，我们可以把总结分为两类：泛总结：...

2018-10-28 21:26:39 984 4

翻译斯坦福大学-自然语言处理入门笔记第二十课问答系统（question answering）

1、什么是问答系统问答系统是最早的NLP任务，根据问题的依存关系，找到适合的依存关系的回答。在现代系统中问题被分为两类事实问题的回答一般都是一个简单的词组或者是命名实体两种问答系统的范式基于信息检索的路径：TREC; IBM Watson; Google基于知识的混杂路径：IBM Watson; Apple Siri; Wolfram Alpha; True Kn...

2018-10-28 16:33:24 1077

翻译斯坦福大学-自然语言处理入门笔记第十九课单词含义与相似性

一、单词含义与单词关系回顾：词目（lemma）与单词形式（wordform）词目：表示相同的词根、词性以及大致的语义单词形式：表示在文档中出现的具体单词形式一个词目可能会含有很多含义（sense）。含义（sense）表示单词意思的一个方面的表现。比如说bank就有两个含义。…a bank can hold the investments in a custodial acco...

2018-10-28 13:24:21 2268

翻译斯坦福大学-自然语言处理入门笔记第十八课排序检索介绍（ranked retrieval）

一、介绍之前我们的请求都是布尔类型。对于那些明确知道自己的需求并且了解集合体情况的用户而言，布尔类型的请求是很有效的。但是对于大部分的其他用户而言，布尔请求的问题是：大部分用户不熟悉布尔请求；布尔请求比较复杂；布尔请求的结果不是太多就是太少。排序检索应运而生。排序检索返回的是排序好的文档结果，它可以很好地处理布尔请求以及自由文档请求（free text queries），即自然语言的请求。而...

2018-10-26 22:55:40 1158

翻译斯坦福大学-自然语言处理入门笔记第十七课信息检索（information retrieval）

一、介绍信息检索（information retrieval）是从海量集合体（一般是存储在计算机中的文本）中找到满足信息需求（information need）的材料（一般是文档）信息检索的应用领域：网页搜索，邮件搜索，电脑内部搜索，法律信息检索等等信息检索的基本假设：集合体（collection）：一组假设为静态（static）的文档目标：抽取和用户信息需求相关的文档，并帮助他们完...

2018-10-26 15:57:39 3523

翻译斯坦福大学-自然语言处理入门笔记第十六课依存句法分析（Dependency Parsing）

一、介绍1、依存句法依存句法假设：句法结构包含相互之间是双边不对称关系的词典（lexical）元素，这种不对称的关系成为依存（dependency），在图中的表现是单向箭头。箭头通常还会打上这种语法关系的名字（主语，前置宾语等等）箭头一边连接中心词head (governor, superior, regent)，一边则连接依存词dependent (modifier, inferior...

2018-10-25 16:23:32 10035

翻译斯坦福大学-自然语言处理入门笔记第十五课词汇化（Lexicalization）的PCFGs

一、介绍一个短语的中心词（head word）可以很好地代表这个短语的结构和含义，在构建PCFG模型的时候，可以考虑将这部分信息纳入其中。如下图所示加入单词信息可以帮助我们更好地选择出合适的模型。二、Charniak模型Charniak模型是词汇化PCFG的一个非常直观的模型。条件概率是自上而下进行计算的，就像一般的PCFG一样，但是实际的语法分析过程是自底向上的，就像CKY算法一样...

2018-10-24 19:37:49 1996

翻译斯坦福大学-自然语言处理入门笔记第十四课 CGSs和PCFGs

一、概率上下文无关文法（(Probabilistic) Context-Free Grammars）1、上下文无关文法（Context-Free Grammars）我们也可以称之为词组结构语法(Phrase structure grammars)由四个成分构成G=（T，N，S，R）T表示最终端（terminal），如下图粉色部分的子节点N表示非最终端（nonpreterminal），...

2018-10-23 16:51:43 1130

翻译斯坦福大学-自然语言处理入门笔记第十三课统计语言句法分析（prasing）

课程来源：Introduction to NLP by Chris Manning &amp;amp; Dan jurafsky关于专用名词和概念：刚接触NLP领域，所以有些专有名词的翻译和专有概念可能会存在一定的偏误，随着学习的深入，我会随时更新改正。一、关于句法结构的两种看法1、成分（constituency）分析句法结构将句子组成了嵌套的成分（nested constituents...

2018-10-21 22:25:12 2254

翻译斯坦福大学-自然语言处理入门笔记第十二课词性标注（Part-of-speech tagging）

一、词性（part-of-speech)介绍词性：名词（Nouns)，动词（Verbs)，形容词（Adjectives），副词（Adverbs)等等就是我们想要研究的词性我们可以把词性分为开放类（open class）和闭合类（closed class）。闭合类只有固定的一些词不会再增加，包含限定词（determiners)：a,an,the代词（pronouns）:she,he...

2018-10-21 13:42:54 15424 3

翻译斯坦福大学-自然语言处理入门笔记第十一课最大熵模型与判别模型（2）

一、最大熵模型1、模型介绍基本思想：我们希望数据是均匀分布的，除非我们有其他的限制条件让给我们相信数据不是均匀分布的。均匀分布代表高熵（high entropy）。所以，最大熵模型的基本思想就是我们要找的分布是满足我们限制条件下，同时熵最高的分布。熵：表示分布的不确定性的度量。就算公式如下：举例而言：抛一枚硬币的熵如下图，横轴表示抛到正面的概率特征限制：放到实际场景来考虑这个问题的...

2018-10-19 21:55:08 762

翻译斯坦福大学-自然语言处理入门笔记第十课关系抽取（relation extraction）

一、简介关系抽取就是从文档中抽取关系，例子如下：为什么进行关系抽取创建新的关系型知识库（knowledge bases）增强目前的知识库（knowledge bases）支持问题回答（question answering）一些例子自动内容抽取（Automated Content Extraction (ACE)）2008年关系抽取任务的17种关系UMLS: ...

2018-10-19 15:13:10 5384

翻译斯坦福大学-自然语言处理入门笔记第九课信息抽取（information extraction）

一、介绍1、信息抽取（information extraction）信息抽取（IE）系统找到并理解文本中的有限的相关性从很多的文档之中收集信息产生一个相关信息的结构化的表征目的：进行信息的组织使之对人有用以相对精确的语义形式存放信息方便计算机算法后续的查找信息抽取（IE）系统一般会抽取清晰的实际的信息（谁对谁做了什么在什么时候）低程度的信息抽取一般被用在苹果...

2018-10-18 22:53:19 5196

翻译斯坦福大学-自然语言处理入门笔记第八课最大熵模型与判别模型

一、生成模型与判别模型1、引言到目前为止，我们使用的是生成模型（generative model)，但是在实际使用中我们也在大量使用判别模型（discriminative model)，主要是因为它有如下的优点：准确性很高更容易包含很多和语言相关的重要特征有助于建立language independent， retargetable NLP modules2、比较生成模型...

2018-10-18 16:05:31 1313

翻译斯坦福大学-自然语言处理入门笔记第七课情感分析（sentiment analysis）

一、情感分析简述情感分析（sentiment analysis），又叫意见抽取（opinion extraction），意见挖掘（opinion mining）,情感挖掘（sentiment mining）以及主观分析（subjectivity analysis）。情感分析的应用领域非常广泛情感分析是对态度的研究，具体可以分解为：按照复杂程度，可以把情感分类分为三类简单任务：判断...

2018-10-17 19:23:13 3317

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示

确定要删除当前文章？

取消删除