自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(62)
  • 收藏
  • 关注

原创 CTR深度学习模型之 DSIN(Deep Session Interest Network) 论文解读

之前的文章讲解了DIEN模型:CTR深度学习模型之 DIEN(Deep Interest Evolution Network) 的理解与示例,而这篇文章要讲的是DSIN模型,它与DIEN一样都从用户历史行为中抽取兴趣表示,但不同的是DSIN把历史行为划分成了不同的Session,并且使用Transformer对每个Session内的行为抽取特征。模型解读整体模型的结构如下:首先看看右下部分的矩形区域,这部分主要是对用户的行为序列建模,其中包含了4个子模块。1. Session Divsion La

2021-01-26 21:51:41 570

原创 GraphSAGE 模型解读与tensorflow2.0代码实现

上一篇文章,我们讲了图神经网络:图卷积神经网络(GCN)理解与tensorflow2.0代码实现,也提到GCN的缺点:GCN属于直推式学习(Transductive Learning),它在固定的图上学习每个节点的embedding表示,不能泛化到未加入到图中的节点,一旦图的结构发生改变,就需要重新训练整个网络。本文提到的 GraphSAGE 属于归纳学习(Inductive Learning),核心是学习聚合邻居节点信息的函数(聚合函数),然后利用聚合函数来得到一个节点的表示。即使图中加入了新的节点,建

2020-11-23 19:23:03 1933 1

原创 【CTR模型】TensorFlow2.0 的 xDeepFM 实现与实战(附代码+数据)

本篇文章讲解 xDeepFM 的 tensorflow2.0 实现,并使用 Criteo 数据集的子集加以实践。如果在看本文时有所困惑,可以看看 xDeepFM 的相关理论:CTR 模型之 Deep & Cross (DCN) 与 xDeepFM 解读。本文使用的数据下载地址于代码获取地址在文末获取。首先了解一下 Criteo数据集,它由有39个特征,1个label列,其中以I开头的为数值型特征,以C开头的为类别特征:可以看到数据中有缺失值需要填充,并且类别变量需要进行类别编码(onehot

2020-08-01 20:22:25 1994 7

原创 【CTR模型】TensorFlow2.0 的 DeepFM 实现与实战(附代码+数据)

本篇文章讲解 DeepFM 的 tensorflow2.0 实现,并使用 Criteo 数据集的子集加以实践。如果在看本文时有所困惑,可以看看DeepFM的相关理论: CTR深度学习模型之 DeepFM 模型解读 。本文使用的数据下载地址于代码获取地址在文末获取。首先了解一下 Criteo数据集,它由有39个特征,1个label列,其中以I开头的为数值型特征,以C开头的为类别特征:可以看到数据中有缺失值需要填充,并且类别变量需要进行类别编码(onehot 编码的任务交给模型),这部分预处理的代码不详

2020-07-28 20:05:35 3887 7

原创 广告点击率(CTR)预测经典模型 GBDT + LR 理解与实践(附数据 + 代码)

CTR预估早期使用最多的方案是逻辑回归(LR),LR 性能非常高,但是其效果十分依赖于大量的特征工程。但是手动构造许多有用特征费时费力,因此需要有更自动化的方法来发现有效特征并构造组合特征。2004 年Facebook 在论文 Practical Lessons from Predicting Clicks on Ads at Facebook 中提出的 GBDT + LR 模型给出了一个可行的解决方案。GBDT + LR 模型基本思想GBDT 基于集成学习中的boosting思想,每次迭代都在减少

2020-07-16 16:16:37 6105 3

原创 LightGBM 重要参数、方法、函数理解及调参思路、网格搜索(附例子)

文章目录一、LightGBM 原生接口重要参数训练参数预测方法绘制特征重要性分类例子回归例子二、LightGBM 的 sklearn 风格接口LGBMClassifier基本使用例子LGBMRegressor基本使用例子三、LightGBM 调参思路四、参数网格搜索与 xgboost 类似,LightGBM包含原生接口和 sklearn 风格接口两种,并且二者都实现了分类和回归的功能。如果想了解一些理论性的内容,可以看看之前的文章:LightGBM 相关知识理解一、LightGBM 原生接口重要参数

2020-07-10 17:16:12 58649 12

原创 LightGBM 相关知识理解

lightGBM 简介GBDT是个经典的模型,主要是利用弱分类器(决策树)迭代训练以得到最优模型,该模型具有训练效果好、不易过拟合等优点,常被用于多分类、点击率预测、搜索排序等任务。在LightGBM提出之前,还有个GBDT的高效实现:XGBoost。XGBoost是属于boosting家族,也是GBDT算法的一个工程实现。 在模型的训练过程中是聚焦残差,在目标函数中使用了二阶泰勒展开并加入了正则,在决策树的生成过程中采用近似分割的方式(可以理解为分桶的思路),选出一些候选的分裂点,然后再遍历这些较少.

2020-05-20 18:45:50 2840

原创 XGBoost算法的相关知识

文章目录背景定义损失函数确定叶节点的输出树的分裂基于分桶的划分策略总结背景讲XGBoost之前,先引入一个实际问题,即预测一家人每个人玩游戏的意愿值:如果我们用XGBoost解决这个问题,步骤是:首先要训练出来第一棵决策树, 预测了一下小男孩想玩游戏的意愿是2, 然后发现离标准答案差一些,再训练出第二棵决策树, 预测了一下小男孩想玩游戏的意愿是0.9, 最后两个相加就是最终的答案2.9。也就是说,XGBoost是把训练出来的弱分类结果进行累加当作最终的结论。XGBoost的思想和GBDT有相似之处

2020-05-15 21:09:08 3029

原创 阿里大规模图嵌入模型 EGES 论文解读

在大规模电商推荐系统中,至少都包含了两个过程,针对用户的候选召回(Match)以及对候选商品的精排(Rank),有时候还需要线上的策略调控(Re-rank)。本文讲解的 EGES 模型借助随机游走的思想对各种商品做图嵌入,然后用于相似推荐场景的召回过程。图构建文章首先介绍了如何抽取数据来构造图与随机游走序列,具体做法是:以60分钟为窗口抽取用户的点击序列,如下图中的(a)所示。按照点击顺序构造有向图,如下图中的(b)所示,边的权重是所有用户对两个关联商品的点击次数之和。对图的每个节点 根据边的权

2021-01-27 20:10:09 1352

原创 图注意力网络(Graph Attention Network, GAT) 模型解读与代码实现(tensorflow2.0)

前面的文章,我们讲解了图神经网络三剑客GCN、GraphSAGE、GAT中的两个:图卷积神经网络(GCN)理解与tensorflow2.0代码实现GraphSAGE 模型解读与tensorflow2.0代码实现本要讲的是GAT(Graph Attention Network),它使用 Attention 机制来对邻居节点进行加权求和,和一般的Attention 机制一样,分为计算注意力系数和加权求和两个步骤。GAT中的 Attention 机制先来看看每一层的输入与输出: inpu

2020-12-07 19:33:16 6570 4

原创 图卷积神经网络(GCN)理解与tensorflow2.0代码实现

图(Graph),一般用 G=(V,E)G=(V,E)G=(V,E) 表示,这里的VVV是图中节点的集合,EEE 为边的集合,节点的个数用NNN表示。在一个图中,有三个比较重要的矩阵:特征矩阵XXX:维度为 N×DN\times DN×D ,表示图中有N个节点,每个节点的特征个数是D。邻居矩阵AAA:维度为 N×NN\times NN×N ,表示图中N个节点之间的连接关系。度矩阵 DDD:维度为 N×NN\times NN×N ,是一个对角矩阵,即只有对角线上不为零,其他位置元素都是 0 ,表示图中

2020-11-19 18:27:11 8905 10

原创 SDNE: 阿里应用深度学习进行图嵌入,构造凑单算法模型

本文介绍 Structural Deep Network Embedding ,以下简称 SDNE,以半监督的方式用深度神经网络来做图嵌入。模型解读论文指出学习网络表示具有三大难点:高度非线性:网络结构是高度非线性的,使用浅层网络无法捕捉高度非线性的网络结构。结构捕捉:同时捕捉到局部结构与全局结构。稀疏性:大部分真实的网络都是稀疏的,仅仅利用网络中的部分连接关系建模效果还不够好。SDNE 的目标是设计一个可以学习到一阶相似度与二阶相似度的模型。一阶相似度与二阶相似度的概念与之前博客【图嵌入】

2020-10-16 10:32:22 786

原创 【图嵌入】Graph Embedding 方法之 LINE 原理解读

LINE 出自论LINE: Large-scale Information Network Embedding,与 DeepWalk 相比,比较明显的区别在于:DeepWalk 使用的深度优先搜索策略,而 LINE 使用了广度优先搜索策略。DeepWalk 仅适用于无权图,而LINE模型适用于带权图与无权图。下图展示了一个简单的图,图中的边既可以是有向的,也可以是无向的,并且边的粗细程度也代表了权重的大小:一阶相似度作者认为可以用一阶相似度描述图中成对顶点之间的局部相似度,连接两个节点的边权

2020-10-09 19:46:39 2684 4

原创 【图嵌入】DeepWalk原理与代码实战

DeepWalk基础理论了解过 NLP 的同学对 word2vec 应该不陌生,word2vec 通过句子中词与词之间的共现关系来学习词的向量表示,如果你忘记了,可以看看我之前的博客:【word2vec】篇一:理解词向量、CBOW与Skip-Gram等知识【word2vec】篇二:基于Hierarchical Softmax的 CBOW 模型和 Skip-gram 模型【word2vec】篇三:基于Negative Sampling 的 CBOW 模型和 Skip-gram 模型DeepWa

2020-10-09 19:34:06 5014 3

原创 CTR深度学习模型之 DIEN(Deep Interest Evolution Network) 的理解与示例

本文介绍阿里提出的兴趣进化网络(Deep Interest Evolution Network,以下简称DIEN。前一篇文章介绍的 DIN 模型如下图所示:DIN 直接把用户的某个行为作为用户的兴趣,在实际的电商场景中这并不完全准确。用户的兴趣受到环境因素与自身因素的影响,会不断的变化。例如用户会在一段时间内关注手机相关的商品,另一段时间内又会关注书籍相关的商品,而手机与书籍之间的关系就比较小了。本文的介绍的 DIEN 模型就是要捕捉用户兴趣的演变过程。DIEN 仍然采用了 attention 机制

2020-09-30 16:50:39 1913 4

原创 CTR深度学习模型之 DIN(Deep Interest Network) 的理解与例子

在电商领域,每个用户都有丰富的历史行为数据,这些数据具有如下特点:多样性(Diversity):用户可能对多种商品感兴趣,例如手机、衣服。局部激活(Local Activation):用户是否点击新商品,仅仅取决于历史行为中与新商品相关度高的部分数据。如何从中捕获特征对CTR预估模型非常重要。论文 《Deep Interest Network for Click-Through Rate Prediction 提出了深度兴趣网络 Deep Interest Network,以下简称 DIN

2020-09-25 14:48:12 4538

原创 【面试相关】python实现快速幂取余算法详解

假设我们要计算 2102^{10}210 对1000取模的结果,可以很简单的得到24。但是如果要求 210002^{1000}21000 对1000取模的结果,常规方法就行不通了,因为常规的变量无法容纳这么大的数值。为此,需要借助数学技巧求解。循环求余法首先引入一个好理解的取模运算公式:(a×b)%p=(a%p×b%p)%p(a \times b) \% p = (a \% p \times b \% p) \% p(a×b)%p=(a%p×b%p)%p举个例子:a=9,b=9(9×9)%6=

2020-08-08 11:17:50 1153

原创 【CTR模型】TensorFlow2.0 的 DCN(Deep & Cross Network) 实现与实战(附代码+数据)

本篇文章讲解 DeepFM 的 tensorflow2.0 实现,并使用 Criteo 数据集的子集加以实践。如果在看本文时有所困惑,可以看看DeepFM的相关理论:CTR 模型之 Deep & Cross (DCN) 与 xDeepFM 解读。本文使用的数据下载地址于代码获取地址在文末获取。首先了解一下 Criteo数据集,它由有39个特征,1个label列,其中以I开头的为数值型特征,以C开头的为类别特征:[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-pTS

2020-08-01 17:00:27 1879 1

原创 CTR 模型之 Deep & Cross (DCN) 与 xDeepFM 解读

本篇文章讲解 CTR 经典模型 Deep & Cross (DCN) 与 xDeepFM,之所以把这两个模型放一起讲是因为它们有很近的“血缘关系”。理解了 DCN 的思想,再去理解 xDeepFM 就不觉得困难了。以下文章对这两个模型的讲解很到位:首先了解揭秘 Deep & Cross : 如何自动构造高阶交叉特征推荐系统遇上深度学习(二十二)–DeepFM升级版XDeepFM模型强势来袭!xDeepFM:名副其实的 ”Deep” Factorization Machine因此,本

2020-07-31 11:02:34 1951 1

原创 【剑指offer 07】用迭代和递归两种方法重构二叉树(python实现)

本文讲解一个经典的面试题,使用 python 通过迭代和递归两种方法重构二叉树。题目描述输入某二叉树的前序遍历和中序遍历的结果,请重建该二叉树。假设输入的前序遍历和中序遍历的结果中都不含重复的数字。例如,给出:前序遍历 preorder = [3,9,20,15,7]中序遍历 inorder = [9,3,15,20,7]返回如下的二叉树: 3 / \ 9 20 / \ 15 7限制:0 <= 节点个数 <= 5000。递归方法二叉树的前序遍

2020-07-29 11:31:40 306

原创 TensorFlow 2.0 快速上手教程与手写数字识别例子讲解

文章目录TensorFlow 基础自动求导机制参数优化TensorFlow 模型建立、训练与评估通用模型的类结构多层感知机手写数字识别Keras Pipeline *TensorFlow 2.0 出来后不久就有人整理了一份简洁高效的中文指导手册: 简单粗暴 TensorFlow 2,本文对其中一些重点内容加以梳理,方便快速上手。如果你还没装上 TensorFlow 2.0 ,或者希望对 TensorFlow 2.0 的新特性有个大概的了解,可以查看我之前的文章:tensorflow2.0 GPU 版本安

2020-07-24 17:45:26 564 1

原创 tensorflow2.0 GPU 版本安装测试教程及新特性初探

安装与测试TensorFlow2.0安装:pip install tensorflow-gpu==2.0.0 -i https://pypi.douban.com/simple/conda install cudnn=7.6.0conda install cudatoolkit=10.0.130TensorFlow2.0的GPU版本测试代码如下:import tensorflow as tfprint('GPU', tf.test.is_gpu_available())a = tf.c

2020-07-24 11:35:23 1173

原创 CTR深度学习模型之 DeepFM 模型解读

上一篇文章讲了一些比较经典的 CTR 模型:CTR经典模型串讲:FM / FFM / 双线性 FFM 相关推导与理解,从这一篇文章开始将会陆续介绍一些使用深度学习完成CTR预估的模型,本文主要讲的是DeepFM模型。之前讲的 FM、FFM、Bi-FFM 本质上都是要学习户点击行为背后隐含的特征组合,不过这些经典模型主要是进行二阶特征组合。理论上也可以进行更高阶的特征组合,但是会造成特征维度指数级增长以及数据稀疏等问题。对于高阶特征组合问题不难想到可以用多层的神经网络解决。DeepFM 的整体结构对于类

2020-07-23 21:15:01 1596

原创 CTR经典模型串讲:FM / FFM / 双线性 FFM 相关推导与理解

FM在计算广告领域,因子分解机(Factorization Machines,FM)是很经典的模型,面对量大且稀疏的数据,此算法仍然可以取得比较优秀的效果。假设有下面的数据:Clicked?CountryDayAd_type1USA26/11/15Movie0China1/7/14Game1China19/2/15Game其中,Clicked? 是label,Country、Day、Ad_type是特征。由于三种特征都是类别型的,需要经过独热

2020-07-23 09:28:56 1415

原创 【推荐系统(二)】协同过滤之隐语义模型(LFM)

文章目录一、引例二、LFM主要思想训练样本构造损失函数定义参数学习调参相关三、小结优点缺点基于用户行为分析的推荐算法一般称为协同过滤算法。所谓协同过滤,就是指众多的用户可以齐心协力,通过不断地和网站互动,使自己的推荐列表能够不断过滤掉自己不感兴趣的物品,从而越来越满足自己的需求。常见实现方法的包括:基于邻域的方法隐语义模型基于图的随机游走算法本文主要讲解隐语义模型(LFM),它的核心思想是通过发掘隐含特征(latent factor) 来完成推荐任务。一、引例在讲解LFM之前,先看个例子:

2020-07-17 10:38:33 1044

原创 【推荐系统(一)】协同过滤之基于领域的方法(UserCF,ItemCF)

文章目录一、基于用户的协同过滤算法(UserCF)1,找到相似用户2,推荐未接触过的物品UserCF 改进二、基于物品的协同过滤算法(ItemCF)1,物品相似度计算2,推荐列表计算ItemCF 改进归一化三、UserCF 与 ItemCF 对比为何新闻推荐用 UserCF ?为何商品和视频推荐用 ItemCF?UserCF 、ItemCF 优缺点的对比基于用户行为分析的推荐算法一般称为协同过滤算法。所谓协同过滤,就是指众多的用户可以齐心协力,通过不断地和网站互动,使 自己的推荐列表能够不断过滤掉自己不感

2020-07-15 19:42:44 838

原创 XGBoost 重要参数、方法、函数理解及调参思路(附例子)

文章目录一、xgboost 原生接口重要参数训练参数预测函数绘制特征重要性分类例子回归例子二、xgboost 的 sklearn 风格接口XGBClassifier基本使用例子XGBRegressor基本使用例子三、xgboost 调参思路xgboost 包含原生接口和 sklearn 风格接口两种,并且二者都实现了分类和回归的功能。如果想了解一些理论性的内容,可以看看之前的文章:XGBoost算法的相关知识一、xgboost 原生接口重要参数1,booster用于指定弱学习器的类型,默认值为 ‘

2020-07-09 21:27:46 39834 9

原创 sklearn中GBDT的一些参数、属性、方法的理解

文章目录GBDT 分类器引入重要参数losslearning_ratesubsamplen_estimatorscriterionmax_depthmin_samples_leafmin_samples_splitmax_featuresverbose重要属性重要方法GBDT 回归器本文主要是sklearn中GBDT的一些参数、属性、方法的理解,如果需要了解基础的理论知识,可以看看之前发表的文章:梯度提升树(GBDT)相关知识。GBDT 分类器引入from sklearn.ensemble impo

2020-07-08 10:41:32 8996 3

原创 sklearn 随机森林(分类器、回归器)的重要参数、属性、方法理解

文章目录随机森林分类器引入重要参数1,n_estimators2,criterion3,max_depth4,min_samples_leaf5,min_samples_split7,max_features8,class_weight9,max_leaf_nodes10,oob_score11,verbose重要属性重要方法随机森林回归器随机森林分类器引入from sklearn.ensemble import RandomForestClassifier# 全部参数RandomForestCl

2020-07-07 20:56:26 20395

原创 sklearn 决策树(分类树、回归树)的 重要参数、属性、方法理解

文章目录决策分类树引入重要参数1,criterion2,splitter3,max_depth4,min_samples_leaf5,min_samples_split6,max_features7,class_weight重要属性重要方法决策回归树决策分类树引入from sklearn.tree import DecisionTreeClassifier# 全部参数DecisionTreeClassifier(criterion='gini',splitter='best',max_depth=

2020-07-07 19:43:34 4250

原创 sklearn 中的线性回归、岭回归、Lasso回归参数配置及示例

文章目录线性回归引入重要参数重要属性重要方法例子岭回归引入重要参数重要属性重要方法示例Lasso 回归引入重要参数重要属性重要方法示例本文主要讲一些sklearn中回归模型的使用,如果需要了解相关理论,请查阅:【线性回归】面向新手的基础知识线性回归引入from sklearn.linear_model import LinearRegression# 默认参数如下:LinearRegression(fit_intercept=True,normalize=False,copy_X=True,n_

2020-07-06 19:59:08 16662 3

原创 【比赛学习笔记】电信行业存量用户的智能套餐个性化匹配

文章目录数据说明特征工程原始特征统计特征差值特征w2v 特征stacking特征训练与预测本次借鉴学习的是电信行业存量用户的智能套餐个性化匹配比赛的TOP2方案。top2 方案作者:郭大、林有夕 、小兔子乖乖top2 方案 github 开源地址:https://github.com/PandasCute/2018-CCF-BDCI-China-Unicom-Research-Institute-top2数据说明字段中文名数据类型说明USERID用户IDVARCHAR2

2020-06-26 17:24:47 1099

原创 智慧海洋建设TOP方案借鉴学习与整理

本文主要是学习了天池的智慧海洋建设比赛的一些TOP方案,并对思路进行整理,本文以TOP1的方案为主,其他方案作为补充。参考的文章如下:2020DCIC智能算法赛-智慧海洋建设TOP1方案DCIC 2020数字中国创新大赛数字政府赛道:智慧海洋建设Rank 3解决方案智慧海洋复赛0.89937方案代码开源智慧海洋建设算法赛道B榜top5 方案及源码42个特征+xgboost top7方案-完整notebook非常感谢前排大佬开源的方案!数据探索与预处理渔船作业方式的定义拖网:拖曳渔具在

2020-06-05 11:50:18 1486 2

原创 【word2vec】篇三:基于Negative Sampling 的 CBOW 模型和 Skip-gram 模型

系列文章:【word2vec】篇一:理解词向量、CBOW与Skip-Gram等知识【word2vec】篇二:基于Hierarchical Softmax的 CBOW 模型和 Skip-gram 模型【word2vec】篇三:基于Negative Sampling 的 CBOW 模型和 Skip-gram 模型Negative Sampling是这么一种求解word2vec模型的方法,它摒弃了霍夫曼树,采用了Negative Sampling(负采样)的方法来求解。负采样算法在CBOW模型中,

2020-06-03 20:41:25 768

原创 【word2vec】篇二:基于Hierarchical Softmax的 CBOW 模型和 Skip-gram 模型

文章目录CBOW 模型基本结构目标函数梯度计算Skip-gram 模型基本结构梯度计算优缺点分析本篇是介绍基于Hierarchical Softmax的 CBOW 模型和 Skip-gram 模型。CBOW 模型基本结构CBOW 模型是在已知当前词wtw_twt​的上下文wt−2,wt−1,wt+1,wt+2w_{t-2},w_{t-1},w_{t+1},w_{t+2}wt−2​,wt−1​,wt+1​,wt+2​的前提下预测当前词wtw_twt​。后面我们用comtext(w)comtext(w)

2020-06-03 20:32:41 755

原创 【word2vec】篇一:理解词向量、CBOW与Skip-Gram等知识

文章目录词向量基础One-hot representionDistributed Representationword2vec 基础知识CBOW 和 Skip-gram霍夫曼树由于计算机不能直接对各种字符进行运算,为此需要将词的表示进行一些转换。因此,在自然语言处理中,通常需要对输入的语料进行一些预处理:其中,如何对词汇进行表示是很关键的问题,糟糕的表示方法容易导致所谓的 “Garbage in, garbage out”。词向量基础对词汇的表示,常见的有One-hot represention

2020-06-03 20:17:11 1496

原创 NLP基础:n-gram语言模型和神经网络语言模型

文章目录语言模型的计算n-gram 语言模型n-gram 平滑技术神经网络语言模型(NNLM)基本思想神经网络语言模型小结语言模型评价指标—困惑度语言模型是自然语言处理中的重要技术,假设一段长度为TTT的文本中的词依次为w1,w2,…,wTw_1, w_2, \ldots, w_Tw1​,w2​,…,wT​,语言模型将计算该序列的概率:P(w1,w2,…,wT).P(w_1, w_2, \ldots, w_T).P(w1​,w2​,…,wT​).语言模型有助于提升自然语言处理任务的效果,例如在语音

2020-06-02 10:45:23 1462

原创 长短期记忆(LSTM)相关知识

文章目录LSTM结构遗忘门输入门决定给细胞状态C添加哪些新的信息更新旧的细胞信息输出门LSTM小结如何实现长期依赖?如何避免梯度消失/爆炸?双向LSTM(Bi-LSTM)GRU上一篇文章中,提到RNN难以学习到长期依赖关系,后来有人提出了RNN的改进版本LSTM很大程度上改善了长期依赖问题。长期依赖在序列数据中是很常见的,考虑到下面这句话“I grew up in France… I speak fluent French.”,现在需要语言模型通过现有以前的文字信息预测该句话的最后一个词,模型结构的可能

2020-05-31 22:22:07 1660 1

原创 循环神经网络(RNN)相关知识

文章目录RNN概述前向传播公式通过时间反向传播(BPTT)RNN确定序列长度方式其他RNN结构基于RNN的应用1,序列数据的分析2,序列数据的转换3,序列数据的生成RNN的不足1,从隐藏变量h角度来看2,从梯度传播角度来看RNN概述循环神经网络(RNN)是用于处理序列数据的神经网络,该序列在时刻 t(从1 到 τ)包含向量 x(t)x^{(t) }x(t)。典型的网络结构如下图所示:RNN每个时间步都需要将 x 值的输入序列映射到输出值 o 的对应序列。其中 o 是未归一化的对数概率,并且在损失函数

2020-05-31 15:24:23 1194 3

原创 常见激活函数及其求导相关知识

Sigmoid函数Sigmoid函数介绍Sigmoid 是常用的非线性的激活函数,公式如下:σ(x)=11+e−x\sigma(x)=\frac{1}{1+e^{-x}}σ(x)=1+e−x1​函数图像如下:从图像可以看出,它能够把连续实值映射为0和1之间的输出,特别的,如果是非常大的负数,那么输出就是0;如果是非常大的正数,输出就是1。Sigmoid 函数有很多局限性:第一点,在数值的绝对值非常大的情况下,对应的函数图像的部分几乎是一条水平线。这意味着梯度几乎为0,不利于深层网络中梯度

2020-05-31 15:16:10 3891

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除