自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

qjf42的专栏

这个人很懒,什么都没留下

  • 博客(12)
  • 收藏
  • 关注

原创 《Reinforcement Learning: An Introduction》 读书笔记 - 目录

这一系列笔记是基于Richard S. Sutton的《Reinforcement Learning: An Introduction》第二版 因为这本书在出版之前,作者就在官网上发布了几次草稿版,不同时间发布的版本之间的排版有所差异(尤其是2017年和2018年的之间) 本系列基于2018年的几个版本,所以如果文中部分内容所指明的地方和读者看到的不一致,敬请谅解~第2...

2018-03-22 18:34:01 4837

原创 关于RNN的一个问题

问题的引入某次实验,一个比较简单的二分类问题,网络结构:两层bilstm+bigru,hidden state拼接后加一个attention,再加两层全连接做分类;本以为attention能work,找出序列中对分类最有用的元素/片段,但实际情况是,所有的attention score都差不多(≈1len\approx \frac{1}{len}≈len1​,除了前几个可能稍有不同);att...

2019-09-10 15:33:03 486

原创 特征归一化/标准化

what特征归一化/标准化(feature scaling/standardization/normalization)是一种把特征变量映射到某个区间的数据前处理方法因为不同特征的取值范围,单位、量纲各不相同(如,身高可用m或cm),对某些模型来说,可能对结果有影响这些词是一类操作,可能稍有不同,这里先不做区分how基本方法常见的就两种方法(本质上都是压缩平移):...

2018-09-04 21:26:41 690

原创 特征哈希(Feature Hashing)

基于词表的特征向量化分类问题中,一种常见的方法是构造一个特征词典,如文本分类,会给每个词(可能还有ngram,词性等)设置一个feature_id(向量化(vectorize)),并记录在一个词典({feature: feature_id})里,从而抽取特征权重的过程通常是这样的:text => feature => feature_id => feature_value ...

2018-09-04 21:25:56 6416

原创 GBDT相关理解

从Gradient Descent(梯度下降) 到Gradient Boosting(梯度提升)首先说明,中文看起来是反义,但实际上是两个东西,和Gradient Descent类似的那个叫Gradient Ascent(梯度上升)梯度下降和牛顿法优化中有两种常见的方法,梯度下降(GD)和牛顿法,可以分别认为是目标函数基于泰勒展开的一阶和二阶版本,简单说一下:目标: argmin...

2018-08-28 21:54:59 472

原创 《Reinforcement Learning》 读书笔记 6:时序差分学习(TD-Learning)

《Reinforcement Learning: An Introduction》 读书笔记 - 目录先来看一个例子 每天上班的路程,都是可以看作是一系列子过程的组合,如:走路去地铁站=>地铁1=>地铁2=>公交,总时长是这些子过程之和。每天我们依赖之前的经验,估计当天的时长,并更新我们的经验。 那么如何做出更好的估计呢?如何更快地积累有效的经验? 尤其是在一个没有...

2018-04-29 18:55:57 9163

原创 N-gram语言模型 & Perplexity & 平滑

一、N-gram语言模型二、Perplexity(困惑度)三、平滑方法问题常用方法Laplace平滑 (add-one, add-α)Good-Turing SmoothingBackoff (Katz) Interpolation(Jelinek-Mercer)Recursive InterpolationAbsolute DiscountingWitten-Be...

2018-04-03 18:16:20 7088 3

原创 关于词向量的一些理解

数学上如何解释?有很多种解释,其中一种是相对简单的:《Neural Word Embedding as Implicit Matrix Factorization》文中对skipgram (negative sampling) 的损失函数进行了重新整理后发现,实际上, w→⋅c→=log(#(w,c)⋅|D|#(w)⋅#(c)⋅1k)=log(#(w,c)⋅|D|#(w)⋅#(c))−...

2018-03-24 00:08:03 1970 1

原创 《Reinforcement Learning》 读书笔记 5:蒙特卡洛(Monte Carlo Methods)

《Reinforcement Learning: An Introduction》 读书笔记 - 目录问题前面两章都假设我们已知MDP的分布p(s′,r|s,a)p(s′,r|s,a)p(s', r | s, a)(model),但有时这一点难以做到(第2章的多臂老虎机问题是一个特殊的例子),或者说这种Markov假设可能是不合理的,那么我们只能从真实/模拟环境中去获取这些知识PS:...

2018-03-22 17:59:38 1098

原创 《Reinforcement Learning》 读书笔记 4:动态规划(Dynamic Programing)

《Reinforcement Learning: An Introduction》 读书笔记 - 目录为了求解价值函数,或更一步得到最优策略,可以解Bellman方程组,但是当状态集太大时,求解的复杂度太高,所以这一章主要介绍了一些迭代的方式来逼近精确解,在不损失精度的情况下,大幅减少复杂度(对state-value function来说,一般是O(|S|k)O(|S|k)O(|\mathca...

2018-03-22 17:46:13 1400

原创 《Reinforcement Learning》 读书笔记 3:有限马尔科夫决策过程(Finite MDP)

《Reinforcement Learning: An Introduction》 读书笔记 - 目录Agent-Environment Interfaceagent learner and decision makerenvironment 与agent交互,包括所有agent之外的东西environment’s state St∈SSt∈SS_t \in \mathcal...

2018-03-22 17:27:11 1147

原创 《Reinforcement Learning》 读书笔记 2:多臂老虎机(Multi-armed Bandits)

《Reinforcement Learning: An Introduction》 读书笔记 - 目录Reinforcement Learning 和 Supervised Learning 的区别 evaluate vs instruct也就是说,RL的对于每一个action的效果不是非黑即白的,而是在每一次的action之后都可能不一样的后果(feedback, rewar...

2018-03-22 16:39:56 5701

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除