6 nana-li

尚未进行身份认证

我要认证

越努力,越幸运!

等级
TA的排名 2k+

[强化学习] 时序差分学习

写在前面本文主要为学习sutton书中《时序差分学习》章节整理而来。一、引言1、蒙特卡洛方法回顾(1)预测问题蒙特卡洛的目标是根据策略π\piπ采样轨迹序列vπ(s)v_\pi(s)vπ​(s):S1,A1,R2,...,Sk∼πS_1,A_1,R_2,...,S_k \sim \piS1​,A1​,R2​,...,Sk​∼π。价值函数:vπ(s)=E(Gt∣St=s)v_\pi(s) = \mathcal{E}(G_t|S_t=s)vπ​(s)=E(Gt​∣St​=s)累积奖励GtG_tGt

2020-05-11 12:33:36

[强化学习] 蒙特卡洛方法

写在前面强化学习系列方法主要学习Sutton的书,本文主要讲使用蒙特卡洛做预测和控制涉及到的问题。一、动态规划的局限动态规划中状态价值更新函数为:V(k+1)(S)=∑A∈Aπ(A∣S)(RSA+γ∑S′∈SPSS′AV(k)(S′))V^{(k+1)}(S) = \sum_{A \in \mathcal{A}} \pi(A|S) (R_S^A + \gamma \sum_{S' \in...

2020-03-28 10:42:43

[强化学习] 有限马尔科夫决策过程

<h3>写在前面</h3>强化学习系列博客主要学习sutton的书,有些内容来自Google DeepMind的David Silver的PPT,再此声明。<h3>一、马尔可夫过程</h3><center><img width="70%" src="https://img-blog.csdnimg.cn/20200313214937899.png"/></center>如上图所示,在强化学习的过程中,Agent与Environment一直交互。在时刻$t$,Agent接收来自环境的状态$S_

2020-03-14 14:05:41

[强化学习] 多臂赌博机

<h3>写在前面</h3>今天的博客主要是针对多臂赌博机中探索与利用问题的一些解决算法的讲解。本文是由suttom的书学习而来,本文有些图片来自来自David Silver的公开课,在此先声明一下。多臂赌博机问题其实很早就有,那时候强化学习还没有流行,强化学习发展到现在已经比较流行,大家发现强化学习中的探索与利用问题很早就出现在了多臂赌博机里,所以在介绍强化学习的时候都会提到多臂赌博机的问题。<h3>一、简介</h3><h4>1、多臂赌博机的问题</h4>多臂赌博机就是有很多台带着拉杆的

2020-03-07 17:33:46

[强化学习] 概念、举例、分类

<h2> 写在前面</h2>本文主要是学习sutton的书--强化学习绪论部分的整理,这里为了更好地理解,扩展了一些书上的内容。例子来源于网上,后续介绍的时候我会加上来源;还有部分PPT内容参考台大李宏毅老师的PPT以及Google DeepMind的David Silver的PPT,后续会注明!~~<h2>一、强化学习概念</h2><h3>1、基本概念</h3>在进入强化学习之前,这里先讲一个例子:> 小时候刚上学的时候,第一天老师布置了作业,我很认真地完成了它,然后得到了一朵小红花;第

2020-03-03 20:12:30

mac下matplotlib中文字体无法显示解决方法

一、环境描述python 3.7mac 10.14.5二、问题描述如下图所示,当使用matplotlib绘制图片的时候,所有的中文字符无法正常显示。三、解决方法1、下载字体ttf文件链接:https://pan.baidu.com/s/1RLVvbIi_NpAiiycBYQRPCQ 密码:n1sv2、找到配置文件使用如下代码找到配置文件:import matplotli...

2019-12-05 09:53:32

[强化学习] off-policy和on-policy、Q-learning和Sarsa的区别、Sarsa-lambda、Q-lambda

本文主要包括:Q-learning基础、根据Q-learning思想分析一个代码。

2019-05-11 16:11:11

迁移学习(Transfer Learning)

本博客主要是台湾大学-李宏毅老师的公开课的总结。一、简介迁移学习主要是指将已有数据的领域知识迁移到数据缺乏的领域任务中,下面简单介绍下:出现原因迁移学习主要用于将源域(source domain)的知识迁移到目标域(target domain),也可以理解为源域的数据辅助目标域数据的决策。其出现的主要原因是目标域数据较少,若仅仅使用目标域的数据,不足以训练一个比较好的模型,所以我们借助...

2019-05-10 13:53:13

[歌曲推荐] 基于语义信息的歌曲推荐

总体介绍本版本主要基于word2vec,后续还有一些改进想法,会继续更新。本项目主要包括如下内容:(1) 网易云音乐歌曲信息的爬取(歌手姓名、歌曲名、歌词、评论数、歌曲id)。(2) 使用word2vec对歌曲进行表示表示。(3) 基于word2vec对歌曲进行推荐以及web系统展示,支持歌手名、歌手+关键词和关键词查询。除此之外,涉及...

2019-04-15 20:31:54

GBDT和Xgboost:原理、推导、比较

写在前面网上有很多关于GBDT和Xgboost的文章,但是我在读的时候感觉对于提升树、GBDT和Xgboost之间的关系,以及他们和残差、梯度的关系,所以自己整理了一下,涉及的知识点比较多。Xgboost证明部分主要来源于论文,这里加入了自己的理解,以及对几者关系的说明。在看本篇博文之前可以先看下提升树的相关内容,这样理解起来会思路更清晰。提升树、GBDT和Xgboost的简单介绍如下:...

2019-03-23 23:00:10

[激活函数] 非线性原因分析、Sigmoid、TanH、ReLU和ELU

本篇主要整理下激活函数的相关内容。首先讲下激活函数需要满足的条件:计算简单非线性为什么需要满足非线性呢?我们来看下面这个例子。如图单隐层神经网络,我们在计算的时候有如下公式:z1(2)=w[1]x+b[1]a1(2)=g[1](z1(2))\begin{aligned}z_1^{(2)} &amp;amp;= w^{[1]}x+b^{[1]} \\a_1^{(2)} &am...

2019-03-20 12:11:54

[Mysql] 聚集函数:NULL是否包含在内(包括count(1)和count(*)的比较)

本篇博客主要整理并亲自验证一下count(*), count(1)和count(column-name)的区别,本部的内容主要参考stackoverflow,除此之外,对聚集函数中是否包含NULL值进行了验证。本文所有测试数据基于macOS10.14.3,mysql5.7.25。一、数据本文主要使用2张数据表,分别是user和product表,其中,user表的“name”和“product...

2019-03-18 20:26:16

[优化方法] 梯度下降法、最小二乘法、牛顿法、拟牛顿法、共轭梯度法

一、梯度下降法1、算法原理关于梯度的优化优化方法主要包括梯度上升和梯度下降,如果想要求最大值,则使用梯度上升法,如果想要去最小值,则使用梯度下降法。本文主要讲梯度下降法,梯度下降法是指参数不断沿着负梯度方向不断更新,直到最小值,其形象化表示如下图:如上图所示,在A处找到其梯度下降最快的方向,沿着此方向走到A1点,接着在A1点沿着下降最快的方向走到A2点,直到最终走到AEnd点。那为什么会...

2019-03-17 22:50:21

[布隆过滤器BloomFilter] 举例说明+证明推导

写在前面网上有很多写布隆过滤器的博客,但是大部分都是只关注一个点,不能非常好的从原理到应用理解,所以这里对布隆过滤器进行了整理。很多思想和例子都来自网上的的一些博客,非常感谢这些可爱哒人儿的付出,这里会尽量整理的比较详细,规整,有头有尾。一、引例在提到实现去重功能时,大部分人都会直接选择HashSet,HashSet可以起到去重的效果,并且其时间复杂度为O(1)O(1)O(1),但是其存在的...

2019-03-13 12:49:30

[交叉熵损失和accuracy关系] 验证集上val-loss先降低再增加,而val-accuracy一直在增加

在上一篇博文([歌词生成]基于LSTM语言模型和seq2seq序列模型:数据爬取、模型思想、网络搭建、歌词生成)中,seq2seq训练之后,我们发现其在训练集合验证集上loss和accuracy变化如下:我们首先来回顾一下过拟合的基本表现:训练集loss不断降低,但是测试集的loss开始不断增加。再来看我们这个情况,看右边2个loss的图,在第15个epoch之前,训练集上的loss不断...

2019-01-09 15:42:11

[歌词生成] 基于LSTM语言模型和seq2seq序列模型:数据爬取、模型思想、网络搭建、歌词生成

非常好奇强大的生成技术,写了这个小项目。模型优化无止境,这只是初步的模型,有时间我也会不断优化。本文主要对中文歌词进行自动生成。主要使用了基于概率语言模型的方法和基于seq2seq的方法进行生成。本文所有代码地址:[Github](https://github.com/Nana0606/Lyrics-generation)

2019-01-09 11:02:34

[实例] 特征选择方法、网格搜索调参、不平衡处理、pu-learning

写在前面本篇博客主要包括以下内容:(1)特征选择方法介绍(2)基于科研人员导师/学生分类实例应用特征选择方法,参数选择使用的是网格搜索。注:很多内容是网上学习而得,感谢大佬们的分享~参考文献:[1]https://blog.csdn.net/fontthrone/article/details/79004874[2]http://www.cnblogs.com/stevenl...

2018-12-28 22:07:53

hive sql语句和mysql用法区别存档

写在前面以下功能版本:mysql版本:5.6.17hive版本:2.2.41、GROUP_CONCAT先看下面数据表test_group:(1)简单情况需求如下:写出一个sql语句,按照category分组,并把组内的name使用“;”分隔符连接。①mysql中SELECT category, GROUP_CONCAT(nameSEPARATOR&amp;amp;amp;amp;amp;quot;;&amp;amp;amp;amp;amp;quo

2018-12-25 15:10:32

[Centos-Docker] Docker-gpu安装及docker中jupyter配置

写在前面OS版本:centos7Anaconda版本:3.5一、Docker安装安装教程链接:https://github.com/ufoym/deepo#GPU,执行如下图的Step1和Step2:Step1中的使用yum安装命令如下:$ yum install docker$ yum install nvidia-docker注意: image类似操作系统镜像文件等,一个i...

2018-12-14 13:17:06

Keras: Merge和merge区别、Sequencial()和Model()区别

本篇博客主要整合一些本人在阅读时感觉很有用的连接,非原创。一、Merge和merge简介Keras中提供了Merge和merge两个不同的功能(新的版本中可能Merge功能已经删除,亲测:Keras2.0.4中Merge和merge功能都是存在的,但是Keras2.2.4中Merge功能已经删除)。关于这两者的区别,请详见链接:“Merge”versus“merge”,whatis...

2018-12-05 10:29:55

查看更多

勋章 我的勋章
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv1
    勤写标兵Lv1
    授予每个自然周发布1篇到3篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。