自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Nemo的博客

逐梦,无问西东

  • 博客(66)
  • 资源 (3)
  • 收藏
  • 关注

原创 Stable-baselines3的基本原理与使用-1

stable_baselines3的设计原理学习-1

2022-01-14 19:55:54 11530 4

原创 Docker实操6——配置好的强化学习Dockerfile

强化入门的小白教程:用docker自定义专属的强化环境

2022-01-01 18:19:22 2002

原创 Docker 实操5—— 远程连接容器中的JupyterLab与Vscode

远程连接Docker中的Vscode和JupyterLab

2021-12-30 01:03:03 2016 1

原创 Docker实操4——Stable Baselines3强化算法库

在强化环境镜像的基础上,接入了强化算法库stable-baselines3

2021-12-29 17:11:12 2649

原创 Docker实操3——配置强化学习环境镜像

在不挂代理的情况下,手把手教你制作强化学习环境的docker镜像

2021-12-27 18:25:19 2263 1

原创 Docker实操-2——优雅地写Dockerfile

介绍dockerfile基本原理,利用其来配置强化环境

2021-12-24 16:18:02 2028

原创 每天一个RL基础理论(10)—Exploration in Bandits

在最简易的问题规模下,经典的探索与利用策略Upper Confidence Bound和Linear UCB在Bandits问题下的理论分析、推导、结果。为Tabular MDP的exploration问题做铺垫

2021-12-19 03:02:15 418

原创 每天一个RL基础理论(9)——Fitted Q-iteration

Fitted Q-iteration的理论分析,给出了value-based强化算法的性能上界

2021-12-14 22:21:33 1656

原创 每天一个RL基础理论(8)——Linear Bellman Completeness

在状态动作空间很大时,LSVI算法对应的样本复杂度

2021-12-08 22:00:33 885

原创 每天一个RL基础理论(7)——总结篇

总结了经典强化算法Value Iteration+Policy Iteration的基础理论结果,即收敛性证明、收敛速度、计算复杂度、样本复杂度等

2021-12-02 16:02:57 537

原创 每天一个RL基础理论(6)——Sample Complexity(下)

Sample Complexity在unknown转移矩阵,使用VI算法的完整推导

2021-11-26 16:15:47 745

原创 每天一个RL基础理论(5)——Sample Complexity(中)

样本复杂度的完整分析——均匀交互假设下(generative model),使用VI算法得到一个near optimal的policy,sample complexity bound是多少?

2021-11-17 21:31:22 836

原创 每天一个RL基础理论(4)——Sample Complexity(上)

在经典的MDP setting中去分析一个Sample Complexity Bound,回答需要多少样本才能学习到near-optimal的policy这个问题。Sample complexity 上集

2021-11-10 21:55:53 753

原创 每天一个RL基础理论(3)——Computational Complexity

在infinite horizon discounted MDP的设定下,对deterministic & stationary的policy,给出两类经典算法value iteration以及policy iteration的计算复杂度

2021-11-08 21:49:00 581

原创 每天一个RL基础理论(2)——VI&PI

在infinite discounted MDP已知的情况下,关于如何找到最优策略的两个基础理论Value Iteration & Policy Iteration及其相关证明

2021-11-06 02:58:33 873

原创 每天一个RL基础理论(1)——Bellman Optimality

在infinite horizon discounted的MDP下,deterministic&stationary的optimal policy存在性证明,和Bellman Optimality的两个性质的证明

2021-11-03 02:17:48 588

原创 Docker实操-1

Docker基础实践:从Dockerfile到Docker Compose的一个小demo

2021-05-16 22:33:15 563

原创 On-Policy 深度强化的训练经验——Google Brain

谷歌大脑On-Policy的实验技巧大推荐!ICLR2021高分论文。

2021-05-13 21:19:09 460

原创 离线强化学习-4 DP-based方法

解决Offline RL中使用Dynamics Programming方法学习Q函数时遇到的问题。主要介绍策略约束、基于不确定性的两大类方法。

2021-05-08 20:25:58 580

原创 离线强化学习-3 对偶性的应用

将对偶性理论用在Offline RL中,比如Linear Program Duality、Lagrange Duality、Fenchel Duality

2021-05-05 21:04:30 418 5

原创 离线强化学习-2重要性采样和Duality介绍(劝退版)

详解基于重要性采样和Convex Duality的Offline RL两大类方法,并简洁直观地阐述了共轭与对偶性。

2021-05-03 17:57:13 906 3

原创 离线强化学习-1(背景介绍)

总结了一波Model-free RL的方法与问题,引申出离线强化学习的问题设定与背景

2021-04-29 17:35:45 1654

原创 机器学习中的外推问题(OOD上,硬核慎点)

Out of Distribution Generalization in Machine Learning。对机器学习外推的理论解析文章,侧重直觉分析。

2021-04-22 00:26:39 7178 3

原创 科研工具流1——Zotero管理文献

Mac + Safari + Zotero管理文献。总结了一下Zotero的初步介绍,以及具体工作流。具体配置操作可参见青柠学术

2021-03-06 17:17:43 3855 1

原创 TuRBO(2019NIPS)—贝叶斯优化的应用

贝叶斯优化的一个应用例子讲解,来自一篇2019NIPS的论文Scalable Global Optimization via Local Bayesian Optimization ,简记TuRBO

2021-03-03 21:42:03 1223

原创 贝叶斯优化(深度剖析)

一文超详细地贝叶斯优化仔细剖开,概念、公式、理论与应用直通车。下一篇应用2019NIPS的一篇论文,作为贝叶斯优化的应用解读

2021-03-02 16:28:05 6100 1

原创 高斯过程回归(输出学习法!)

高斯过程回归深度剖析到直觉理解

2021-01-11 18:20:34 2940 2

原创 Paper-10 精读MetaMimic (2019 DeepMind)

将Meta-Learning引入到DeepMImic中,文章值得阅读的应该是Related Work这部分了= =

2020-06-23 16:58:15 325

原创 Paper-9 精读VAIL (2019 ICLR)

与之前精读DeepMimic、GAIL、GCL、AIRL进行了对比,提出了一种利用Mutual Information 对GAN进行正则化的方法,并在IL、IRL的背景下提供了一定的理论分析与充足实验验证。

2020-06-20 23:37:54 849

原创 Paper-8 泛读 DeepMimic (2018 ACL)

具体介绍了DeepMimic,比较经典的Paper,主要是Imitation Objective与Task Objective结合的Reward,建模成RL问题。

2020-06-17 18:53:27 531

原创 Paper-7 精读AIRL Learn Robust Reward (2018 ICLR)

与前面的Paper,GAIL、GCL、Inverse RL进行对比的较为前沿的工作。Learning Robust Rwards With Adversarial Inverse RL

2020-06-15 22:24:17 1454

原创 Paper-6 精读 Deep Visuomotor Policies (2016 JMLR)

超级详细地解读一篇2016 JMLR的期刊文章:Deep Visuomotor Policies。涉及到Guided Policy Search、Trajectory Optimization以及Policy Supervision,最后是一个关于BADMM的大框架。

2020-06-09 14:52:22 875 1

原创 Paper-5 总结 GAN-IRL-Energy Model之间的联系 2016年

一篇总结性的Paper,涉及到精读过的Paper:Generative Adversarial Imitation Learning(GAIL)、Guided Cost Learning、Inverse RL与GAN的联系

2020-06-06 16:34:06 743

原创 Paper-4 精读 GCL(2016 ICML)

精读2016 ICML Chelsea Finn的Guided Cost Learning,与GAIL有异曲同工之妙,都有对抗思想的渗透。

2020-06-05 21:44:05 1315 2

原创 Paper-3 精读 Learn NN Policies with GPS under Unknown Dynamics(2014 NIPS)

精读Sergey Levine 2014 NIPS的的Paper:Learning Neural Network Policies with Guided Policy Search under Unknown Dynamics。将GPS的Setting从Known Dynamics变成Unknown Dynamics

2020-06-05 16:33:10 367 3

原创 Paper-2 精读GPS (2014 NIPS)

14年NIPS的Guided Policy Search,示教学习中一篇非常经典的文章。

2020-06-01 22:10:43 518

原创 OpenAI Gym--Classical Control 环境详解

Gym中Classic Control的环境详细信息以及gym的基本使用

2020-05-31 22:42:17 3066 1

原创 Paper-1 精读GAIL 2016 NIPS

Generative Adversarial Imitation Learning 2016 NIPS Paper精读,结合GAN思想进行指导的Imitation Learning

2020-05-31 16:30:25 716

原创 Matplotlib/Seaborn-快速上手-3

Matplotlib的高度封装库Seaborn熟悉,以及Examples学习

2020-05-27 16:30:47 293

原创 Matplotlib-快速上手-2

Matplotlib入门所需的原理、组织架构,快速入门系列2

2020-05-26 16:48:17 443

最优控制问题描述及matlab求解

华南理工大学,最优控制模型的描述、建立、求解以及matlab实现,数据分析。最优化课程课件。

2018-06-23

最优化--共轭梯度法

共轭梯度法,最速下降法,共轭方向法与众多优化方法的直观理解。华南理工大学---最优化

2018-04-15

matlab求解最优化线性规划问题代码以及思维导图

思维导图,包含了最优化问题中所有的算法记起分类和相关实现图片。附华南理工大学matlab实现最优化问题求解的代码课件以及相关代码示例,详细版。

2018-03-25

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除