自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

Nemo的博客

逐梦，无问西东

原创 Stable-baselines3的基本原理与使用-1

stable_baselines3的设计原理学习-1

2022-01-14 19:55:54 11530 4

原创 Docker实操6——配置好的强化学习Dockerfile

强化入门的小白教程：用docker自定义专属的强化环境

2022-01-01 18:19:22 2002

原创 Docker 实操5—— 远程连接容器中的JupyterLab与Vscode

远程连接Docker中的Vscode和JupyterLab

2021-12-30 01:03:03 2016 1

原创 Docker实操4——Stable Baselines3强化算法库

在强化环境镜像的基础上，接入了强化算法库stable-baselines3

2021-12-29 17:11:12 2649

原创 Docker实操3——配置强化学习环境镜像

在不挂代理的情况下，手把手教你制作强化学习环境的docker镜像

2021-12-27 18:25:19 2263 1

原创 Docker实操-2——优雅地写Dockerfile

介绍dockerfile基本原理，利用其来配置强化环境

2021-12-24 16:18:02 2028

原创每天一个RL基础理论(10)—Exploration in Bandits

在最简易的问题规模下，经典的探索与利用策略Upper Confidence Bound和Linear UCB在Bandits问题下的理论分析、推导、结果。为Tabular MDP的exploration问题做铺垫

2021-12-19 03:02:15 418

原创每天一个RL基础理论(9)——Fitted Q-iteration

Fitted Q-iteration的理论分析，给出了value-based强化算法的性能上界

2021-12-14 22:21:33 1656

原创每天一个RL基础理论(8)——Linear Bellman Completeness

在状态动作空间很大时，LSVI算法对应的样本复杂度

2021-12-08 22:00:33 885

原创每天一个RL基础理论(7)——总结篇

总结了经典强化算法Value Iteration+Policy Iteration的基础理论结果，即收敛性证明、收敛速度、计算复杂度、样本复杂度等

2021-12-02 16:02:57 537

原创每天一个RL基础理论(6)——Sample Complexity(下）

Sample Complexity在unknown转移矩阵，使用VI算法的完整推导

2021-11-26 16:15:47 745

原创每天一个RL基础理论(5)——Sample Complexity(中）

样本复杂度的完整分析——均匀交互假设下(generative model)，使用VI算法得到一个near optimal的policy，sample complexity bound是多少？

2021-11-17 21:31:22 836

原创每天一个RL基础理论(4)——Sample Complexity(上）

在经典的MDP setting中去分析一个Sample Complexity Bound，回答需要多少样本才能学习到near-optimal的policy这个问题。Sample complexity 上集

2021-11-10 21:55:53 753

原创每天一个RL基础理论(3)——Computational Complexity

在infinite horizon discounted MDP的设定下，对deterministic & stationary的policy，给出两类经典算法value iteration以及policy iteration的计算复杂度

2021-11-08 21:49:00 581

原创每天一个RL基础理论(2)——VI&PI

在infinite discounted MDP已知的情况下，关于如何找到最优策略的两个基础理论Value Iteration & Policy Iteration及其相关证明

2021-11-06 02:58:33 873

原创每天一个RL基础理论(1)——Bellman Optimality

在infinite horizon discounted的MDP下，deterministic&stationary的optimal policy存在性证明，和Bellman Optimality的两个性质的证明

2021-11-03 02:17:48 588

原创 Docker实操-1

Docker基础实践：从Dockerfile到Docker Compose的一个小demo

2021-05-16 22:33:15 563

原创 On-Policy 深度强化的训练经验——Google Brain

谷歌大脑On-Policy的实验技巧大推荐！ICLR2021高分论文。

2021-05-13 21:19:09 460

原创离线强化学习-4 DP-based方法

解决Offline RL中使用Dynamics Programming方法学习Q函数时遇到的问题。主要介绍策略约束、基于不确定性的两大类方法。

2021-05-08 20:25:58 580

原创离线强化学习-3 对偶性的应用

将对偶性理论用在Offline RL中，比如Linear Program Duality、Lagrange Duality、Fenchel Duality

2021-05-05 21:04:30 418 5

原创离线强化学习-2重要性采样和Duality介绍（劝退版）

详解基于重要性采样和Convex Duality的Offline RL两大类方法，并简洁直观地阐述了共轭与对偶性。

2021-05-03 17:57:13 906 3

原创离线强化学习-1（背景介绍）

总结了一波Model-free RL的方法与问题，引申出离线强化学习的问题设定与背景

2021-04-29 17:35:45 1654

原创机器学习中的外推问题(OOD上，硬核慎点)

Out of Distribution Generalization in Machine Learning。对机器学习外推的理论解析文章，侧重直觉分析。

2021-04-22 00:26:39 7178 3

原创科研工具流1——Zotero管理文献

Mac + Safari + Zotero管理文献。总结了一下Zotero的初步介绍，以及具体工作流。具体配置操作可参见青柠学术

2021-03-06 17:17:43 3855 1

原创 TuRBO（2019NIPS）—贝叶斯优化的应用

贝叶斯优化的一个应用例子讲解，来自一篇2019NIPS的论文Scalable Global Optimization via Local Bayesian Optimization ，简记TuRBO

2021-03-03 21:42:03 1223

原创贝叶斯优化(深度剖析）

一文超详细地贝叶斯优化仔细剖开，概念、公式、理论与应用直通车。下一篇应用2019NIPS的一篇论文，作为贝叶斯优化的应用解读

2021-03-02 16:28:05 6100 1

原创高斯过程回归（输出学习法！）

高斯过程回归深度剖析到直觉理解

2021-01-11 18:20:34 2940 2

原创 Paper-10 精读MetaMimic (2019 DeepMind)

将Meta-Learning引入到DeepMImic中，文章值得阅读的应该是Related Work这部分了= =

2020-06-23 16:58:15 325

原创 Paper-9 精读VAIL (2019 ICLR)

与之前精读DeepMimic、GAIL、GCL、AIRL进行了对比，提出了一种利用Mutual Information 对GAN进行正则化的方法，并在IL、IRL的背景下提供了一定的理论分析与充足实验验证。

2020-06-20 23:37:54 849

原创 Paper-8 泛读 DeepMimic (2018 ACL)

具体介绍了DeepMimic，比较经典的Paper，主要是Imitation Objective与Task Objective结合的Reward，建模成RL问题。

2020-06-17 18:53:27 531

原创 Paper-7 精读AIRL Learn Robust Reward （2018 ICLR）

与前面的Paper，GAIL、GCL、Inverse RL进行对比的较为前沿的工作。Learning Robust Rwards With Adversarial Inverse RL

2020-06-15 22:24:17 1454

原创 Paper-6 精读 Deep Visuomotor Policies (2016 JMLR)

超级详细地解读一篇2016 JMLR的期刊文章：Deep Visuomotor Policies。涉及到Guided Policy Search、Trajectory Optimization以及Policy Supervision，最后是一个关于BADMM的大框架。

2020-06-09 14:52:22 875 1

原创 Paper-5 总结 GAN-IRL-Energy Model之间的联系 2016年

一篇总结性的Paper，涉及到精读过的Paper：Generative Adversarial Imitation Learning(GAIL)、Guided Cost Learning、Inverse RL与GAN的联系

2020-06-06 16:34:06 743

原创 Paper-4 精读 GCL（2016 ICML）

精读2016 ICML Chelsea Finn的Guided Cost Learning，与GAIL有异曲同工之妙，都有对抗思想的渗透。

2020-06-05 21:44:05 1315 2

原创 Paper-3 精读 Learn NN Policies with GPS under Unknown Dynamics(2014 NIPS)

精读Sergey Levine 2014 NIPS的的Paper：Learning Neural Network Policies with Guided Policy Search under Unknown Dynamics。将GPS的Setting从Known Dynamics变成Unknown Dynamics

2020-06-05 16:33:10 367 3

原创 Paper-2 精读GPS (2014 NIPS)

14年NIPS的Guided Policy Search，示教学习中一篇非常经典的文章。

2020-06-01 22:10:43 518

原创 OpenAI Gym--Classical Control 环境详解

Gym中Classic Control的环境详细信息以及gym的基本使用

2020-05-31 22:42:17 3066 1

原创 Paper-1 精读GAIL 2016 NIPS

Generative Adversarial Imitation Learning 2016 NIPS Paper精读，结合GAN思想进行指导的Imitation Learning

2020-05-31 16:30:25 716

原创 Matplotlib/Seaborn-快速上手-3

Matplotlib的高度封装库Seaborn熟悉，以及Examples学习

2020-05-27 16:30:47 293

原创 Matplotlib-快速上手-2

Matplotlib入门所需的原理、组织架构，快速入门系列2

2020-05-26 16:48:17 443

最优控制问题描述及matlab求解

华南理工大学，最优控制模型的描述、建立、求解以及matlab实现，数据分析。最优化课程课件。

2018-06-23

最优化--共轭梯度法

共轭梯度法，最速下降法，共轭方向法与众多优化方法的直观理解。华南理工大学---最优化

2018-04-15

matlab求解最优化线性规划问题代码以及思维导图

思维导图，包含了最优化问题中所有的算法记起分类和相关实现图片。附华南理工大学matlab实现最优化问题求解的代码课件以及相关代码示例，详细版。

2018-03-25

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示

确定要删除当前文章？

取消删除