@RichardWang-CSDN博客

原创离线强化学习(Offline RL)系列5: (模型参数) 离线强化学习中的超参数选择(Offline Hyperparameters Selection)

离线强化学习的数据集、数据集的特征、采样复杂性以及算法实现在之前的博客中已经阐述了很多，此外，对算法效率还有一个非常重要的影响特性：**超参数的选择**，本文作者就该过程进行了阐述，并提出了使用3种指标衡量选择效果，最后基于FQE算法实验，通过与常见的CRR等算法进行对比。

2022-05-03 18:05:22 2338

原创离线强化学习(Offline RL)系列3: (算法篇) AWAC算法详解与实现

在线强化学习方法运用到机器人领域遇到的最大的问题就是探索阶段所需要的成本太高，对于机器人来说，收集数据造价高并且很费时间，收集单个动作训练样本就可能要几分钟的时间。而强化学习中动辄几万、几十万的训练步骤，时间成本太高，而且机器人训练过程中还容易损坏，因此很难将在线RL应用于现实世界中的机器人技术问题，这也是强化学习很难落地应用的一个重大原因。但科研还要继续，遇到问题就要解决问题，借鉴监督学习中的数据集概念，便有了offline Reinforcement Learning，如果我们能够在多个问题或实验之间重

2022-04-27 15:09:41 1688

原创离线强化学习(Offline RL)系列4：(数据集) 经验样本复杂度(Sample Complexity)对模型收敛的影响分析

本文首先解释了样本复杂性的基本概念，并就其在监督学习中的应用进行阐述，其次推理了强化学习中样本数的复杂度，最后就论文中通过样本复杂度对函数的过拟合影响等进行分析总结。

2022-04-20 22:35:09 3279

原创离线强化学习(Offline RL)系列4:(数据集)Offline数据集特征及对离线强化学习算法的影响

作者首先提出了5种不同方式的数据集组成方式，并提出了轨迹质量(Trajectory Quality, TQ) 和状态-动作对覆盖率(Relative State-Action Coverage, SACo)两种指标，通过实验验证了不同的意义，随后提出了p performace（和百分比性能区分）进行了实验。

2022-04-19 17:16:14 3923 1

原创离线强化学习(Offline RL)系列3: (算法篇) AWR(Advantage-Weighted Regression)算法详解与实现

Advantage-Weighted Regression (AWR)，从名字上来看，就是Advantage版本的Reward-Weighted Regression (RWR)。AWR通过对RWR进行改进，包括两个标准的监督学习步骤，一个通过利用累积奖励的回归来训练价值函数基线，另一个通过加权回归来训练策略。核心思想是将策略优化过程看成是极大似然估计问题，在策略提升过程中，用优势函数进行权重似然估计。作者在Mujoco环境中和其他算法进行了比较，展现了算法的有效性。

2022-04-17 13:08:48 2516 1

原创离线强化学习(Offline RL)系列3: (算法篇) Onestep 算法详解与实现

迭代方法（Iterative）相对较差主要是由于在执行off-policy评估时固有的高方差的结果，且因这些估计的重复优化策略而放大，本文提出的基于On-policy的Onestep方法通过一步约束/规则化的策略改进，解决了基于off-policy的multi-step/interative中遇到的iterative error exploitation等问题，在连续（continous）任务达到了SOTA的效果。

2022-04-14 21:07:26 1935

原创离线强化学习(Offline RL)系列3: (算法篇) IQL(Implicit Q-learning)算法详解与实现

本文提出的 IQL(Implicit Q-learning) 直接没有去学习OOD之外的动作，而是用已知的state-action进行学习，通过使用SARSA style的方式重构策略和值函数（引入Expectile Regression） $L$ ，在策略的抽取方面采用了AWR(Advantage Weighted Regression)方式抽取，直接确定 $Q$ 值如何随着不同的动作而变化，并借助随机动态对未来结果进行平均，而不是确定 $Q$ 值如何随着不同的未来结果而变化.结果表明

2022-04-12 17:42:10 4817

原创离线强化学习(Offline RL)系列3: (算法篇) CQL(Conservative Q-Learning)算法详解与实现

论文的主要思想是在QQ值基础上增加一个regularizer，学习一个保守的Q函数，作者从理论上证明了CQL可以产生一个当前策略的真实值下界，并且是可以进行策略评估和策略提升的过程。从代码的角度上来说，本文的regularizer只需要20行代码即可实现，大幅提升了实验结果。同时作者也全部opensource了代码，非常推荐研究。

2022-04-10 15:42:35 4773 1

原创离线强化学习(Offline RL)系列3: (算法篇) TD3+BC 算法详解与实现（经验篇）

本文作者提出的TD3+BC方法，结构简单，仅在值函数上添加一个行为克隆(BC）的正则项，并对state进行normalizing，简单的对TD3修改了几行代码就可以与前几种方法相媲美，结果表明：TD3+BC效果好，训练时间也比其他少很多

2022-04-09 12:30:57 5727 1

原创离线强化学习(Offline RL)系列3: (算法篇) REM(Random Ensemble Mixture)算法详解与实现

本文作者大胆的提出了在不去修正该问题（without an explicit correction for distribution mismatch）的情况下能否达到state of the art的效果问题，并提出了**随机集成混合方法(Random Ensemble Mixture, REM)** 方法，它是一种使用多个参数化 $Q$ 函数来估计 $Q$ 值，并将多个 $Q$ 值估计的凸组合看作是 $Q$ 值估计本身，强制执行最佳的贝尔曼一致性的方法，结果表明效果不错。

2022-04-07 23:00:28 2255

原创离线强化学习(Offline RL)系列3: (算法篇)策略约束 - BRAC算法原理详解与实现(经验篇)

本文作者通过VP（value penalty）和PR（policy regularization 两种方式来提高算法的效率。并在此技术上讨论了诸如regularization weight、Divergence for regularization以及超参数选择等6方面的内容，论文做了大量的实验（一如既往的Google风格），结论是：（1）加权目标Q值集合和自适应正则化系数是不必要的；（2）价值惩罚（VP）的使用略优于策略正则化（PR），而许多可能的分歧(KL，MMD，Wass Dis)可以达到类似的性能

2022-04-06 17:20:37 1861

原创离线强化学习(Offline RL)系列3: (算法篇)策略约束 - BEAR算法原理详解与实现

策略约束（Policy constraint）作为一种非常重要的约束方法广泛的用在强化学习领域，然而，在offline中，BCQ使用的VAE和生成扰动网络虽然解决了extrapolation error,但对于一些仍然处于行为策略分布外（Out-of- Distributuin, OOD）的状态-动作无法很好的拟合，本文阐述的BEAR算法是一种新的策略约束解决办法，其通过一种交Support-set matching技术解决了learned policy和behavior policy之间的关系。

2022-04-05 22:17:22 3370 1

原创离线强化学习(Offline RL)系列3: (算法篇)策略约束-BCQ算法详解与实现

本文主要介绍的是连续空间状态下的策略约束的BCQ算法，作者首先就offline RL中容易出现extrapolation error现象进行了解释，然后用数学证明了在某些条件下这种误差是可以消除的，最后引入了BCQ算法，通过batch constrain的限制来避免这样的误差，实验证明BCQ算法的效果很好。

2022-04-02 18:44:20 3100 3

原创离线强化学习(Offline RL)系列2: (环境篇)D4RL数据集简介、安装及错误解决

强化学习快速发展的主要原因在于有一个良好的模拟环境，最终得到一个最优的policy, 然而现实问题就是在实际落地应用中没有有效的环境，为了解决实验环境问题，本文主要对现有的离线强化学习数据集D4RL进行安装，并就出现的相关问题进行汇总

2022-03-28 18:32:57 8750 2

原创离线强化学习(Offline RL)系列1：离线强化学习原理入门

离线强化学习（Offline RL）作为深度强化学习的子领域，其不需要与模拟环境进行交互就可以直接从数据中学习一套策略来完成相关任务，被认为是强化学习落地的重要技术之一。本文详细的阐述了强化学习到离线强化学习的发展过程，并就一些经典的问题进行了解释和说明。

2022-03-28 18:28:58 14242

原创深度强化学习系列(10): NoisyNet-DQN原理及实现

论文地址： https://arxiv.org/pdf/1706.10295v1.pdf本篇论文是DeepMind发表于顶会ICLR2018上的论文，第一作者Meire，里面也有熟悉的Mnih等大佬，还是往常的阅读顺序：本文解决的是强化学习中的“探索问题”(efficient exploration)，作者通过给训练网络中添加噪音参数（和梯度更新同时更新网络权重参数），通过权重网络的训练来...

2020-04-26 17:50:39 6972 4

原创深度强化学习系列(9): Dueling DQN原理及实现

本文是DeepMind发表于ICML2016顶会的文章（获得Best Paper奖），第一作者Ziyu Wang（第四作Hado Van Hasselt就是前几篇文章#Double Q-learning#，Double DQN的作者），可以说DeepMind开创了DQN系列算法(后续阐述OpenAI的策略梯度算法)。往常一样，摘要结论。其实本文提出的算法并没有过多的数学过程，而是一种网络结构...

2020-03-20 20:38:53 7273 2

原创深度强化学习系列(8): Prioritized Experience Replay(PER-DQN)原理及实现

论文地址： https://arxiv.org/abs/1511.05952本论文是由DeepMind操刀，Schaul主导完成的文章，发表于顶会ICLR2016上，主要解决经验回放中的”采样问题“（在DQN算法中使用了经典的”experience replay“，但存在一个问题是其采用均匀采样和批次更新，导致特别少但价值特别高的经验没有被高效的利用）。还是往常的学习顺序，先摘要和结论...

2019-12-23 21:42:57 17121 3

原创深度强化学习系列(7): Double DQN(DDQN)原理及实现

论文地址： https://arxiv.org/pdf/1509.06461.pdf本文是Google DeepMind于2015年12月提出的一篇解决Q值"过估计(overestimate)"的文章，作者Hado van Hasselt在其2010年发表的Double Q-learning算法工作的基础上结合了DQN的思想，提出了本文的state-of-the-art的Double DQN...

2019-12-17 17:15:29 13826

原创深度强化学习系列(4): Q-Learning原理与实现

论文地址： http://www.gatsby.ucl.ac.uk/~dayan/papers/cjch.pdfQ-Learning是发表于1989年的一种value-based，且model-free的特别经典的off-policy算法，近几年的DQN等算法均是在此基础上通过神经网络进行展开的。1. 相关简介强化学习学习过程中，通常是将学习的序列数据存储在表格中，通过获取表中的数据，...

2019-12-16 17:40:17 3011

原创深度强化学习系列(5): Double Q-Learning原理详解

论文地址： https://papers.nips.cc/paper/3964-double-q-learning.pdf本论文是由DeepMind发表于2015年NIPS的一篇论文，作者Hasselt。前言： Q-Learning算法由于受到大规模的动作值过估计(overestimation)而出现不稳定和效果不佳等现象的存在，而导致overestimation的主要原因来自于最大化值函...

2019-12-05 21:53:34 15979 4

原创深度强化学习系列: 最全深度强化学习资料

关于这项工作:本工作是一项由深度强化学习实验室(Deep Reinforcement Learning Laboratory, DeepRL-Lab)发起的公益项目，共联合深度强化学习领域的30+位博士，100+位硕士共同完成。文章同步于Github仓库：https://github.com/NeuronDance/DeepRL/tree/master/A-Guide-Resource-F...

2019-11-14 20:08:01 15816 2

原创深度强化学习系列之(13): 深度强化学习实验中应该使用多少个随机种子？

How Many Random Seeds Should I Use? Statistical Power Analysis in (Deep) Reinforcement Learning Experiments前言不断检查实验结果的统计意义是解决深度强化学习中所谓“再现性危机”的强制性方法步骤之一。本论文将解释随机种子数与统计错误概率之间的关系。对于t检验和bootstrap置信区间检验...

2019-10-13 12:45:54 3683

原创深度强化学习系列(15): TRPO算法原理及Tensorflow实现

深入浅出理解TRPO算法1、论文思想与原理1.1 Surrogate function(替代函数)1.2 目标函数1.3 一阶近似： ??函数1.3.1 技巧一：一阶近似1.3.2 重要性采样1.3.3 步长的选择1.4 单调递增证明：1.5 优化目标函数（Optimizing the objective function）Tensorflow代码实践前言：策略梯度方法博大精深，但策略梯度...

2019-07-21 12:40:59 11584 4

原创深度强化学习系列: 多巴胺（Dopamine）环境配置和实例分析

Paper: Dopamine–a research framework for deep reinforcement LearningGithub: https://github.com/google/dopamine论文的首页明显告诉我们，这是一篇Google出的论文（所以值得一读），该文作者提出了一种新的深度强化学习研究框架：多巴胺（Dopamine），旨在于丰富DRL的多样性，该框...

2019-01-10 13:09:20 3327 1

原创深度强化学习系列(14): A3C算法原理及Tensorflow实现

在DQN,DDPG算法中我们用到了一个非常重要的思想就是经验回放本文首先从论文《Asynchronous Methods for Deep Reinforcement Learning》解读开始，这篇论文是Google于ICML2016顶会上发的，点击查看原始论文，当然里面的其中一直作者就是男神David Sliver，先放个论文照片！从论文title中就可以看出是关于Asynchro...

2018-06-26 21:09:46 19343 2

原创深度强化学习系列(13): 策略梯度（Policy Gradient）

对于DQN来说使用一个网络直接逼近了值函数，最后取得了非常不错的效果, 但是对于一些连续性控制或者动作空间特别大的环境来说，很难全部计算所有的值函数来得到最好的策略，那么直接计算策略的方法就别提出来了。回顾一下前面几篇，所谓的策略，其实就是状态到动作的映射数学表达为 π：s→aπ：s→a\pi ： s \to a，我们用ττ\tau 表示状态s到最后一个状态的一个序列，表示为： τ：st...

2018-06-15 22:04:37 4371 3

原创深度强化学习系列(2): ERROR: GLEW initalization error: Missing GL version

当深度强化学习之（6）中的环境安装好之后，一阵欣喜，觉得可以干大事了，于是激动的不行，迫不及待的想看效果然而幸福来的太快就容易让人失望的越厉害，因此美好的事情总是值得多次磨砺废话不说了，爆出的错误是这样的Running trained modelCreating window glfwERROR: GLEW initalization error: Missing GL versi...

2018-06-09 21:49:35 12991 8

原创深度强化学习系列: OpenAI-baselines的使用方法

OpenAI，由诸多硅谷大亨联合建立的人工智能非营利组织。2015年马斯克与其他硅谷科技大亨进行连续对话后，决定共同创建OpenAI，希望能够预防人工智能的灾难性影响，推动人工智能发挥积极作用OpenAI、DeepMind，伯克利三个可以说是强化学习的推动者，其中OpenAI 为很多算法都写了baselines。本文讲开始运行例子，以A2C算法为例子（具体a2c算法原理后续讲解）：首先就是...

2018-06-08 20:43:40 15582

原创深度强化学习系列(16): 从DPG到DDPG算法的原理讲解及tensorflow代码实现

Atari 游戏所需的动作是离散的，且属于低维（只有少数几个动作），但现实生活中很多问题都是连续的，且维度比较高，比如机器人控制（多个自由度)等。虽然可以对连续性高维度的动作做离散型的处理，但是对于一个经过离散处理的大状态空间，使用DQN训练仍然是仍然是一个比较棘手的问题，因为DQN算法的核心思想是利用随机策略进行探索，对于高维度的来说，第一个问题是：模型很难收敛，第二个问题是需要在探索和利用之间进行协调

2018-05-22 18:00:53 14963

原创深度强化学习系列(6): DQN原理及实现

专栏系列文章规划DRL&ADS系列之(1): 强化学习概述DRL&ADS系列之(2): 深度强化学习及算法讲解 DRL&ADS系列之(3): ADS软硬件分析及DRL在Torcs中的应用上一篇文章《DRL&ADS系列之(1): 强化学习概述》已经讲解了利用神经网络近似值函数的方法，即： V̂ (s,w)≈Vπ(s)q̂&nbsp...

2018-03-30 20:49:19 10941 3

原创深度强化学习系列(1): 深度强化学习概述

深度强化学习及其在自动驾驶中的应用( DRL & ADS )专栏系列文章规划DRL&ADS系列之(1): 强化学习概述DRL&ADS系列之(2): 深度强化学习及算法讲解DRL&ADS系列之(3): ADS软硬件分析及DRL在Torcs中的应用概述机器学习是人工智能的一个分支，在近30多年已发展为一门多领域交叉学科，涉及概率论、统计学...

2018-03-30 20:45:33 24888 7

原创离线强化学习(Offline RL)系列7: (状态处理)Koopman-Q学习：通过动力学对称性的状态空间数据增强方法

当前的Offline RL算法过度拟合训练数据集，因此在部署到环境后，遇到分布的外泛化就表现不佳。目前解决OOD算法的方法也挺多。而本文作者通过学习 **Koopman潜在表示(Koopman latent representation)** 来解决这些限制，它是一种**model-free**方法,通过使用环境动态的对称性来Guide数据增强策略。然后用于在训练期间扩展原本静态的离线数据集；这构成了一个新颖的**数据增强框架** ，结果表明在几个基准离线强化学习任务和数据集（包括 D4RL、Metawor

2022-08-29 16:27:56 1625 2

原创离线强化学习(Offline RL)系列7: (状态处理) OfflineRL中的状态空间的数据增强（7种增强方案）

现有的OfflineRL存在（1）对训练数据集过度拟合;（2）在部署时表现出对环境的分布外（OOD）泛化能力差的问题，本篇论文作者研究了在 **状态空间上执行数据增强** 的有效性，并通过7种不同的增强方案在OfflineRL环境环境中进行了实验。结果不表明使用 **S4RL(简单自我监督技术, Surprisingly Simple Self-Supervision in RL)** 可以显着改进离线机器人学习环境中的效果。......

2022-08-27 12:10:42 1854

原创离线强化学习(Offline RL)系列6: (采样效率) OfflineRL中的样本选择策略(Sample Selection Strategies)

本文作者根据各种启发式优先级指标（6种指标）对比实验，指标侧重于离线学习设置的不同方面（包括**temporal-difference error, n-step return, self-imitation learning objective, pseudo-count, uncertainty, and likelihood**），结果表明（1）**non-uniform sampling**仍然是最有效的采样方式。（2）没有任何一个metric适合于所有场景。（3）仅通过改变采样方案来避免Offli

2022-08-15 09:44:41 1760

机器学习实战与代码

apache-tomcat-7.0.39.tar.gz

空空如也