4 zachary2wave

尚未进行身份认证

我要认证

五无博士

等级
TA的排名 17w+

Model-Based Reinforcement Learning: Theory and Practice 译文

目录Model-Based Reinforcement Learning: Theory and PracticeModel-based techniques**Analytic gradient computation****Sampling-based planning****Model-based data generation****Value-equivalence prediction**Trade-offs of model data**The Good News****The Bad New

2020-07-15 15:59:54

OPENAI Baeslines 详解(十)GAIL

Zee带你看代码系列学习强化学习,码代码的能力必须要出众,要快速入门强化学习 搞清楚其中真正的原理,读源码是一个最简单的最直接的方式。最近创建了一系列该类型文章,希望对大家有多帮助。传送门另外,我会将所有的文章及所做的一些简单项目,放在我的个人网页上。水平有限,可能有理解不到位的地方,希望大家主动沟通交流。邮箱:zachary2wave@163.comThanks for readin...

2020-03-18 20:41:50

OPENAI Baeslines 详解(八)PPO2

layout: posttitle: “OPENAI Baeslines 详解(八)OOP2”date: 2019-07-05excerpt: “并行环境的PPO”tags: [openai, baselines, code]comments: trueOPENAI Baeslines 详解(八)PPO2OPENAI 提供了2个版本的PPO PPO1 网上标注是(obsolet...

2020-01-26 11:10:44

基于Pytorch的强化学习算法实现框架 Torch-RL

Torch-RL目前 Deep-Reinforcement-learning算法实现框架已经非常多,但是基于 torch的RL实现,简单、易用且附有使用介绍的非常少,我希望建立一个非常简单易用的Torch版的RL框架,可以降低大家的编程成本。让大家快速利用代码来解决自己的问题。在借鉴了Keras-RL的框架 以及 baseline的实现思路。当然代码处于初级阶段 目前只实现了DQN,希望各路...

2020-01-07 16:37:54

强化学习 最前沿之MARL(二)值分解方法

强化学习-Zee最前沿系列深度强化学习作为当前发展最快的方向,可以说是百家争鸣的时代。针对特定问题,针对特定环境的文章也层出不穷。对于这么多的文章和方向,如果能撇一隅,往往也能够带来较多的启发。本系列文章,主要是针对当前较新的深度强化学习算法和Trick,浅析其思路和方法,可以帮助你找出新的思路。希望对大家有多帮助。另外,我会将所有的文章及所做的一些简单项目,放在我的个人网页上。此系列传送...

2019-12-23 12:24:17

强化学习 最前沿之Hierarchical reinforcement learning(一)

强化学习-Zee最前沿系列深度强化学习作为当前发展最快的方向,可以说是百家争鸣的时代。针对特定问题,针对特定环境的文章也层出不穷。对于这么多的文章和方向,如果能撇一隅,往往也能够带来较多的启发。本系列文章,主要是针对当前较新的深度强化学习算法和Trick,浅析其思路和方法,可以帮助你找出新的思路。希望对大家有多帮助。另外,我会将所有的文章及所做的一些简单项目,放在我的个人网页上。水平有限,...

2019-10-06 20:58:07

强化学习 最前沿之graph policy gradients

图神经网络与强化学习的结合已经成最近比较热门的方向,成为解决多agent的一个方向,这篇文章讲多个agent 建立成多个网络的节点,从而训练学习,完成任务。

2019-10-03 18:14:04

强化学习-最前沿之NeverNet

2009年,图神经网络首先被提出。这两年大热大火的图神经网络也在2018年ICLR上首次被运用在了强化学习当中,并命名为NeverNet,到今天已经有众多文章跟进了该方向。

2019-10-02 20:54:25

强化学习-Zee最前沿系列

强化学习-Zee最前沿系列深度强化学习作为当前发展最快的方向,可以说是百家争鸣的时代。针对特定问题,针对特定环境的文章也层出不穷。对于这么多的文章和方向,如果能撇一隅,往往也能够带来较多的启发。本系列文章,主要是针对当前较新的深度强化学习算法和Trick,浅析其思路和方法,可以帮助你找出新的思路。希望对大家有多帮助。另外,我会将所有的文章及所做的一些简单项目,放在我的个人网页上。水平有限,...

2019-10-02 20:47:37

强化学习-知根知底-深度理解值函数方法(一)

强化学习-Zee知根知底系列搞科研、学习强化学习,重要在于知其然,然后知其所以然。能够搞清楚,怎么实现强化学习,看源码 看论文其实就可以做到。但是要真正的抓住核心部分的知识,还是要多做自己的仿真实验,然后认认真真的多看论文。本系列文章,主要是针对当前主流深度强化学习的各种算法和Trick,分析其背后的原理,从而帮助你改进算法,更适应自己的环境。希望对大家有多帮助。另外,我会将所有的文章及...

2019-09-29 23:25:03

OPENAI Baeslines 详解(六)并行环境采样

Zee带你看代码系列学习强化学习,码代码的能力必须要出众,要快速入门强化学习 搞清楚其中真正的原理,读源码是一个最简单的最直接的方式。最近创建了一系列该类型文章,希望对大家有多帮助。传送门另外,我会将所有的文章及所做的一些简单项目,放在我的个人网页上。水平有限,可能有理解不到位的地方,希望大家主动沟通交流。邮箱:zachary2wave@163.comThanks for readin...

2019-09-13 20:14:25

强化学习-Zee知根知底系列

Zee知根知底系列搞科研、学习强化学习,重要在于知其然,然后知其所以然。能够搞清楚,怎么实现强化学习,看源码 看论文其实就可以做到。但是要真正的抓住核心部分的知识,还是要多做自己的仿真实验,然后认认真真的多看论文。本系列文章,主要是针对当前主流深度强化学习的各种算法和Trick,分析其背后的原理,从而帮助你改进算法,更适应自己的环境。希望对大家有多帮助。另外,我会将所有的文章及所做的一些...

2019-09-13 10:38:32

OPENAI Baeslines 详解(五)保存数据、模型

Zee带你看代码系列学习强化学习,码代码的能力必须要出众,要快速入门强化学习 搞清楚其中真正的原理,读源码是一个最简单的最直接的方式。最近创建了一系列该类型文章,希望对大家有多帮助。另外,我会将所有的文章及所做的一些简单项目,放在我的个人网页上。水平有限,可能有理解不到位的地方,希望大家主动沟通交流。邮箱:zachary2wave@163.comOPENAI Baeslines 详解(五...

2019-09-05 19:37:27

OPENAI Baeslines 详解(一)开始使用

Zee带你看代码系列学习强化学习,码代码的能力必须要出众,要快速入门强化学习 搞清楚其中真正的原理,读源码是一个最简单的最直接的方式。最近创建了一系列该类型文章,希望对大家有多帮助。传送门另外,我会将所有的文章及所做的一些简单项目,放在我的个人网页上。水平有限,可能有理解不到位的地方,希望大家主动沟通交流。邮箱:zachary2wave@163.comThanks for readin...

2019-08-30 20:06:30

深度解析OPENAI-MADDPG

Zee带你看RL代码系列学习强化学习,码代码的能力必须要出众,要快速入门强化学习 搞清楚其中真正的原理,读源码是一个最简单的最直接的方式。最近创建了一系列该类型文章,希望对大家有多帮助。另外,我会将所有的文章及所做的一些简单项目,放在文章目录Zee带你看RL代码系列深度解析MADDPGMADDPG原理程序架构ENV 部分具体子环境Make_Worldreset world此外此函数中定义奖励 ...

2019-08-26 08:24:55

强化学习-Zee带你看代码系列

Zee带你看代码系列学习强化学习,码代码的能力必须要出众,要快速入门强化学习 搞清楚其中真正的原理,读源码是一个最简单的最直接的方式。最近创建了一系列该类型文章,希望对大家有多帮助。文章目录Zee带你看代码系列[OPENAI Baselines 详解(一)-综述 ](https://blog.csdn.net/kysguqfxfr/article/details/100009036)[OPEN...

2019-08-25 13:49:29

OPENAI-Baeslines-详解(四)-PPO中文

Zee带你看代码系列学习强化学习,码代码的能力必须要出众,要快速入门强化学习 搞清楚其中真正的原理,读源码是一个最简单的最直接的方式。最近创建了一系列该类型文章,希望对大家有多帮助。传送门:另外,我会将所有的文章及所做的一些简单项目,放在我的个人网页上。水平有限,可能有理解不到位的地方,希望大家主动沟通交流。邮箱:zachary2wave@163.comThanks for readi...

2019-08-25 13:44:27

OPENAI-Baeslines-详解(三)-DDPG中文

Zee带你看代码系列学习强化学习,码代码的能力必须要出众,要快速入门强化学习 搞清楚其中真正的原理,读源码是一个最简单的最直接的方式。最近创建了一系列该类型文章,希望对大家有多帮助。传送门:另外,我会将所有的文章及所做的一些简单项目,放在我的个人网页上。水平有限,可能有理解不到位的地方,希望大家主动沟通交流。邮箱:zachary2wave@163.comThanks for readi...

2019-08-25 13:36:29

OPENAI-Baeslines-详解(二)-DQN中文

Zee带你看代码系列学习强化学习,码代码的能力必须要出众,要快速入门强化学习 搞清楚其中真正的原理,读源码是一个最简单的最直接的方式。最近创建了一系列该类型文章,希望对大家有多帮助。传送门:另外,我会将所有的文章及所做的一些简单项目,放在我的个人网页上。水平有限,可能有理解不到位的地方,希望大家主动沟通交流。邮箱:zachary2wave@163.comThanks for readi...

2019-08-25 13:35:17

OPENAI Baeslines 详解(零)综述

Zee带你看代码系列学习强化学习,码代码的能力必须要出众,要快速入门强化学习 搞清楚其中真正的原理,读源码是一个最简单的最直接的方式。最近创建了一系列该类型文章,希望对大家有多帮助。传送门:另外,我会将所有的文章及所做的一些简单项目,放在我的个人网页上。水平有限,可能有理解不到位的地方,希望大家主动沟通交流。邮箱:zachary2wave@163.comThanks for readi...

2019-08-22 10:23:29

查看更多

勋章 我的勋章
  • 新人勋章
    新人勋章
    用户发布第一条blink获赞超过3个即可获得
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv2
    勤写标兵Lv2
    授予每个自然周发布4篇到6篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。