zachary2wave-CSDN博客

原创 Model-Based Reinforcement Learning: Theory and Practice 译文

目录Model-Based Reinforcement Learning: Theory and PracticeModel-based techniques**Analytic gradient computation****Sampling-based planning****Model-based data generation****Value-equivalence prediction**Trade-offs of model data**The Good News****The Bad New

2020-07-15 15:59:54 853

原创 OPENAI Baeslines 详解（十）GAIL

Zee带你看代码系列学习强化学习，码代码的能力必须要出众，要快速入门强化学习搞清楚其中真正的原理，读源码是一个最简单的最直接的方式。最近创建了一系列该类型文章，希望对大家有多帮助。传送门另外，我会将所有的文章及所做的一些简单项目，放在我的个人网页上。水平有限，可能有理解不到位的地方，希望大家主动沟通交流。邮箱：[email protected] for readin...

2020-03-18 20:41:50 1759

原创 OPENAI Baeslines 详解（八）PPO2

layout: posttitle: “OPENAI Baeslines 详解（八）OOP2”date: 2019-07-05excerpt: “并行环境的PPO”tags: [openai, baselines, code]comments: trueOPENAI Baeslines 详解（八）PPO2OPENAI 提供了2个版本的PPO PPO1 网上标注是(obsolet...

2020-01-26 11:10:44 2755

原创基于Pytorch的强化学习算法实现框架 Torch-RL

Torch-RL目前 Deep-Reinforcement-learning算法实现框架已经非常多，但是基于 torch的RL实现，简单、易用且附有使用介绍的非常少，我希望建立一个非常简单易用的Torch版的RL框架，可以降低大家的编程成本。让大家快速利用代码来解决自己的问题。在借鉴了Keras-RL的框架以及 baseline的实现思路。当然代码处于初级阶段目前只实现了DQN，希望各路...

2020-01-07 16:37:54 4045 1

原创强化学习最前沿之MARL（二）值分解方法

强化学习-Zee最前沿系列深度强化学习作为当前发展最快的方向，可以说是百家争鸣的时代。针对特定问题，针对特定环境的文章也层出不穷。对于这么多的文章和方向，如果能撇一隅，往往也能够带来较多的启发。本系列文章，主要是针对当前较新的深度强化学习算法和Trick，浅析其思路和方法，可以帮助你找出新的思路。希望对大家有多帮助。另外，我会将所有的文章及所做的一些简单项目，放在我的个人网页上。此系列传送...

2019-12-23 12:24:17 1442

原创强化学习最前沿之Hierarchical reinforcement learning（一）

强化学习-Zee最前沿系列深度强化学习作为当前发展最快的方向，可以说是百家争鸣的时代。针对特定问题，针对特定环境的文章也层出不穷。对于这么多的文章和方向，如果能撇一隅，往往也能够带来较多的启发。本系列文章，主要是针对当前较新的深度强化学习算法和Trick，浅析其思路和方法，可以帮助你找出新的思路。希望对大家有多帮助。另外，我会将所有的文章及所做的一些简单项目，放在我的个人网页上。水平有限，...

2019-10-06 20:58:11 12542 1

原创强化学习最前沿之graph policy gradients

图神经网络与强化学习的结合已经成最近比较热门的方向，成为解决多agent的一个方向，这篇文章讲多个agent 建立成多个网络的节点，从而训练学习，完成任务。

2019-10-03 18:16:08 2771

原创强化学习-最前沿之NeverNet

2009年，图神经网络首先被提出。这两年大热大火的图神经网络也在2018年ICLR上首次被运用在了强化学习当中，并命名为NeverNet，到今天已经有众多文章跟进了该方向。

2019-10-02 20:54:58 861

原创强化学习-Zee最前沿系列

强化学习-Zee最前沿系列深度强化学习作为当前发展最快的方向，可以说是百家争鸣的时代。针对特定问题，针对特定环境的文章也层出不穷。对于这么多的文章和方向，如果能撇一隅，往往也能够带来较多的启发。本系列文章，主要是针对当前较新的深度强化学习算法和Trick，浅析其思路和方法，可以帮助你找出新的思路。希望对大家有多帮助。另外，我会将所有的文章及所做的一些简单项目，放在我的个人网页上。水平有限，...

2019-10-02 20:53:53 375

原创强化学习-知根知底-深度理解值函数方法（一）

强化学习-Zee知根知底系列搞科研、学习强化学习，重要在于知其然，然后知其所以然。能够搞清楚，怎么实现强化学习，看源码看论文其实就可以做到。但是要真正的抓住核心部分的知识，还是要多做自己的仿真实验，然后认认真真的多看论文。本系列文章，主要是针对当前主流深度强化学习的各种算法和Trick，分析其背后的原理，从而帮助你改进算法，更适应自己的环境。希望对大家有多帮助。另外，我会将所有的文章及...

2019-09-29 23:26:36 1567 2

原创 OPENAI Baeslines 详解（六）并行环境采样

Zee带你看代码系列学习强化学习，码代码的能力必须要出众，要快速入门强化学习搞清楚其中真正的原理，读源码是一个最简单的最直接的方式。最近创建了一系列该类型文章，希望对大家有多帮助。传送门另外，我会将所有的文章及所做的一些简单项目，放在我的个人网页上。水平有限，可能有理解不到位的地方，希望大家主动沟通交流。邮箱：[email protected] for readin...

2019-09-13 20:14:33 1843

原创强化学习-Zee知根知底系列

Zee知根知底系列搞科研、学习强化学习，重要在于知其然，然后知其所以然。能够搞清楚，怎么实现强化学习，看源码看论文其实就可以做到。但是要真正的抓住核心部分的知识，还是要多做自己的仿真实验，然后认认真真的多看论文。本系列文章，主要是针对当前主流深度强化学习的各种算法和Trick，分析其背后的原理，从而帮助你改进算法，更适应自己的环境。希望对大家有多帮助。另外，我会将所有的文章及所做的一些...

2019-09-13 10:42:27 198

原创 OPENAI Baeslines 详解（五）保存数据、模型

Zee带你看代码系列学习强化学习，码代码的能力必须要出众，要快速入门强化学习搞清楚其中真正的原理，读源码是一个最简单的最直接的方式。最近创建了一系列该类型文章，希望对大家有多帮助。另外，我会将所有的文章及所做的一些简单项目，放在我的个人网页上。水平有限，可能有理解不到位的地方，希望大家主动沟通交流。邮箱：[email protected] Baeslines 详解（五...

2019-09-05 20:09:12 1834

原创 OPENAI Baeslines 详解（一）开始使用

Zee带你看代码系列学习强化学习，码代码的能力必须要出众，要快速入门强化学习搞清楚其中真正的原理，读源码是一个最简单的最直接的方式。最近创建了一系列该类型文章，希望对大家有多帮助。传送门另外，我会将所有的文章及所做的一些简单项目，放在我的个人网页上。水平有限，可能有理解不到位的地方，希望大家主动沟通交流。邮箱：[email protected] for readin...

2019-08-30 20:06:30 5385 3

原创深度解析OPENAI-MADDPG

Zee带你看RL代码系列学习强化学习，码代码的能力必须要出众，要快速入门强化学习搞清楚其中真正的原理，读源码是一个最简单的最直接的方式。最近创建了一系列该类型文章，希望对大家有多帮助。另外，我会将所有的文章及所做的一些简单项目，放在文章目录Zee带你看RL代码系列深度解析MADDPGMADDPG原理程序架构ENV 部分具体子环境Make_Worldreset world此外此函数中定义奖励 ...

2019-08-26 08:24:55 12970 19

原创强化学习-Zee带你看代码系列

Zee带你看代码系列学习强化学习，码代码的能力必须要出众，要快速入门强化学习搞清楚其中真正的原理，读源码是一个最简单的最直接的方式。最近创建了一系列该类型文章，希望对大家有多帮助。文章目录Zee带你看代码系列[OPENAI Baselines 详解（一）-综述 ](https://blog.csdn.net/kysguqfxfr/article/details/100009036)[OPEN...

2019-08-25 13:49:29 1455

原创 OPENAI-Baeslines-详解（四）-PPO中文

Zee带你看代码系列学习强化学习，码代码的能力必须要出众，要快速入门强化学习搞清楚其中真正的原理，读源码是一个最简单的最直接的方式。最近创建了一系列该类型文章，希望对大家有多帮助。传送门：另外，我会将所有的文章及所做的一些简单项目，放在我的个人网页上。水平有限，可能有理解不到位的地方，希望大家主动沟通交流。邮箱：[email protected] for readi...

2019-08-25 13:44:27 2251

原创 OPENAI-Baeslines-详解（三）-DDPG中文

Zee带你看代码系列学习强化学习，码代码的能力必须要出众，要快速入门强化学习搞清楚其中真正的原理，读源码是一个最简单的最直接的方式。最近创建了一系列该类型文章，希望对大家有多帮助。传送门：另外，我会将所有的文章及所做的一些简单项目，放在我的个人网页上。水平有限，可能有理解不到位的地方，希望大家主动沟通交流。邮箱：[email protected] for readi...

2019-08-25 13:36:29 2787

原创 OPENAI-Baeslines-详解（二）-DQN中文

Zee带你看代码系列学习强化学习，码代码的能力必须要出众，要快速入门强化学习搞清楚其中真正的原理，读源码是一个最简单的最直接的方式。最近创建了一系列该类型文章，希望对大家有多帮助。传送门：另外，我会将所有的文章及所做的一些简单项目，放在我的个人网页上。水平有限，可能有理解不到位的地方，希望大家主动沟通交流。邮箱：[email protected] for readi...

2019-08-25 13:35:17 1729

原创 OPENAI Baeslines 详解（零）综述

Zee带你看代码系列学习强化学习，码代码的能力必须要出众，要快速入门强化学习搞清楚其中真正的原理，读源码是一个最简单的最直接的方式。最近创建了一系列该类型文章，希望对大家有多帮助。传送门：另外，我会将所有的文章及所做的一些简单项目，放在我的个人网页上。水平有限，可能有理解不到位的地方，希望大家主动沟通交流。邮箱：[email protected] for readi...

2019-08-22 10:23:29 2432

原创 Pycharm 及 Python 小技巧

文章目录Why Python in ML？编译器的选择Pycharm 小技巧（一）Debug 中的执行语句。（二）Alt+enter（三）分段执行Python 技巧try…… expect 语句assert语句Why Python in ML？Python已经占据深度学习的大半部分江山。虽然也有大量的库和程序使用C 或 JAVA ，但是依然感觉撼动不了Python，在机器学习中的地位。Git...

2019-07-06 11:19:44 385

原创 keras.backends 中的 function

文章目录keras 的backendskeras的官方解释自我理解：function 函数官方解释具体说明应用keras 的backendskeras的官方解释Keras是一个模型级库，为开发深度学习模型提供高级构建块。它不处理低级操作，如张量积，卷积等本身。相反，它依赖于专门的，优化良好的张量操纵库来实现，作为Keras的“后端引擎”。 Keras不是选择单个张量库并将Keras的实现...

2019-07-01 15:27:10 2477 1

原创强化学习中使用OPENAI的GYM建立自己环境

强化学习中使用OPENAI的GYM建立自己的环境综述GYM介绍综述Reinforcement Learning 已经经过了几十年的发展，发展壮大。近些年来，跟随着机器学习的浪潮开始发展壮大。多次战胜围棋冠军柯洁，以及在DOTA2、星际争霸等游戏中超凡表现，成为了众人追捧的明星。目前OPENAI作为世界NO.1的AI研究机构，构建的GYM，成为衡量强化学习算法的标准工具。通过OPENAI 的GY...

2019-03-19 10:33:20 8158 6

Dr.Zee的博客

原创 Model-Based Reinforcement Learning: Theory and Practice 译文

原创 OPENAI Baeslines 详解（十）GAIL

原创 OPENAI Baeslines 详解（八）PPO2

原创基于Pytorch的强化学习算法实现框架 Torch-RL

原创强化学习最前沿之MARL（二）值分解方法

原创强化学习最前沿之Hierarchical reinforcement learning（一）

原创强化学习最前沿之graph policy gradients

原创强化学习-最前沿之NeverNet

原创强化学习-Zee最前沿系列

原创强化学习-知根知底-深度理解值函数方法（一）

原创 OPENAI Baeslines 详解（六）并行环境采样

原创强化学习-Zee知根知底系列

原创 OPENAI Baeslines 详解（五）保存数据、模型

原创 OPENAI Baeslines 详解（一）开始使用

原创深度解析OPENAI-MADDPG

原创强化学习-Zee带你看代码系列

原创 OPENAI-Baeslines-详解（四）-PPO中文

原创 OPENAI-Baeslines-详解（三）-DDPG中文

原创 OPENAI-Baeslines-详解（二）-DQN中文

原创 OPENAI Baeslines 详解（零）综述

原创 Pycharm 及 Python 小技巧

原创 keras.backends 中的 function

原创强化学习中使用OPENAI的GYM建立自己环境

Open AI 合集.pdf

openai 推荐强化学习论文合计.rar

keras 2019 中文文档

空空如也