薛定谔的炼丹炉！-CSDN博客

转载影响PPO算法性能的10个关键技巧（附PPO算法简洁Pytorch实现）

0.引言PPO算法(Proximal Policy Optimization)是目前深度强化学习(DRL)领域，最广泛应用的算法之一。然而在实际应用的过程中，PPO算法的性能却受到多种因素的影响。本文总结了影响PPO算法性能的10个关键技巧，并通过实验结果的对比，来探究各个trick对PPO算法性能的影响。同时，我们将代码开源在了github上，分别提供了PPO算法的离散动作空间实现和连续动作空间实现。

2024-01-18 16:08:13 314 1

转载（专栏，满满踩坑干货）深度强化学习落地方法论（7）—— 训练篇

经过前后近一个月零零星星的整理，这篇又臭又长的训练篇终于快要结束了，连我自己都觉得枯燥透顶，如果有哪位读者能坚持读到这里，我敬你是个勇士！我也时常怀疑写这些东西到底有没有意义，毕竟包括DRL在内的深度学习调参技巧往往琐碎而不成体系，很难总结得面面俱到，更何况新算法还在源源不断地涌现，旧的知识经验正在迅速“贬值”，就像现在有了Soft Actor-Critic，谁还用DDPG啊。最重要的是，假如读者不经过亲身实践，直接看这些干巴巴的总结，作用真心不大。对我自己来说，就权当备忘吧~

2024-01-18 14:32:25 77

转载李宏毅-2022机器学习-课程笔记-1深度学习简介

注：本文是我学习李宏毅老师《机器学习》课程 2021/2022 的笔记（），文中图片来自课程 PPT。

2023-07-24 10:16:11 257

转载【李宏毅深度强化学习笔记】—8、Imitation Learning

【李宏毅讲了reward很稀疏的情况，但是在实际中，可能问题还会更进一步：很多场景是很难有一个明确的reward甚至没有reward。所以需要很厉害的agent或者直接由人来示范的资料，让agent跟着做。本文会讲两个。

2023-07-04 10:54:07 177

转载【李宏毅深度强化学习笔记】—7、Sparse Reward

【李宏毅在强化学习的训练过程中，当环境的reward很少时（指出现的次数），这样对agent的训练是很不利的。比如，让一个机器人拿起螺丝刀，再把螺丝拧进去才能得到reward。这一系列操作组合起来对于一个一开始什么都不懂的机器人无疑是很难的，因为它一开始不管做什么动作都不会得到reward，即便有exploration也只有极小的几率能成功获得reward。所以下面介绍几种方法来处理这种的方法。

2023-07-04 10:10:36 143

转载【李宏毅深度强化学习笔记】—6、Actor-Critic、A2C、A3C、Pathwise Derivative Policy Gradient

【李宏毅G表示在采取一直玩到游戏结束所得到的cumulated reward。这个值是不稳定的，因为在某一个state采取同一个action，最后的结果不一定相同。因为state的变化也是有随机性的。虽然经过多次实验后，可能会发现G最后会变成一个比较稳定的分布，那么理论上收集足够多的数据就能解决这一问题。但是因为policy gradient是一个on policy的方法，每次更新参数后又要重新收集数据。如果每次都要收集非常多的数据那也会造成效率的低下。

2023-07-03 18:33:15 120

转载【李宏毅深度强化学习笔记】—5、Q-learning用于连续动作 (NAF算法)

原文链接：https://blog.csdn.net/ACL_lihan/article/details/104076938【李宏毅深度强化学习笔记】1、策略梯度方法（Policy Gradient）【李宏毅深度强化学习笔记】2、Proximal Policy Optimization (PPO) 算法【李宏毅深度强化学习笔记】3、Q-learning（Basic Idea）【李宏毅深度强化学习笔记】4、Q-learning更高阶的算法【李宏毅深度强化学习笔记】5、Q-learning用于连续动作 (NAF

2023-07-03 16:36:42 56

转载【李宏毅深度强化学习笔记】—4、Q-learning更高阶的算法

【李宏毅。

2023-07-03 16:14:09 35

转载【李宏毅深度强化学习笔记】—3、Q-learning（Basic Idea）

原文链接：https://blog.csdn.net/ACL_lihan/article/details/104041905【李宏毅深度强化学习笔记】1、策略梯度方法（Policy Gradient）【李宏毅深度强化学习笔记】2、Proximal Policy Optimization (PPO) 算法【李宏毅深度强化学习笔记】3、Q-learning（Basic Idea）（本文）【李宏毅深度强化学习笔记】4、Q-learning更高阶的算法【李宏毅深度强化学习笔记】5、Q-learning用于连续动作

2023-07-03 15:07:33 48

转载【李宏毅深度强化学习笔记】—2、Proximal Policy Optimization算法(PPO)

原文链接：https://blog.csdn.net/ACL_lihan/article/details/103989581补充：问题：PPO2的损失函数，也就是奖励的平均值函数是怎么通过约束重要性权重让θ和θk的输出分布不至于差距很大的？也就是让其不至于差太多，导致off-policy失效理解：当A>0时候，根据损失函数（奖励函数平均值），此时会提高pθ（s,a）的概率，所以设置上限，不让pθ（s,a）超过pθk（s,a）太多（1+ξ），如果超过了，则会被截断到1+ξ，则损失函数的值不变了，也就没

2023-06-30 16:17:32 230

转载【李宏毅深度强化学习笔记】—1、策略梯度方法（Policy Gradient）

1、介绍了actor、environment、reward function2、在深度强化学习中，policy可以看成是参数为的网络，输入state，输出采取各种action的概率3、一轮游戏叫做episode4、trajectory={s1,a1,s2,a2,……}，在给定policy的参数的情况下，可以计算每一个存在的概率。5、总的expected reward=6、使用policy gradient ascend求 expected reward的最大值。

2023-06-30 15:56:23 452

原创 DPPO算法（顺便对比PG、TRPO、PPO、PPO2以及A3C算法）

强化学习（9）：TRPO、PPO以及DPPO算法：https://blog.csdn.net/zuzhiang/article/details/103650805DPPO深度强化学习算法实现思路(分布式多进程加速)： https://blog.csdn.net/weixin_43145941/article/details/116764574[DPPO]:再看我的影分身之术（附代码及代码分析）：https://zhuanlan.zhihu.com/p/111346592PPOTRPOPPO（P

2022-05-12 11:08:25 4318 1

转载（详细）强化学习--贝尔曼方程

原文链接：https://zhuanlan.zhihu.com/p/86525700我有一个疑问，就是在推导过程中，状态s不是变量，st 是t阶段的状态相当于是一个常数，那么为什么st=s，常数在等号的左边，变量在等号的右边？这里的st表示的是t时刻对应的状态，状态可能有多种，但是这里设t时刻的状态为s，所以st=s。比如说放学回家，你一共有三种状态，写作业、看电视、打游戏，在某一时刻（这里可以对应t）你的状态是什么，即st得状态。st得状态可以是写作业（状态s1）、看电视（状态s2）、打游戏（状态s3

2022-03-09 10:58:09 2589

转载 argparse模块基本用法

原文链接：https://zhuanlan.zhihu.com/p/111010774action=“store_true”这个怎么理解？有了action这一参数，就相当于把–train参数设成了一个“开关”。我们是不需要给这个开关传递具体的值的，只需要“拨一下”这个开关就行了。action=“store_true”，就是说当拨动了这个“开关”，就将参数–train存储为True,否则参数会存储为False,因为我们设置的default=False小番外：argparse模块基本用法由于本专栏参考了

2022-03-08 17:56:08 477 1

转载 Qlearning算法（理论+实战）

原文链接：https://zhuanlan.zhihu.com/p/110410276Qlearning的基本思路回顾在上一篇，我们了解了Qlearning和SARSA算法的基本思路和原理。张斯俊：[理论篇]怎样直观理解Qlearning算法？229 赞同 · 33 评论文章这一篇，我们以tensorflow给出的强化学习算法示例代码为例子，看看Qlearning应该如何实现。 https://github.com/tensorlayer/tensorlayer/blob/master/examples

2022-03-08 17:24:27 3767

转载强化学习之模仿学习

原文链接：https://blog.csdn.net/weixin_37895339/article/details/82863379前文是一些针对IRL，IL综述性的解释，后文是针对《Generative adversarial imitation learning》文章的理解及公式的推导。通过深度强化学习，我们能够让机器人针对一个任务实现从0到1的学习，但是需要我们定义出reward函数，在很多复杂任务，例如无人驾驶中，很难根据状态特征来建立一个科学合理的reward。人类学习新东西有一个重要的

2022-03-02 16:11:51 1806

转载优势函数(Advantage Function)及其估计值GAE

原文链接：https://blog.csdn.net/huibiannihao/article/details/106486022 目录什么是优势函数归一化、激活函数等学习问题为什么要使用优势函数常见的优势函数什么是优势函数优势函数表达在状态s下，某动作a相对于平均而言的优势。从数量关系来看，就是随机变量相对均值的偏差。使用优势函数是深度强化学习极其重要的一种策略，尤其对于

2022-02-20 14:52:50 2030

转载（详细）分层强化学习之HIRO

原文链接：https://blog.csdn.net/sinat_37422398/article/details/113085165 \quad </span><span class="katex-html"><span class

2022-02-14 10:38:52 937

转载分层强化学习之HIRO

原文链接：https://zhuanlan.zhihu.com/p/46946800HIRO是HIerarchical Reinforcement learning with Off-policy correction的缩写。原文传送门：Nachum, Ofir, et al. "Data-Efficient Hierarchical Reinforcement Learning." arXiv preprint arXiv:1805.08296 (2018). 特色：提出了一种general并且off-

2022-02-14 10:13:48 362

转载（对照论文的图片看，直接看算法部分）[译]Hierarchical Macro Strategy Model for MOBA Game AI(王者荣耀)--翻译

原文链接：https://blog.csdn.net/baidu_36669549/article/details/86178446 Hierarchical Macro Strategy Model for MOBA Game AI MOBA游戏AI的分层宏观策略模型摘要游戏AI的下一个挑战在于实时策略（RTS）游戏。 RTS游戏提供部分可观察的游戏环境，其中虚拟玩家agents在比GO大得多的动作空间

2022-02-09 10:24:49 278

原创（最后那部分自己总结） 1812_AAAI_腾讯_Hierarchical Macro Strategy Model for MOBA Game AI

给不想看后面详细信息的人的说明：这篇文章说明了王者荣耀18年年底公布的新的AI系统中的一些重要模块。其实要完成一个完整都AI系统肯定还有很多其他的小模块需要研究。AI的输入是游戏画面加一些UI上面可以直接读出的信息（玩家血量，击杀数等），输出是游戏操作的序列。也就是人怎么操作，AI就怎么操作。比如人要在某个地方放置某个技能，AI也需要通过控制虚拟手柄来完成，而不是调用一个游戏内部的API来完成。至于现在王者荣...

2022-02-09 10:07:17 2434

转载（环境跳帧）OpenAI gym Atari游戏的环境设置

原文链接：https://blog.csdn.net/clksjx/article/details/104053216 Breakout-v0, Breakout-v4, BreakoutNoFrameskip-v4和BreakoutDeterministic-v4的区别 v0和

2022-01-29 17:11:57 1398

转载 (挺详细分层强化学习之Go-Explore - First return then explore 论文笔记

原文链接：https://zhuanlan.zhihu.com/p/356231850#引引言作为工作以来写的第一篇相对认真的论文分析笔记，感觉稍微重拾了原来读论文和算法研究时的一些激情。文章正文篇幅不长，核心思想阐述的较为清晰，但是有很多补充资料和一些偏工程性的trick，如果想要完全吃透还是需要多花一些时间。论文中对很多参数和细节都有详细说明，且附有源码地址，感兴趣的小伙伴可以结合源码进行深入分析或在其他场景对算法进行探索性应用。#引言在强化学习算法中，奖励函数（Reward function）用于引

2022-01-29 11:02:45 672

转载（还不错）分层强化学习之Go-Explore

原文链接：https://zhuanlan.zhihu.com/p/58053501Go-Explore是uber团队开发的算法，直观的意思是走到最好的状态（Go），然后从这个状态开始探索（Explore）。原文传送门Ecoffet, Adrien, et al. "Go-Explore: a New Approach for Hard-Exploration Problems." arXiv preprint arXiv:1901.10995 (2019).特色Go-Explore旨在解决探索困难（ha

2022-01-28 17:12:29 540

转载（详细）分层强化学习-Random Network Distillation（RND）

原文链接：https://zhuanlan.zhihu.com/p/146309991EXPLORATION BY RANDOM NETWORK DISTILLATION RND这类文章是基于强化学习在解决Atari游戏中蒙德祖玛的复仇的困境提出的。由于在这类游戏中存在非常稀疏的奖励，Agent在探索利用上存在很大的问题。RND也是第一个使用与人类平等的RL算法在蒙特祖玛的复仇上获得人类水平成绩的算法。为提升稀疏奖励情况下的探索利用，之前有很多类似Curiosity、coun

2022-01-27 15:48:35 1777

转载（总结算法流程）分层强化学习之Random Network Distillation（RND，随机网络蒸馏）

RND算法流程原文链接：https://www.cnblogs.com/blog-hfg/articles/10452552.html总结:1.采用随机生成的固定网络作为目标网络，另一网络不断最小化与其的误差，从而达到评估观察的新颖性。2.介绍了一种灵活地结合内在和外在奖励的方法。abstract我们为深度强化学习方法引入了一个探索方法，该方法易于实现，并且为执行的计算增加了最小的开销。奖励是神经网络预测由固定随机初始化神经网络给出的观察特征的误差。我们还介绍了一种灵活地结合内在和外在奖励

2022-01-27 14:50:30 1339

转载法线和法线贴图

什么是法线贴图？（简洁） https://zhuanlan.zhihu.com/p/393290419?ivk_sa=1024320u法线和法线贴图（详细） https://zhuanlan.zhihu.com/p/102131805什么是法线贴图？法线贴图（Normal mapping）是可以应用到3D模型表面的特殊纹理，不同于以往的纹理只可以用于2D表面。作为凹凸纹理的扩展，它包括了每个像素的高度值，内含许多细节的表面信息，能够在平平无奇的物体上创建出许多特殊的立体外形，然而这些立体外形

2021-12-15 16:49:57 1256

转载（HG Hourglass模块简洁）论文阅读：《Stacked Hourglass Networks for Human Pose Estimation》ECCV 2016

原文链接：https://blog.csdn.net/qq_36165459/article/details/78321529 概述本文仍然是使用全卷积神经网络，对给定的单张RGB图像，输出人体关键点的精确像素位置，使用多尺度特征，捕捉人体各关节点的空间位置信息。网络结构形似沙漏

2021-12-15 16:46:51 144

转载（HG Hourglass模块简洁）论文阅读：《Stacked Hourglass Networks for Human Pose Estimation》ECCV 2016

原文链接：https://blog.csdn.net/qq_36165459/article/details/78321529 概述本文仍然是使用全卷积神经网络，对给定的单张RGB图像，输出人体关键点的精确像素位置，使用多尺度特征，捕捉人体各关节点的空间位置信息。网络结构形似沙漏

2021-12-15 16:45:04 147

转载（HG模块，简洁明了）Hourglass Module介绍

原文链接：https://blog.csdn.net/BeBuBu/article/details/102935262 Hourglass Module Hourglass模块设计的初衷就是为了捕捉每个尺度下的信息，因为捕捉像脸，手这些部分的时候需要局部的特征，而最后对人体姿态进行

2021-12-15 16:43:04 1663

转载人脸关键点检测— Adaptive Wing loss 论文阅读

原文链接：https://blog.csdn.net/john_bh/article/details/106380784 转载请注明作者和出处： http://blog.csdn.net/john_bh/ ICCV链接:Adaptive Wing Loss for Robust F

2021-12-15 16:41:29 779

转载 MobileNet v1 v2 v3系列简介

原文链接：https://www.cnblogs.com/dengshunge/p/11334640.html最近一段时间，重新研读了谷歌的mobilenet系列，对该系列有新的认识。1.MobileNet V1这篇论文是谷歌在2017年提出了，专注于移动端或者嵌入式设备中的轻量级CNN网络。该论文最大的创新点是，提出了深度可分离卷积（depthwise separable convolution）。首先，我们分析一下传统卷积的运算过程，请参考第一个动图或者这篇博客。可以看出，传统卷积分成两步，每

2021-12-15 10:01:01 248

转载 (big佬）（mobilenet系列简介）睿智的目标检测47——Keras 利用mobilenet系列（v1,v2,v3）搭建yolov4目标检测平台

原文链接：https://blog.csdn.net/weixin_44791964/article/details/107359153?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522163946123316780264096618%2522%252C%2522scm%2522%253A%252220140713.130102334.pc%255Fblog.%2522%257D&request_id=16394612331678026

2021-12-14 15:06:48 703

转载（68,49,21，5个关键点序号）人脸关键点定义汇总

原文链接：https://blog.csdn.net/u011668104/article/details/102700045 前几天看一份代码临时需要找49个人脸关键点位置定义的图片发现怎么百度都搜不到，最后幸好谷歌可以使用了就用谷歌搜到了。所以在这里汇总一下我所知道的人脸关键点的

2021-10-29 17:35:08 2650

转载 (简洁)面法线与顶点法线

原文链接：https://blog.kokojia.com/game/b-56.html每一个面都有自己的法线，在3D游戏中一个三角形代表一个面。法线通常可以用来进行光照计算，用来确定光照的强度如图：上图有一个三角形，normal vector是他的法线，可以通过他的三个点求出两条边，两条边再叉乘来获得，这里就不展开讲。那么顶点法线是什么呢？再看下图：简单地说顶点法线就是把共享该顶点的几个面的法线想加，然后除以面的数量，得到的平均值法线，这就是顶点法线。比如：上图中s1,s2是两个面，ns1,ns2是这两

2021-10-29 16:27:28 2408

转载（综述，讲得很好）基于3DMM的三维人脸重建技术总结

深度学习全监督重建方法：由于真实的三维人脸和二维人脸图像对非常缺乏，采集成本高，很难得到真实二维三维图像对，通常将多张照片进行model fitting求解生成了对应的三维人脸模型，将其作为真值(Ground Truth)，从而得到了二维三维图像对，这也导致模型泛化到真实数据集的能力较差。自监督的方法则是一个解决该问题的重要思路。这一类方法不依赖于真实的成对数据集，它将二维图像重建到三维，再反投影回二维图2. 什么是3DMM模型讲的也很好原文链接：https://blog.csdn.net/hac

2021-10-29 14:45:45 7069

转载（BFM2009只是公开了数据模型，与99年开山基本一样）BM2009文献翻译

原文链接：https://blog.csdn.net/weixin_37340613/article/details/94390717 文献原地址：https://gravis.dmi.unibas.ch/publications/2009/BFModel09.pdf 作者：P

2021-10-29 11:01:23 967

转载（坐标系转换和法线转换）3D顶点转换和法线转换

原文链接:https://blog.csdn.net/luyuncsd123/article/details/9896279 Part1 转换流程之顶点转换　　物体顶点是相对于物体自身坐标系而言的数据，要进行一系列转换才最后显示在屏幕上： 1.物体坐标系到世界坐标系。　　乘以World矩阵，包含了物体的平移旋转和缩放。 2.世界坐标系到相机坐

2021-10-28 17:56:02 683

转载 99开山鼻祖论文，详细易懂，如何求解系数

原文链接：https://blog.csdn.net/likewind1993/article/details/81455882?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522162625039116780366552932%2522%252C%2522scm%2522%253A%252220140713.130102334.pc%255Fall.%2522%257D&request_id=1626250391167803665529

2021-10-28 16:43:41 168

转载（99开山笔记）A Morphable Model For The Synthesis Of 3D Faces

原文链接：https://zhuanlan.zhihu.com/p/97564880原始论文：https://gravis.dmi.unibas.ch/publications/Sigg99/morphmod2.pdf算法主要思想是：利用一个人脸数据库构造一个平均人脸形变模型，在给出新的人脸图像后，将人脸图像与模型进行匹配结合，修改模型相应的参数，将模型进行形变，直到模型与人脸图像的差异减到最小，这时对纹理进行优化调整，即可完成人脸建模。改论文主要有两个步骤：构建人脸形变模型三维人脸重建一、三维形变人脸模

2021-10-28 16:41:48 763 1

Policy Gradient 推导过程.pdf

空空如也