本篇主要讲解基于值分解的多智能体强化学习方法,比如VDN,QMIX等。
2024-03-12 14:08:04
1017
1
本篇文章详细介绍了多智能体的训练范式,独立学习算法以及多智能体策略梯度算法
2024-03-11 11:48:39
2161
1
本文全面介绍了基于策略梯度的深度强化学习方法。策略梯度方法适用于连续动作空间问题,直接通过神经网络拟合策略函数。文章着重解释了如何利用策略梯度定理更新策略网络的参数,以最大化预期回报。介绍了REINFORCE算法,该算法通过蒙特卡洛方法估计动作价值函数,并引入状态价值函数作为基线以降低方差。讨论了Actor-Critic方法,该方法结合了策略梯度和值函数更新。进一步,提出了A2C和PPO算法,前者优化了Actor-Critic结构且引入了熵正则化,后者则通过重要性采样简化了算法复杂度。文章通过图表和伪代码清
2024-03-09 15:48:16
936
这篇文章是对强化学习学习思路的一个整理,主要介绍一下DQN算法
2024-03-02 16:15:34
891
本篇主要介绍多智能体交互的数学建模,逐渐向MARL过渡
2024-02-25 21:16:44
886
1
本篇是对强化学习的一些思路整理,错误不少,欢迎指正!
2024-02-18 10:17:39
908
1
本节主要介绍了Git远程仓库操作加参数形式,比如:git push origin master等
2024-02-05 14:08:58
1805
1
本文通过图片展示,介绍了利用Git获取远程仓库最新修改以及推送本地修改到远程仓库的常用命令。
2024-01-30 12:09:33
1005
1
本章主要介绍了在Git中移动提交记录的两种方法,以及如何给你的提交记录打标签。
2024-01-28 15:23:32
985
1
Git高级特性学习,本篇主要介绍了git中提交树的分支移动
2024-01-27 12:27:27
1587
本文旨在用图片的形式直观的介绍git的基本用法,第一节是基础篇,后期持续更新...
2024-01-26 16:29:35
458
1
python快速入门笔记,可以用来对python的一些基础内容进行回顾
2024-01-07 21:27:34
884
1