prince of persiaV5-CSDN博客

原创强化学习代码实操和讲解（三）

强化学习代码实操和讲解（三）引言杰克租车问题重点代码解析环境设置poisson_probability：泊松概率的计算expected_return：根据给定策略进行策略评估figure_4_2：策略迭代主循环和画图结果与讨论赌徒问题重点代码解析环境设置figure_4_3：价值迭代和绘图结果和讨论总结完整代码杰克租车问题赌徒问题引言本章首先介绍了动态规划这一非常重要的工具，用书上总结性的话来说，通过将贝尔曼方程转化成为近似逼近理想价值函数的递归更新公式，我们就得到了DP算法，实际上，动态规划把原问题分

2020-08-02 21:40:55 2952 2

原创强化学习代码实操和讲解（二）

强化学习代码实操和讲解（二）引言背景介绍重点代码解析环境设置step函数：接收环境奖励和状态转移figure_3_2：根据给定策略估计状态价值函数figure_3_5:计算最优价值函数并绘制最佳策略杂项函数解析draw_image：绘制收敛后的价值函数draw_policy：选择最佳策略并把对应箭头画在网格世界中总结完整代码引言这里是强化学习代码实操第二部分，对应书上第三章有限马尔可夫决策过程的内容。本次实操主要运用了网格世界这一经典的强化学习环境（下面会略作介绍），向我们展示了本章的核心内容——贝尔曼

2020-07-31 22:22:36 1433 1

原创强化学习代码实操和讲解（一）

强化学习代码实操写在最前面总体思路背景介绍重点代码解析写在最前面本人本科生，为了大创项目在老师的帮助下自学强化学习和深度学习等知识，目前听过了David Silver和周博磊等大牛的课程，对于强化学习的基础知识有了一定的了解，但是上升到打代码上却依然一头雾水，不知道从何写起，因而我从GitHub上面找到了一些感觉很好的练习示例项目，大多数源自《Reinforcement Learning: An introduction》一书，来进行赏析学习。这是原项目地址。里面基本分了章节进行了排布，部分代码有注释，

2020-07-30 22:32:39 6246 2

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 强化学习代码实操和讲解（三）

原创 强化学习代码实操和讲解（二）

原创 强化学习代码实操和讲解（一）

空空如也

空空如也

原创强化学习代码实操和讲解（三）

原创强化学习代码实操和讲解（二）

原创强化学习代码实操和讲解（一）