启人zhr-CSDN博客

原创 DAI2020 SMARTS自动驾驶挑战赛（强化学习）总结+前三名思路

早在半个多月前，华为诺亚方舟举办的DAI2020 SMARTS自动驾驶挑战赛已经结束了，一直没写总结，一方面是想等前五名的汇报ppt发出来，可是官方一直没有公布ppt，我也就拿当时参加DAI会议的录制视频作参考写了总结。虽然比赛结果很可惜，没有拿到前五获奖，只取得了第七，但好歹也花费了2个月时间，不写点总结都对不起自己2个月的努力。[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传比赛介绍比赛背景为了推动自动驾驶的前沿研究，激发对驾驶中多智能体交互的研究，在今年的分布式人工智能大

2020-11-09 21:52:00 3914 6

原创强化学习中的调参经验与编程技巧(on policy 篇)

在强化学习的训练过程中，常常会遇见以下问题在某一环境中可以work的超参数拿去训练别的环境却怎么训练不出来训练时熵在增大训练动作达到边界本文通过调试几个环境的案例来探究强化学习的调参方法1 pendulum摆锤这个环境可以看做连续控制中的入门环境了，环境初始时在一个随机的位置，目标是将其摆动以使其保持直立，它的状态维度为3，动作维度为1拟使用PPO解决这个问题，ppo的流程如下：使用Actor网络与环境交互一定步数，记录下(state, action, reward, v, done).

2020-08-31 00:44:49 3604 1

原创学生可以租的便宜云GPU-滴滴云

疫情在家的一段时间，尝试了各种云gpu服务，说一下自己的体会。首先你得知道自己需要什么样的需求，如今大多数较便宜的云GPU(Mist GPU，1024lab等深脑链)给你提供的都为一个类似的docker环境，这种环境的缺点在于，如果你的程序需要另外的docker镜像（比如我做强化学习，和环境交互，需要carla引擎作为交互环境），一般来说在docker中安装docker是不太行的，同样你在github中下载的别的程序如果另需要docker，那这种程序在这些平台上也很难运行，其二这些云gpu提供的docke

2020-07-10 02:31:17 2579

启人zhr的博客

原创 DAI2020 SMARTS自动驾驶挑战赛（强化学习）总结+前三名思路

原创强化学习中的调参经验与编程技巧(on policy 篇)

原创学生可以租的便宜云GPU-滴滴云

原创强化学习与自动驾驶——Carla环境配置与benchmark解读

原创强化学习基础——形象化解释值函数含义以及期望的意义

原创强化学习环境学习-gym[atari]-paper中的相关设置

原创强化学习实验中的绘图技巧-使用seaborn绘制paper中的图片

原创 Ubuntu下的python环境切换(命令行,anaconda,pycharm)

原创强化学习中的基础概念和术语——spinning up文档翻译

原创统计学习方法第一章统计学习方法概论读书笔记

原创非211计算机保研的那些事

原创 Coursera吴恩达机器学习课程总结笔记及作业代码——第7周支持向量机

原创 Coursera吴恩达机器学习课程总结笔记及作业代码——第6周有关机器学习的小建议

原创 Coursera吴恩达机器学习课程总结笔记及作业代码——第5周神经网络续

原创 Coursera吴恩达机器学习课程总结笔记及作业代码——第4周神经网络

原创 Coursera吴恩达机器学习课程总结笔记及作业代码——第3周逻辑回归

原创 Coursera吴恩达机器学习课程总结笔记及作业代码——第1,2周

原创 PLA算法matlab程序 & 神经网络工具箱的使用

原创状态压缩dp入门题目总结——炮兵阵地和TSP问题

原创博弈树搜索之alpha-beta剪枝——一步一步教你写一字棋智能程序

原创数位dp进阶题目——较复杂的状态刻画

原创数位dp入门题目总结——区间中满足要求的数的个数

原创区间dp入门题目总结

原创 Codeforces Round #396 (Div. 2)题解（ABCD）

原创 matlab中几种求积分的方法

原创记忆化搜索题目总结（2）

原创记忆化搜索题目总结（1）

原创 Codeforces Good Bye 2016部分题解

原创 Codeforces Round #386 (Div.2)部分题解

原创银行家算法实现——找出所有安全序列

原创进程同步-生产者和消费者（PV操作实现——java多线程模拟）

空空如也

空空如也