自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

启人zhr的博客

好好学习,天天向上

  • 博客(31)
  • 收藏
  • 关注

原创 DAI2020 SMARTS自动驾驶挑战赛(强化学习)总结+前三名思路

早在半个多月前,华为诺亚方舟举办的DAI2020 SMARTS自动驾驶挑战赛已经结束了,一直没写总结,一方面是想等前五名的汇报ppt发出来,可是官方一直没有公布ppt,我也就拿当时参加DAI会议的录制视频作参考写了总结。虽然比赛结果很可惜,没有拿到前五获奖,只取得了第七,但好歹也花费了2个月时间,不写点总结都对不起自己2个月的努力。[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传比赛介绍比赛背景为了推动自动驾驶的前沿研究,激发对驾驶中多智能体交互的研究,在今年的分布式人工智能大

2020-11-09 21:52:00 3914 6

原创 强化学习中的调参经验与编程技巧(on policy 篇)

在强化学习的训练过程中,常常会遇见以下问题在某一环境中可以work的超参数拿去训练别的环境却怎么训练不出来训练时熵在增大训练动作达到边界本文通过调试几个环境的案例来探究强化学习的调参方法1 pendulum摆锤这个环境可以看做连续控制中的入门环境了,环境初始时在一个随机的位置,目标是将其摆动以使其保持直立,它的状态维度为3,动作维度为1拟使用PPO解决这个问题,ppo的流程如下:使用Actor网络与环境交互一定步数,记录下(state, action, reward, v, done).

2020-08-31 00:44:49 3604 1

原创 学生可以租的便宜云GPU-滴滴云

疫情在家的一段时间,尝试了各种云gpu服务,说一下自己的体会。首先你得知道自己需要什么样的需求,如今大多数较便宜的云GPU(Mist GPU,1024lab等深脑链)给你提供的都为一个类似的docker环境,这种环境的缺点在于,如果你的程序需要另外的docker镜像(比如我做强化学习,和环境交互,需要carla引擎作为交互环境),一般来说在docker中安装docker是不太行的,同样你在github中下载的别的程序如果另需要docker,那这种程序在这些平台上也很难运行,其二这些云gpu提供的docke

2020-07-10 02:31:17 2579

原创 强化学习与自动驾驶——Carla环境配置与benchmark解读

1.Carla ServerCarla目前的稳定版为0.8.2,https://github.com/carla-simulator/carla/releases/tag/0.8.2 即可下载,linux解压后命令行执行$ ./CarlaUE4.sh这将启动一个全屏的仿真窗口,你能使用WASD驾驶车辆实验中往往增加各种参数进行配置$ ./CarlaUE4.sh -carla-serve...

2019-10-30 23:33:50 7696 16

原创 强化学习基础——形象化解释值函数含义以及期望的意义

1.值函数定义1.1 V函数我们先看一下经典的最短路问题,假设我们要求出起点s到终点g的最短路我们定义V∗(s)V^\ast(s)V∗(s)为sss到终点ggg的最短路,V∗(f)V^\ast(f)V∗(f) 为fff到终点ggg的最短路,以此类推,为了求出这个最短路,我们从终点开始算起:V∗(g)=0V∗(f)=1+V∗(g)=1V∗(d)=min{3+V∗(g),1+V∗(f)}\...

2019-09-17 10:53:59 1356 2

原创 强化学习环境学习-gym[atari]-paper中的相关设置

0. gym 核心这部分的代码在gym/core.py中,原始基类为Env,主要可调用step,reset,render,close,seed几个方法,大体框架如下class Env(object): def reset(self): pass def step(self, action): pass def render(self, ...

2019-08-28 20:23:12 9442 7

原创 强化学习实验中的绘图技巧-使用seaborn绘制paper中的图片

强化学习实验中的绘图技巧-使用seaborn绘制paper中的图片使用seaborn绘制折线图时参数数据可以传递ndarray或者pandas,不同的源数据对应的其他参数也略有不同.1. ndarray先看一个小例子def getdata(): basecond = [[18, 20, 19, 18, 13, 4, 1], ...

2019-07-27 21:21:18 8408 3

原创 Ubuntu下的python环境切换(命令行,anaconda,pycharm)

1.命令行下的python一般在装完Ubuntu后,系统会自带Python2和Python3,在/usr/local目录下可以查看使用which也可以查看命令所在的目录直接输入python会进入系统自带的2.7界面1.1 update-alternatives是linux下的一个链接管理工具,可以用于管理软件多个版本。alternatives 的管理目录 /etc/alternati...

2019-07-08 20:27:35 3154 1

原创 强化学习中的基础概念和术语——spinning up文档翻译

Key Concepts and Terminology以下内容翻译自open ai 的spinning up文档,同时加入了一些自己的理解。原始内容来自spinningup文章目录Key Concepts and Terminology1.States and Observations2. Action Spaces3.Policies3.1 Deterministic Policies3....

2019-06-09 14:08:31 2199

原创 统计学习方法第一章 统计学习方法概论 读书笔记

统计学习方法概论1.1 统计学习1.1.1 统计学习的特点是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科1.1.2. 统计学习的对象对象是数据,基本假设是同类数据具有一定的统计规律性1.1.3. 统计学习的目的用于对数据进行预测和分析,总的目标是考虑学习什么样的模型和如何学习模型1.1.4. 统计学习的方法基于数...

2018-03-20 20:59:20 872

原创 非211计算机保研的那些事

引子一次偶然的机会让我知道了保研这件事搜集上届保研情况心底一片凉开始进行保研的准备一次次的联系老师的过程看起来高大上的夏令营暑期生活九月的生活引子,一次偶然的机会,让我知道了保研这件事在大三时期,我很偶然也很幸运的评为了当年的CCF优秀大学生,获得一次免费参加CNCC中国计算机大会的机会,看着获奖名单上尽是些名牌大学的名字,带着一丝激动和紧张,乘坐高铁来到了山西太原,想着周围都是大佬级别

2017-11-14 11:41:41 15119 35

原创 Coursera吴恩达机器学习课程 总结笔记及作业代码——第7周支持向量机

1.1 Optimization objective先回顾一下逻辑回归的相关概念 hθ(x)=11+e−θTxh_\theta(x) = \frac{1}{1+e^{-\theta^T x}} IF y=1, we want hθ(x)≈1h_\theta(x) \approx 1 , θTx≫0\theta^Tx \gg 0 IF y=0, we want hθ(x)≈0h_\theta(x

2017-05-31 21:42:33 17010 4

原创 Coursera吴恩达机器学习课程 总结笔记及作业代码——第6周有关机器学习的小建议

1.1 Deciding what to try next当你调试你的学习算法时,当面对测试集你的算法效果不佳时,你会怎么做呢? 获得更多的训练样本?尝试更少的特征?尝试获取附加的特征?尝试增加多项式的特征?尝试增加λ\lambda?尝试减小λ\lambda?由此我们引出了机器学习诊疗法 1.2 EvaluaDng a hypothesis 我们通过将数据集分成训练集和测试集,

2017-05-21 15:58:40 12556 1

原创 Coursera吴恩达机器学习课程 总结笔记及作业代码——第5周神经网络续

Neural Networks:Learning上周的课程学习了神经网络正向传播算法,这周的课程主要在于神经网络的反向更新过程。1.1 Cost function我们先回忆一下逻辑回归的价值函数 J(θ)=1m[∑mi=1y(i)log(hθ(x(i)))+(1−y(i))log(1−hθ(x(i)))]+λ2m∑nj=1θ2jJ(\theta) = \frac{1}{m}[\sum_{i=1}^

2017-05-14 21:21:35 18532 5

原创 Coursera吴恩达机器学习课程 总结笔记及作业代码——第4周神经网络

Neural Networks1.1 Non-linear hypotheses在课程的开头,提到了非线性假设,会因为特征量的增多导致二次项数的剧增。 举个例子,在图像识别中,一个50*50像素的图片,拥有的特征量为2500,那么它的二次项数为2500*2500/2,大约为3百万个。1.2 Model representation 上层是一个三层神经网络,第一层为输入层,第二层为隐藏层,第三层为

2017-05-02 22:27:00 20385 2

原创 Coursera吴恩达机器学习课程 总结笔记及作业代码——第3周逻辑回归

Logistic Regression上一次的课程主要解决回归分析问题,这一次的课程主要为分类问题,分类问题也可看做将回归问题的连续性离散化。1.1 Classification先来谈谈二分类问题。课程中先给出了几个例子。 邮件是垃圾邮件还是非垃圾邮件;网上交易是的欺骗性(Y or N);肿瘤是恶性的还是良性的。 对于这些问题,我们可以通过输出值y ϵ\epsilon {0, 1} 来表示。

2017-04-25 21:33:00 22608 15

原创 Coursera吴恩达机器学习课程 总结笔记及作业代码——第1,2周

Linearregression1 Model representation2 Cost function3 Gradient descent4 Gradient descent for linear regression1 Mul2ple features2 Feature Scaling3 Learningrate4 Features and polynomial regress

2017-04-23 20:02:23 59531 16

原创 PLA算法matlab程序 & 神经网络工具箱的使用

问题模型PLA算法matlab程序matlab神经网络工具箱使用最近看了台湾大学林轩田老师的公开课视频,作为机器学习的入门者,记录下来以供查阅。问题模型 threshold表示界限值。 sign(x)根据x大于0和小于0分别取+1和-1。 将-threshold作为w0 也就是作为w⃗ \vec{w}的第一个分量。因此我们需要求出w⃗ \vec{w}通过给定的训练值x⃗ \vec{x}P

2017-03-31 23:25:54 3816 2

原创 状态压缩dp入门题目总结——炮兵阵地和TSP问题

Corn Fields炮兵阵地Hie with the PieTraveling by StagecoachTravellingIslands and BridgesCorn FieldsPOJ3254 题目链接 Farmer John has purchased a lush new rectangular pasture composed of M by N (1 ≤ M ≤ 12;

2017-03-12 20:41:43 751

原创 博弈树搜索之alpha-beta剪枝——一步一步教你写一字棋智能程序

博弈树搜索在下图中,第一层节点表示开始局面,我方先走,第二层节点表示我方可走的三个位置,第三层节点表示对于我方的每一种走法对手的各种走法,下方数字代表了对每个局面的评价值。这里的评价值都是相对于我方来说的。 根据常规,我方在第二层选择时会选择评价值最大的节点去走,在第三层选择时,要考虑对手走相对我方最不利的棋,因此选择评价值最低的节点,这样评价值从最底层更新到最高层,被称为极小极大搜索过程。举例说

2017-03-08 11:20:21 31093 18

原创 数位dp进阶题目——较复杂的状态刻画

前言The Counting ProblemRound NumbersFxX mod fx前言在前一节链接里,我们讨论了数位dp的基础应用,从数位dp的简单状态刻画状态方程的给出,以及之后给出了较为统一的记忆化模板来解决大多数问题,在这一节里首先给出一个较复杂的状态方程求解问题,剩下3个用记忆化解决的问题来加深印象。The Counting ProblemPOJ 2282 题目链接 Giv

2017-03-06 17:51:25 776

原创 数位dp入门题目总结——区间中满足要求的数的个数

引言总体策略不要62BombB-numberBalanced Number引言 在算法竞赛中,有一类求出给定区间中符合要求的数的个数问题,这类问题往往区间范围较大,无法通过枚举区间中数再判断条件这种方式来求解,数位dp就是一种解决这种方式的策略。给出一篇写的很好地文章链接总体策略若区间符合可加减, 求解[l,r][l, r]满足条件的数个数可以通过[0,r]−[0,l−1][0,

2017-02-27 18:13:08 3176

原创 区间dp入门题目总结

石子合并洛谷P1880 在一个园形操场的四周摆放N堆石子,现要将石子有次序地合并成一堆.规定每次只能选相邻的2堆合并成新的一堆,并将新的一堆的石子数,记为该次合并的得分。试设计出1个算法,计算出将N堆石子合并成1堆的最小得分和最大得分.思路: 定义dp[i][j]dp[i][j] 为合并i到j堆石子所得的最大得分,用数组sum[i]sum[i]记录1~i石子的石子数,通过sum[j]−sum[i

2017-02-19 22:24:17 646

原创 Codeforces Round #396 (Div. 2)题解(ABCD)

A Mahmoud and Longest Uncommon SubsequenceB Mahmoud and a TriangleC Mahmoud and a MessageD Mahmoud and a DictionaryA. Mahmoud and Longest Uncommon Subsequence题目链接 While Mahmoud and Ehab were practi

2017-02-13 18:41:42 480

原创 matlab中几种求积分的方法

matlab中几种求积分的方法举例图形Midpoint RuleTrapezoid Rule13 Simpsons利用integral结果显示matlab中几种求积分的方法最近看了几天matlab的基础知识,总结一下求简单积分的方法举例图形x = linspace(0, 2*pi, 100);y = sin(x) + cos(x);plot(x, y);line([0, 2*pi],

2017-02-08 16:29:42 83730 1

原创 记忆化搜索题目总结(2)

记忆化搜索题目总结(2)记忆化搜索题目总结2一 尼克的任务二 地宫取宝三 Free Candies在上一篇我们对记忆化搜索的概念含义做了介绍,并举了几个基础了例子,没看过上一篇的请点击记忆化搜索题目总结(1),这篇我们来介绍几个相对复杂的例子。一. 尼克的任务洛谷P1280 题目链接尼克每天上班之前都连接上英特网,接收他的上司发来的邮件,这些邮件包含了尼克主管的部门当天要完成的全部任务,每个任

2017-01-04 19:01:23 820

原创 记忆化搜索题目总结(1)

记忆化搜索题目总结(1)记忆化搜索题目总结1一 概述二 引题DFS做法记忆化搜索解法三 例题数字三角形滑雪矩形嵌套硬币问题New Year and Fireworks一. 概述算法上依然是搜索的流程,但是搜索到的一些解用动态规划的那种思想和模式作一些保存。在求解的时候还是按着自顶向下的顺序,但是每求解一个状态,就将它的解保存下来,以后再次遇到这个状态的时候,就不必重新求解了。这种

2017-01-02 22:20:23 2137

原创 Codeforces Good Bye 2016部分题解

Codeforces Good Bye 2016部分题解今年的最后一场cf,打的并不好,感觉自己元旦期间好松懈。 题目链接A. New Year and Hurry 题意: 现在20:00,Limak需要在24:00点前赶去派对,此时有n个问题,第i个问题花费时间5*i 分钟,从家到派队需要k分钟,问最多解决几个问题思路: 纯模拟。#include<iostream>using nam

2017-01-02 16:17:10 627

原创 Codeforces Round #386 (Div.2)部分题解

Codeforces Round #386 (Div.2)部分题解经历几次cf降分之后,终于一次rating上升了,继续努力。A. Compote 题意: a lemons, b apples and c pears的比例要为1:2:4, 输出最大的a+b+c。思路:取a/1,b/2,c/4中的最小值t,t与1,2,4分别相乘再相加即为答案。#include<iostream>using

2016-12-31 21:21:12 691

原创 银行家算法实现——找出所有安全序列

银行家算法实现——找出所有安全序列银行家算法实现找出所有安全序列一 死锁概述二 银行家算法数据结构算法步骤程序实现运行结果三 找出所有安全序列DFSBFS运行结果一 .死锁概述 所谓死锁: 是指两个或两个以上的进程在执行过程中,由于竞争资源或者由于彼此通信而造成的一种阻塞的现象,若无外力作用,它们都将无法推进下去。此时称系统处于死锁状态或系统产生了死锁,这些永远在互相等待的进

2016-12-30 20:31:36 28626 17

原创 进程同步-生产者和消费者(PV操作实现——java多线程模拟)

进程同步-生产者和消费者(PV操作实现——java多线程模拟)目录进程同步-生产者和消费者PV操作实现java多线程模拟目录生产者和消费者概述PV操作解决生产者和消费者任务要求程序代码运行结果生产者和消费者概述 生产者消费者问题(英语:Producer-consumer problem),也称有限缓冲问题(英语:Bounded-buffer problem),是一个多线程同步问题的

2016-12-29 20:32:26 9645 4

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除