Sophia$-CSDN博客

转载莫烦强化学习视频笔记：第六节 6.6 Asynchronous Advantage Actor-Critic (A3C)

1. 要点一句话概括 A3C:Google DeepMind 提出的一种解决Actor-Critic不收敛问题的算法. 它会创建多个并行的环境, 让多个拥有副结构的 agent 同时在这些并行环境上更新主结构中的参数. 并行中的 agent 们互不干扰, 而主结构的参数更新受到副结构提交更新的不连续性干扰, 所以更新的相关性被降低, 收敛性提高.因为这节内容是基于Actor-Critic, 所以还不了解Actor-Critic的朋友们, 强烈推荐你在这个短视频和这个 Python 教...

2021-11-26 16:07:12 593

转载莫烦强化学习视频笔记：第六节 6.5 什么是 Asynchronous Advantage Actor-Critic (A3C)

目录1. 平行宇宙2. 平行训练3. 多核训练今天我们会来说说强化学习中的一种有效利用计算资源, 并且能提升训练效用的算法, Asynchronous Advantage Actor-Critic, 简称 A3C.注: 本文不会涉及数学推导. 大家可以在很多其他地方找到优秀的数学推导文章.1. 平行宇宙我们先说说没什么关系的,大家知道平行宇宙这回事. 想像现在有三个平行宇宙, 那么就意味着这3个平行宇宙上存在3个你, 而你可能在电脑前呆了很久, 对, 说的就是你! 然...

2021-11-25 17:14:21 420

转载莫烦强化学习视频笔记：第六节 6.4 Deep Deterministic Policy Gradient (DDPG)

目录1. 要点2. 算法3. 代码3.1 主结构3.2 Actor Critic3.3 记忆库 Memory3.4 每回合算法3.5 简化版代码(录完视频后发现了小错误, 重写了代码)1. 要点一句话概括 DDPG:Google DeepMind 提出的一种使用Actor Critic结构, 但是输出的不是行为的概率, 而是具体的行为, 用于连续动作 (continuous action) 的预测.DDPG结合了之前获得成功的DQN结构,...

2021-11-22 18:23:46 486

转载莫烦强化学习视频笔记：第六节 6.3 什么是DDPG

目录1. 拆分细讲2. Deep 和 DQN3. Deterministic Policy Gradient4. DDPG 神经网络今天我们会来说说强化学习中的一种actor critic 的提升方式 Deep Deterministic Policy Gradient (DDPG), DDPG 最大的优势就是能够在连续动作上更有效地学习.注: 本文不会涉及数学推导. 大家可以在很多其他地方找到优秀的数学推导文章.1. 拆分细讲它吸收了Actor-Critic...

2021-11-22 11:34:30 397

转载莫烦强化学习视频笔记：第六节 6.2 Actor Critic

目录1. 要点2. 算法3. 代码3.1 主结构3.2 两者学习方式3.3 每回合算法¶1. 要点一句话概括 Actor Critic 方法:结合了 Policy Gradient (Actor) 和 Function Approximation (Critic) 的方法.Actor基于概率选行为,Critic基于Actor的行为评判行为的得分,Actor根据Critic的评分修改选行为的概率.Actor Critic 方法的优势: 可...

2021-11-22 11:21:01 249

转载莫烦强化学习视频笔记：第六节 6.1 什么是 Actor Critic

目录1. 为什么要有 Actor 和 Critic2. Actor 和 Critic3. 增加单步更新属性4. 改进版 Deep Deterministic Policy Gradient (DDPG)今天我们会来说说强化学习中的一种结合体 Actor Critic (演员评判家), 它合并了以值为基础 (比如 Q learning) 和以动作概率为基础 (比如 Policy Gradients) 两类强化学习算法.注: 本文不会涉及数学推导. 大家可以在很多其他地方找到...

2021-11-15 17:18:34 243

转载莫烦强化学习视频笔记：第五节 5.2 Policy Gradients 算法更新和思维决策

目录1. 要点2. 算法流程3. 算法代码形式3.1 算法更新3.2 思维决策3.2.1 初始化3.2.2 建立 Policy 神经网络3.2.3 选行为3.2.4 存储回合3.2.5 学习1. 要点Policy gradient 是 RL 中另外一个大家族, 他不像 Value-based 方法 (Q learning, Sarsa), 但他也要接受环境信息 (observation), 不同的是他要输出不是 action 的 value,...

2021-11-15 16:47:12 405

转载莫烦强化学习视频笔记：第五节 5.1 什么是策略梯度（Policy Gradients）

目录1. 和以往的强化学习方法不同2. 更新不同之处3. 具体更新步骤欢迎观看有趣的机器学习系列视频, 今天我们会来说说强化学习家族中另一类型算法, 叫做 Policy Gradients.注: 本文不会涉及数学推导. 大家可以在很多其他地方找到优秀的数学推导文章.1. 和以往的强化学习方法不同强化学习是一个通过奖惩来学习正确行为的机制. 家族中有很多种不一样的成员, 有学习奖惩值, 根据自己认为的高价值选行为, 比如Q learning,Deep Q Netwo...

2021-11-15 13:37:41 169

转载莫烦强化学习视频笔记：第四节 4.6 Dueling DQN

要点本篇教程是基于 Deep Q network (DQN) 的选学教程. 以下教程缩减了在 DQN 方面的介绍, 着重强调 Dueling DQN 和 DQN 在代码上不同的地方. 所以还没了解 DQN 的同学们, 有关于 DQN 的知识, 请从这个视频和这个Python教程开始学习.只要稍稍修改 DQN 中神经网络的结构, 就能大幅提升学习效果, 加速收敛. 这种新方法叫做 Dueling DQN. 用一句话来概括 Dueling DQN 就是. 它将每个动作的 Q 拆分成了 stat...

2021-11-15 10:50:26 248

转载莫烦强化学习视频笔记：第四节 4.5 Prioritized Experience Replay

1. 要点本篇教程是基于 Deep Q network (DQN) 的选学教程. 以下教程缩减了在 DQN 方面的介绍, 着重强调 DQN with Prioritized Replay 和 DQN 在代码上不同的地方. 所以还没了解 DQN 的同学们, 有关于 DQN 的知识, 请从这个教程开始学习.这一次还是使用 MountainCar 来进行实验, 因为这次我们不需要重度改变他的 reward 了. 所以只要是没有拿到小旗子, reward=-1, 拿到小旗子时, 我们定义它获得了 +1...

2021-11-11 16:25:28 308

转载莫烦强化学习视频笔记：第四节 4.4 Double DQN

1. 要点接下来，我们会介绍DQN的三种改进方法。如果训练速度太慢，Q现实中出现过估计，就可以使用这三种改进方法：DDQN：可以解决过估计的问题。Prioritized Experience Replay：更有效率的学习样本。Dueling DQN：将原本DQN的输出改为两个数据内容。本篇教程介绍其一。本篇教程是基于 Deep Q network (DQN) 的选学教程. 以下教程缩减了在 DQN 方面的介绍, 着重强调 Double DQN 和 DQN 在代码上不同的地方. .

2021-11-09 16:54:38 294

转载莫烦强化学习视频笔记：第四节 4.3 OpenAI Gym 环境库

1. 要点手动编环境是一件很耗时间的事情, 所以如果有能力使用别人已经编好的环境, 可以节约我们很多时间. OpenAI gym 就是这样一个模块, 他提供了我们很多优秀的模拟环境. 我们的各种 RL 算法都能使用这些环境. 不过 OpenAI gym 暂时只支持 MacOS 和 Linux 系统. Windows 已经支持, 但是听说还没有全面支持, 大家时不时查看下官网, 可能就有惊喜. 实在等不及Windows更新了, 用 tkinter 来手动编写一下环境也行. 这里有我制作的很好的tkin..

2021-11-09 10:26:11 637 1

转载莫烦强化学习视频笔记：第四节 4.2 DQN算法更新、神经网络和思维决策（迷宫例子）

目录1. 要点2. 算法3. 代码3.1 主程序（算法更新）3.2DeepQNetwork3.2.1 两个神经网络3.2.2 神经网络结构3.2.3 创建两个网络3.3 思维决策3.3.1 代码主结构3.3.2初始值3.3.3 存储记忆3.3.4 选行为3.3.5学习3.3.6 看学习效果3.4 修改版的 DQN3.5 说明1. 要点Deep Q Network 的简称叫 DQN, 是将 Q lea...

2021-11-08 17:05:05 861 1

转载莫烦强化学习视频笔记：第四节 4.1 Deep Q Network（DQN）

目录1. 强化学习与神经网络2. 神经网络的作用3. 神经网络参数更新4. DQN 两大利器这一节，我们会来说说强化学习中的另一种强大武器, Deep Q Network 简称为 DQN. Google Deep mind 团队就是靠着这 DQN 使计算机玩电动玩得比我们还厉害.注: 本文不会涉及数学推导. 大家可以在很多其他地方找到优秀的数学推导文章.1. 强化学习与神经网络之前我们所谈论到的强化学习方法都是比较传统的方式, 而如今, 随着机器学习在日常生活中的...

2021-11-04 15:50:15 284

转载莫烦强化学习视频笔记：第三节 3.4 Sarsa-lambda

目录1. 要点2. 代码主结构3. 预设值4. 检测 state 是否存在5. 学习1. 要点Sarsa-lambda 是基于 Sarsa 方法的升级版, 他能更有效率地学习到怎么样获得好的 reward. 如果说 Sarsa 和 Qlearning 每次获取到 reward后, 只更新获取到 reward 的前一步. 那 Sarsa-lambda 就是更新获取到 reward 的前 lambda 步. lambda 是在 [0, 1] 之间取值,如果 lambd...

2021-11-04 15:21:49 237

转载莫烦强化学习视频笔记：第三节 3.3 什么是Sarsa-lambda

Q-learning是off-policy的，就是可以看着别人玩，自己学着别人再玩；Sarsa是on-policy的算法，自身走到哪一步就学习哪一步，所以Sarsa只能从自身的经验学。下面是Sarsa的算法描述：接着上节内容, 我们来实现RL_brain的SarsaTable部分, 这也是 RL 的大脑部分, 负责决策和思考.代码主结构和之前定义 Qlearning 中的QLearningTable一样, 因为使用 tabular 方式的Sarsa和Qlearn...

2021-11-04 11:36:48 198

转载莫烦强化学习视频笔记：第三节 3.2 Sarsa算法更新和思维决策（迷宫例子）

目录1. 要点2. 算法流程3. 算法代码部分3.1 迭代更新3.2 思维决策代码3.2.1 学习1. 要点这次我们用同样的迷宫例子来实现 RL 中另一种和 Qlearning 类似的算法, 叫做 Sarsa (state-action-reward-state-action). 我们从这一个简称可以了解到, Sarsa 的整个循环都将是在一个路径上, 也就是 on-policy, 下一个 state, 和下一个 action将会变成他真正采取的 action 和...

2021-11-04 10:38:21 351

转载莫烦强化学习视频笔记：第三节 3.1 Sarsa

莫烦强化学习视频笔记：第二节 2.3 Q-Learning算法更新

2021-11-03 18:24:12 166

转载莫烦强化学习视频笔记：第二节 2.3 Q-Learning算法更新和思维决策（迷宫例子）

莫烦强化学习视频笔记：第二节 2.2 Q-Learning简单例子

2021-11-02 17:01:24 524 1

转载莫烦强化学习视频笔记：第二节 2.2 Q-Learning简单例子

1. 例子说明这一次我们会用 tabular Q-learning 的方法实现一个小例子, 例子的环境是一个一维世界, 在世界的右边有宝藏, 探索者只要得到宝藏尝到了甜头, 然后以后就记住了得到宝藏的方法, 这就是他用强化学习所学习到的行为.-o---T# T 就是宝藏的位置, o 是探索者的位置Q-learning 是一种记录行为值 (Q value) 的方法, 每种在一定状态的行为都会有一个值Q(s, a), 就是说行为a在s状态的值是Q(s, a).s在上面的探索者...

2021-11-01 14:13:51 382

翻译莫烦强化学习视频笔记：第二节 2.1 Q-Learning

1. Q-Learning简介行动准则：好的行为能够获得奖励，不好的行为会获得惩罚。假设你有两个选择：写作业和看电视。你选择连续看电视，被爸妈发现打屁股。你吸取了惨痛的教训，第二次持续认真的写作业。举例，之前没有写过作业，所以没有任何经验。第一个状态可选择写作业也可以选择看电视。假设第一个状态是写作业，写一会儿就去看电视了，这时候状态由写作业变为了看电视，直到父母回来发现我在看电视，然后把我痛打了一顿，我记住了这次教训。假设我们的行为准则已经学习好了。2. Q表Q-lear..

2021-11-01 13:26:15 211

转载莫烦强化学习视频笔记：第一节 1.3 课程准备和要求

学习资料:OpenAI gym 官网我的 Tensorflow 快速入门教程我的 numpy pandas 快速入门教程有趣的机器学习播放列表教程必备模块：强化学习有一些现成的模块可以使用, 但是那些模块并不全面, 而且强化学习很依赖与你给予的学习环境. 对于不同学习环境的强化学习, 可能 RL 的代码就不同. 所以我们要抱着以不变应万变的心态, 用基础的模块, 从基础学起. 懂了原理, 再复杂的环境也不在话下.所以用到的模块和对应的教程:Numpy, Pandas(必学..

2021-10-29 16:58:27 81

翻译莫烦强化学习视频笔记：第一节 1.2 强化学习方法汇总

首先是通过是否需要理解环境（环境给我们什么就是什么），能够分为无模型的强化学习方法和基于模型的强化学习方法。假设这里有一个机器人和一个星球X。无模型的强化学习方法（Model-Free）：不需要理解环境，机器人对星球X一无所知，机器人也不知道星球X对于他们的行为对做出怎样的反馈。举个例子，机器人决定扔了一颗原子弹要真实的世界（星球X），结果把自己也炸死了。基于模型的强化学习方法（Model-Based）：机器人通过过往的经验先理解真实的世界是如何的，建立一个模型模拟真实世界的反馈（这里如何获得的模型..

2021-10-29 16:27:46 305

转载 CUDA版本不同：nvidia-smi和nvcc -V

1. 问题之前就发现，nvidia-smi 中的CUDA 版本与 nvcc不一致，nvidia-smi的结果显示CUDA版本是11.0，而从nvcc-V命令来看，却是CUDA 10.0。但是跑代码也没啥问题。2. 分析其实是因为CUDA 有两种API，分别是运行时 API 和驱动API，即所谓的 Runtime API 与 Driver API。nvidia-smi 的结果除了有 GPU 驱动版本型号，还有 CUDA Driver API的型号，这里是 11.0。而nvcc..

2021-10-15 14:53:50 26201 5

原创 Docker系列五：创建镜像仓库账号和实践

这里以申请阿里云容器镜像服务（免费），并创建仓库为例，其他仓库如dockerhub、谷歌、亚马逊、腾讯等详见对应产品说明书。打开阿里云容器服务地址为（https://cr.console.aliyun.com）注册开通后第一步切换标签页到命名空间，创建地址唯一的命名空间根据大赛要求选择对应的地域，其他的按照自己需求选择或填写下一步，选择本地仓库，不建议其他选项，完成创建。点击管理，可查看详情。详情页如下，有基本的操作命令，仓库地址一般使用公网地址即可。按照页面的指令在本地

2021-10-15 11:51:03 375

转载莫烦强化学习视频笔记：第一节 1.1 什么是强化学习

我们人类在进行学习时，总是从一开始什么都不知道，经过不断的尝试与纠错，最终获得正确解决问题方法的过程，这就可以看作一个强化学习过程。实际，强化学习的例子很多：Alpha-Go在围棋场上战胜人类的高手Alpha-Go 百度百科让计算机学习如何玩一些经典的游戏，如Atari游戏：这些都是让计算机不断地尝试并学习行为准则，以赢得围棋棋局或者在打砖块游戏中得到高分。如何学习？想象此刻有一个虚拟的老师正在教计算机如何学习，但是他只能够为你的行为打分。那么如何通过这些分数来学习呢？很简单.

2021-10-15 10:46:34 107

转载 Docker系列四：创建基础镜像

1. 首先我们先拉取open list中的任意一个镜像，例如registry.cn-shanghai.aliyuncs.com/tcc-public/pytorch:latest-py3。【OPENLIST】Base Docker Image List-天池技术圈-天池技术讨论区 (aliyun.com)docker pull registry.cn-shanghai.aliyuncs.com/tcc-public/pytorch:latest-py32. 拉取成功后，我们将上面的镜像运行起来

2021-10-14 11:42:08 549

转载 Docker系列三：docker 基础命令学习

3.1 拉取镜像docker pull [选项] [docker镜像地址:标签]如：docker pull hello-world:latest3.2 运行镜像$ docker run hello-worldHello from Docker!This message shows that your installation appears to be working correctly.To generate this message, Docker took the

2021-10-13 15:23:50 118

原创 Docker系列二：docker安装

1. Linux$ sudo curl -sS https://get.docker.com/ | sh测试$ docker run hello-worldUnable to find image 'hello-world:latest' locallylatest: Pulling from library/hello-worldd1725b59e92d: Pull completeDigest: sha256:0add3ace90ecb4adbf7777e9aacf1835729

2021-10-12 15:04:07 252

转载 Docker系列一：前言

随着云原生、AI等技术的向前推进，容器技术逐渐成为每位算法同学的必备技能之一。本文档主要面向算法开发同学，从0基础实现将代码打包docker镜像-调试-提交仓库-提交云服务训练模型/天池大赛提交/学校服务器训练等流程。也同样适用于初次接触docker的同学。区别于开发同学，对于算法同学而言仅需要掌握一部分基础命令达到自己的使用目的即可。因此此次简明教程面向算法同学和AI竞赛参赛者，帮助大家快速上手大赛提交和远程服务器训练。Docker的出现是一种历史趋势，因为微服务的出现，导致了使用的技术更加多元

2021-10-12 11:33:22 127

OpenVINO安装包

北京大学 编译原理 考研试题

编译原理清华大学版习题答案2

编译原理清华大学版习题答案1

软考大纲 程序员考试 软件设计师考试 数据库系统工程师考试 网络工程师考试 网络管理员级考试 系统分析师考试 系统架构设计师考试 信息系统项目管理师考试

UML课程设计 用例图、顺序图等的画法，及案例

UML建模图，用例图 活动图 部署图...

空空如也

北京大学编译原理考研试题

软考大纲程序员考试软件设计师考试数据库系统工程师考试网络工程师考试网络管理员级考试系统分析师考试系统架构设计师考试信息系统项目管理师考试

UML课程设计用例图、顺序图等的画法，及案例

UML建模图，用例图活动图部署图...