自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(121)
  • 资源 (7)
  • 收藏
  • 关注

转载 莫烦强化学习视频笔记:第六节 6.6 Asynchronous Advantage Actor-Critic (A3C)

1. 要点一句话概括 A3C:Google DeepMind 提出的一种解决Actor-Critic不收敛问题的算法. 它会创建多个并行的环境, 让多个拥有副结构的 agent 同时在这些并行环境上更新主结构中的参数. 并行中的 agent 们互不干扰, 而主结构的参数更新受到副结构提交更新的不连续性干扰, 所以更新的相关性被降低, 收敛性提高.因为这节内容是基于Actor-Critic, 所以还不了解Actor-Critic的朋友们, 强烈推荐你在这个短视频和这个 Python 教...

2021-11-26 16:07:12 593

转载 莫烦强化学习视频笔记:第六节 6.5 什么是 Asynchronous Advantage Actor-Critic (A3C)

目录1. 平行宇宙2. 平行训练3. 多核训练今天我们会来说说强化学习中的一种有效利用计算资源, 并且能提升训练效用的算法, Asynchronous Advantage Actor-Critic, 简称 A3C.注: 本文不会涉及数学推导. 大家可以在很多其他地方找到优秀的数学推导文章.1. 平行宇宙我们先说说没什么关系的,大家知道平行宇宙这回事. 想像现在有三个平行宇宙, 那么就意味着这3个平行宇宙上存在3个你, 而你可能在电脑前呆了很久, 对, 说的就是你! 然...

2021-11-25 17:14:21 420

转载 莫烦强化学习视频笔记:第六节 6.4 Deep Deterministic Policy Gradient (DDPG)

目录1. 要点2. 算法3. 代码3.1 主结构3.2 Actor Critic3.3 记忆库 Memory3.4 每回合算法3.5 简化版代码(录完视频后发现了小错误, 重写了代码)1. 要点一句话概括 DDPG:Google DeepMind 提出的一种使用Actor Critic结构, 但是输出的不是行为的概率, 而是具体的行为, 用于连续动作 (continuous action) 的预测.DDPG结合了之前获得成功的DQN结构,...

2021-11-22 18:23:46 486

转载 莫烦强化学习视频笔记:第六节 6.3 什么是DDPG

目录1. 拆分细讲2. Deep 和 DQN3. Deterministic Policy Gradient4. DDPG 神经网络今天我们会来说说强化学习中的一种actor critic 的提升方式 Deep Deterministic Policy Gradient (DDPG), DDPG 最大的优势就是能够在连续动作上更有效地学习.注: 本文不会涉及数学推导. 大家可以在很多其他地方找到优秀的数学推导文章.1. 拆分细讲它吸收了Actor-Critic...

2021-11-22 11:34:30 397

转载 莫烦强化学习视频笔记:第六节 6.2 Actor Critic

目录1. 要点2. 算法3. 代码3.1 主结构3.2 两者学习方式3.3 每回合算法¶1. 要点一句话概括 Actor Critic 方法:结合了 Policy Gradient (Actor) 和 Function Approximation (Critic) 的方法.Actor基于概率选行为,Critic基于Actor的行为评判行为的得分,Actor根据Critic的评分修改选行为的概率.Actor Critic 方法的优势: 可...

2021-11-22 11:21:01 249

转载 莫烦强化学习视频笔记:第六节 6.1 什么是 Actor Critic

目录1. 为什么要有 Actor 和 Critic2. Actor 和 Critic3. 增加单步更新属性4. 改进版 Deep Deterministic Policy Gradient (DDPG)今天我们会来说说强化学习中的一种结合体 Actor Critic (演员评判家), 它合并了 以值为基础 (比如 Q learning) 和 以动作概率为基础 (比如 Policy Gradients) 两类强化学习算法.注: 本文不会涉及数学推导. 大家可以在很多其他地方找到...

2021-11-15 17:18:34 243

转载 莫烦强化学习视频笔记:第五节 5.2 Policy Gradients 算法更新和思维决策

目录1. 要点2. 算法流程3. 算法代码形式3.1 算法更新3.2 思维决策3.2.1 初始化3.2.2 建立 Policy 神经网络3.2.3 选行为3.2.4 存储回合3.2.5 学习1. 要点Policy gradient 是 RL 中另外一个大家族, 他不像 Value-based 方法 (Q learning, Sarsa), 但他也要接受环境信息 (observation), 不同的是他要输出不是 action 的 value,...

2021-11-15 16:47:12 405

转载 莫烦强化学习视频笔记:第五节 5.1 什么是策略梯度(Policy Gradients)

目录1. 和以往的强化学习方法不同2. 更新不同之处3. 具体更新步骤欢迎观看有趣的机器学习系列视频, 今天我们会来说说强化学习家族中另一类型算法, 叫做 Policy Gradients.注: 本文不会涉及数学推导. 大家可以在很多其他地方找到优秀的数学推导文章.1. 和以往的强化学习方法不同强化学习是一个通过奖惩来学习正确行为的机制. 家族中有很多种不一样的成员, 有学习奖惩值, 根据自己认为的高价值选行为, 比如Q learning,Deep Q Netwo...

2021-11-15 13:37:41 169

转载 莫烦强化学习视频笔记:第四节 4.6 Dueling DQN

要点本篇教程是基于 Deep Q network (DQN) 的选学教程. 以下教程缩减了在 DQN 方面的介绍, 着重强调 Dueling DQN 和 DQN 在代码上不同的地方. 所以还没了解 DQN 的同学们, 有关于 DQN 的知识, 请从这个视频和这个Python教程开始学习.只要稍稍修改 DQN 中神经网络的结构, 就能大幅提升学习效果, 加速收敛. 这种新方法叫做 Dueling DQN. 用一句话来概括 Dueling DQN 就是. 它将每个动作的 Q 拆分成了 stat...

2021-11-15 10:50:26 248

转载 莫烦强化学习视频笔记:第四节 4.5 Prioritized Experience Replay

1. 要点本篇教程是基于 Deep Q network (DQN) 的选学教程. 以下教程缩减了在 DQN 方面的介绍, 着重强调 DQN with Prioritized Replay 和 DQN 在代码上不同的地方. 所以还没了解 DQN 的同学们, 有关于 DQN 的知识, 请从这个教程开始学习.这一次还是使用 MountainCar 来进行实验, 因为这次我们不需要重度改变他的 reward 了. 所以只要是没有拿到小旗子, reward=-1, 拿到小旗子时, 我们定义它获得了 +1...

2021-11-11 16:25:28 308

转载 莫烦强化学习视频笔记:第四节 4.4 Double DQN

1. 要点接下来,我们会介绍DQN的三种改进方法。如果训练速度太慢,Q现实中出现过估计,就可以使用这三种改进方法:DDQN:可以解决过估计的问题。Prioritized Experience Replay:更有效率的学习样本。Dueling DQN:将原本DQN的输出改为两个数据内容。本篇教程介绍其一。本篇教程是基于 Deep Q network (DQN) 的选学教程. 以下教程缩减了在 DQN 方面的介绍, 着重强调 Double DQN 和 DQN 在代码上不同的地方. .

2021-11-09 16:54:38 294

转载 莫烦强化学习视频笔记:第四节 4.3 OpenAI Gym 环境库

1. 要点手动编环境是一件很耗时间的事情, 所以如果有能力使用别人已经编好的环境, 可以节约我们很多时间. OpenAI gym 就是这样一个模块, 他提供了我们很多优秀的模拟环境. 我们的各种 RL 算法都能使用这些环境. 不过 OpenAI gym 暂时只支持 MacOS 和 Linux 系统. Windows 已经支持, 但是听说还没有全面支持, 大家时不时查看下官网, 可能就有惊喜. 实在等不及Windows更新了, 用 tkinter 来手动编写一下环境也行. 这里有我制作的很好的tkin..

2021-11-09 10:26:11 637 1

转载 莫烦强化学习视频笔记:第四节 4.2 DQN算法更新、神经网络和思维决策(迷宫例子)

目录1. 要点2. 算法3. 代码3.1 主程序(算法更新)3.2DeepQNetwork3.2.1 两个神经网络3.2.2 神经网络结构3.2.3 创建两个网络3.3 思维决策3.3.1 代码主结构3.3.2初始值3.3.3 存储记忆3.3.4 选行为3.3.5学习3.3.6 看学习效果3.4 修改版的 DQN3.5 说明1. 要点Deep Q Network 的简称叫 DQN, 是将 Q lea...

2021-11-08 17:05:05 861 1

转载 莫烦强化学习视频笔记:第四节 4.1 Deep Q Network(DQN)

目录1. 强化学习与神经网络2. 神经网络的作用3. 神经网络参数更新4. DQN 两大利器这一节,我们会来说说强化学习中的另一种强大武器, Deep Q Network 简称为 DQN. Google Deep mind 团队就是靠着这 DQN 使计算机玩电动玩得比我们还厉害.注: 本文不会涉及数学推导. 大家可以在很多其他地方找到优秀的数学推导文章.1. 强化学习与神经网络之前我们所谈论到的强化学习方法都是比较传统的方式, 而如今, 随着机器学习在日常生活中的...

2021-11-04 15:50:15 284

转载 莫烦强化学习视频笔记:第三节 3.4 Sarsa-lambda

目录1. 要点2. 代码主结构3. 预设值4. 检测 state 是否存在5. 学习1. 要点Sarsa-lambda 是基于 Sarsa 方法的升级版, 他能更有效率地学习到怎么样获得好的 reward. 如果说 Sarsa 和 Qlearning 每次获取到 reward后, 只更新获取到 reward 的前一步. 那 Sarsa-lambda 就是更新获取到 reward 的前 lambda 步. lambda 是在 [0, 1] 之间取值,如果 lambd...

2021-11-04 15:21:49 237

转载 莫烦强化学习视频笔记:第三节 3.3 什么是Sarsa-lambda

Q-learning是off-policy的,就是可以看着别人玩,自己学着别人再玩;Sarsa是on-policy的算法,自身走到哪一步就学习哪一步,所以Sarsa只能从自身的经验学。下面是Sarsa的算法描述:接着上节内容, 我们来实现RL_brain的SarsaTable部分, 这也是 RL 的大脑部分, 负责决策和思考.代码主结构和之前定义 Qlearning 中的QLearningTable一样, 因为使用 tabular 方式的Sarsa和Qlearn...

2021-11-04 11:36:48 198

转载 莫烦强化学习视频笔记:第三节 3.2 Sarsa算法更新和思维决策(迷宫例子)

目录1. 要点2. 算法流程3. 算法代码部分3.1 迭代更新3.2 思维决策代码3.2.1 学习1. 要点这次我们用同样的迷宫例子来实现 RL 中另一种和 Qlearning 类似的算法, 叫做 Sarsa (state-action-reward-state-action). 我们从这一个简称可以了解到, Sarsa 的整个循环都将是在一个路径上, 也就是 on-policy, 下一个 state, 和下一个 action将会变成他真正采取的 action 和...

2021-11-04 10:38:21 351

转载 莫烦强化学习视频笔记:第三节 3.1 Sarsa

莫烦强化学习视频笔记:第二节 2.3 Q-Learning算法更新

2021-11-03 18:24:12 166

转载 莫烦强化学习视频笔记:第二节 2.3 Q-Learning算法更新和思维决策(迷宫例子)

莫烦强化学习视频笔记:第二节 2.2 Q-Learning简单例子

2021-11-02 17:01:24 524 1

转载 莫烦强化学习视频笔记:第二节 2.2 Q-Learning简单例子

1. 例子说明这一次我们会用 tabular Q-learning 的方法实现一个小例子, 例子的环境是一个一维世界, 在世界的右边有宝藏, 探索者只要得到宝藏尝到了甜头, 然后以后就记住了得到宝藏的方法, 这就是他用强化学习所学习到的行为.-o---T# T 就是宝藏的位置, o 是探索者的位置Q-learning 是一种记录行为值 (Q value) 的方法, 每种在一定状态的行为都会有一个值Q(s, a), 就是说 行为a在s状态的值是Q(s, a).s在上面的探索者...

2021-11-01 14:13:51 382

翻译 莫烦强化学习视频笔记:第二节 2.1 Q-Learning

1. Q-Learning简介行动准则:好的行为能够获得奖励,不好的行为会获得惩罚。假设你有两个选择:写作业和看电视。你选择连续看电视,被爸妈发现打屁股。你吸取了惨痛的教训,第二次持续认真的写作业。举例,之前没有写过作业,所以没有任何经验。第一个状态可选择写作业也可以选择看电视。假设第一个状态是写作业,写一会儿就去看电视了,这时候状态由写作业变为了看电视,直到父母回来发现我在看电视,然后把我痛打了一顿,我记住了这次教训。假设我们的行为准则已经学习好了。2. Q表Q-lear..

2021-11-01 13:26:15 211

转载 莫烦强化学习视频笔记:第一节 1.3 课程准备和要求

学习资料:OpenAI gym 官网 我的 Tensorflow 快速入门教程 我的 numpy pandas 快速入门教程 有趣的机器学习 播放列表教程必备模块:强化学习有一些现成的模块可以使用, 但是那些模块并不全面, 而且强化学习很依赖与你给予的学习环境. 对于不同学习环境的强化学习, 可能 RL 的代码就不同. 所以我们要抱着以不变应万变的心态, 用基础的模块, 从基础学起. 懂了原理, 再复杂的环境也不在话下.所以用到的模块和对应的教程:Numpy, Pandas(必学..

2021-10-29 16:58:27 81

翻译 莫烦强化学习视频笔记:第一节 1.2 强化学习方法汇总

首先是通过是否需要理解环境(环境给我们什么就是什么),能够分为无模型的强化学习方法和基于模型的强化学习方法。假设这里有一个机器人和一个星球X。无模型的强化学习方法(Model-Free):不需要理解环境,机器人对星球X一无所知,机器人也不知道星球X对于他们的行为对做出怎样的反馈。举个例子,机器人决定扔了一颗原子弹要真实的世界(星球X),结果把自己也炸死了。基于模型的强化学习方法(Model-Based) :机器人通过过往的经验先理解真实的世界是如何的,建立一个模型模拟真实世界的反馈(这里如何获得的模型..

2021-10-29 16:27:46 305

转载 CUDA版本不同:nvidia-smi和nvcc -V

1. 问题之前就发现,nvidia-smi 中的CUDA 版本与 nvcc不一致,nvidia-smi的结果显示CUDA版本是11.0,而从nvcc-V命令来看,却是CUDA 10.0。但是跑代码也没啥问题。2. 分析其实是因为CUDA 有两种API,分别是运行时 API 和 驱动API,即所谓的 Runtime API 与 Driver API。nvidia-smi 的结果除了有 GPU 驱动版本型号,还有 CUDA Driver API的型号,这里是 11.0。而nvcc..

2021-10-15 14:53:50 26201 5

原创 Docker系列五:创建镜像仓库账号和实践

这里以申请阿里云容器镜像服务(免费),并创建仓库为例,其他仓库如dockerhub、谷歌、亚马逊、腾讯等详见对应产品说明书。 打开阿里云容器服务地址为(https://cr.console.aliyun.com) 注册开通后第一步切换标签页到命名空间,创建地址唯一的命名空间根据大赛要求选择对应的地域,其他的按照自己需求选择或填写下一步,选择本地仓库,不建议其他选项,完成创建。点击管理,可查看详情。详情页如下,有基本的操作命令,仓库地址一般使用公网地址即可。按照页面的指令在本地

2021-10-15 11:51:03 375

转载 莫烦强化学习视频笔记:第一节 1.1 什么是强化学习

我们人类在进行学习时,总是从一开始什么都不知道,经过不断的尝试与纠错,最终获得正确解决问题方法的过程,这就可以看作一个强化学习过程。实际,强化学习的例子很多:Alpha-Go在围棋场上战胜人类的高手Alpha-Go 百度百科让计算机学习如何玩一些经典的游戏,如Atari游戏: 这些都是让计算机不断地尝试并学习行为准则,以赢得围棋棋局或者在打砖块游戏中得到高分。如何学习?想象此刻有一个虚拟的老师正在教计算机如何学习,但是他只能够为你的行为打分。那么如何通过这些分数来学习呢?很简单.

2021-10-15 10:46:34 107

转载 Docker系列四:创建基础镜像

1. 首先我们先拉取open list中的任意一个镜像,例如registry.cn-shanghai.aliyuncs.com/tcc-public/pytorch:latest-py3。【OPENLIST】Base Docker Image List-天池技术圈-天池技术讨论区 (aliyun.com)docker pull registry.cn-shanghai.aliyuncs.com/tcc-public/pytorch:latest-py32. 拉取成功后,我们将上面的镜像运行起来

2021-10-14 11:42:08 549

转载 Docker系列三:docker 基础命令学习

3.1 拉取镜像docker pull [选项] [docker镜像地址:标签]如:docker pull hello-world:latest3.2 运行镜像$ docker run hello-worldHello from Docker!This message shows that your installation appears to be working correctly.To generate this message, Docker took the

2021-10-13 15:23:50 118

原创 Docker系列二:docker安装

1. Linux$ sudo curl -sS https://get.docker.com/ | sh测试$ docker run hello-worldUnable to find image 'hello-world:latest' locallylatest: Pulling from library/hello-worldd1725b59e92d: Pull completeDigest: sha256:0add3ace90ecb4adbf7777e9aacf1835729

2021-10-12 15:04:07 252

转载 Docker系列一:前言

随着云原生、AI等技术的向前推进,容器技术逐渐成为每位算法同学的必备技能之一。 本文档主要面向算法开发同学,从0基础实现将代码打包docker镜像-调试-提交仓库-提交云服务训练模型/天池大赛提交/学校服务器训练等流程。也同样适用于初次接触docker的同学。 区别于开发同学,对于算法同学而言 仅需要掌握一部分基础命令达到自己的使用目的即可。因此此次简明教程面向算法同学和AI竞赛参赛者,帮助大家快速上手大赛提交和远程服务器训练。Docker的出现是一种历史趋势,因为微服务的出现,导致了使用的技术更加多元

2021-10-12 11:33:22 127

转载 MobileNet系列2:MobileNetV2论文解读

一. 创新点:1. Inverted residuals,通常的residuals block是先经过一个1*1的Conv layer,把feature map的通道数“压”下来,再经过3*3 Conv layer,最后经过一个1*1 的Conv layer,将feature map 通道数再“扩张”回去。即先“压缩”,最后“扩张”回去。而 inverted residuals就是 先“扩张”,最后“压缩”。为什么这么做呢?请往下看。2.Linear bottlenecks,为了避免Relu对特征

2021-09-28 10:04:04 1341

转载 MobileNet系列1:MobileNetV1论文解读

一.引言卷积神经网络(CNN)已经普遍应用在计算机视觉领域,并且已经取得了不错的效果。图1为近几年来CNN在ImageNet竞赛的表现,可以看到为了追求分类准确度,模型深度越来越深,模型复杂度也越来越高,如深度残差网络(ResNet)其层数已经多达152层。图1 CNN在ImageNet上的表现(来源:CVPR2017)然而,在某些真实的应用场景如移动或者嵌入式设备,如此大而复杂的模型是难以被应用的。首先是模型过于庞大,面临着内存不足的问题,其次这些场景要求低延迟,或者说响应速度要快,想象一.

2021-09-27 14:44:44 855

转载 数据增强mixup技术

目录一. mixup1. mixup方法2. mixup的讨论2.1 mixup效果如何2.2 为什么使用Beta分布2.3 参数有何影响,如何选择2.4 是否可以使用多个样本混合2.5 为什么要使用凸组合二. mixup的改进1.多种改进方法简介1.1 cutMix1.2 manifold mixup1.3 patchUp1.4 puzzleMix1.5 saliency Mix1.6 fMix1.7 co-Mix2.改进方法对比.

2021-09-23 15:41:33 24197 6

转载 TensorFlow之Estimator(三)详解

目录1.Estimator初识1.1 框架结构1.2 Estimator使用步骤1.2.1 下面通过伪代码的形式介绍如何使用Estimator:2.深入理解Estimator2.1从源代码来理解Estimator2.2构建model_fn2.3Config2.4什么是tf.estimator.Estimator2.4.1 传入参数2.4.2 不同模式需要传入不同参数1.Estimator初识1.1 框架结构在介绍Estimator...

2021-06-28 13:54:41 885

原创 Tensorflow中的函数

1.tf.contrib.data.map_and_batchtf.contrib.data.map_and_batch( map_func, batch_size, num_parallel_batches=None, drop_remainder=False, num_parallel_calls=None)复合实现map和batch。map_func横跨dataset的batch_size个连续元素,然后将它们组合成一个batch。在功能上,...

2021-06-23 15:37:30 1023

转载 BERT原理详细介绍

cased区分大小写,不需要lower-caseuncased不区分大小写(这句话是错的,所谓不区分大小写实际上是不能区分大小写,因为词表只有小写,这就是我为什么那么久还搞混的原因…),需要lower-case所以总结一句话:cased **能** 区分,uncased **不能** 区分 (能区分的自然不用事先lower)...

2021-06-11 14:30:22 8445

转载 Tensorflow之Estimator(一)Bert中

最近在看Bert的源码,作者是使用Estimator来实现的数据输入,训练,预测等功能。所以,对Tensorflow中Estimator的使用做简单的总结。主要是input_fn和model_fn的使用。

2021-06-09 16:26:50 862

转载 Tensorflow之Estimator(二)实践

1. 前言前面博文介绍了Tensorflow的一大块,数据处理,今天介绍Tensorflow的高级API,模型的建立和简化过程。2. Estimator优势本文档介绍了Estimator一种可极大地简化机器学习编程的高阶TensorFlow API。用了Estimator你会得到数不清的好处。您可以在本地主机上或分布式多服务器环境中运行基于 Estimator 的模型,而无需更改模型。此外,您可以在CPU、GPU或TPU上运行基于Estimator 的模型,而无需重新编码模型。 使用dat

2021-06-09 16:06:28 431

原创 Matching Networks for One Shot Learning代码思路解读

目录1.代码中所有Classes和类之间的调用关系2. 代码思路解析2.1 代码的入口2.2 数据读取2.2.1 读取train,evaluation和test图片至变量data中。2.2.2 设计one shot learning的学习过程2.2.3 真实数据的one shot learning过程3. 代码思路的图形表示1.代码中所有Classes和类之间的调用关系如下:表1 代码中所有class和调用关系 类 调用类 再调用类 所在文..

2021-04-28 16:38:47 350

原创 Windows系统上安装和配置cuda,cudnn,tensorflow-肯定成功

所有版本都是相同步骤。目录1. 查看windows系统CUDA驱动版本1.1 在搜索框中搜索control panel1.2 查看NVIDIA驱动版本号1.3 查看CUDA驱动版本号2. 安装CUDA工具包2.1 下载cuda工具包2.2 安装CUDA工具包2.2.1 点击下载下来的安装包。2.2.2 选择临时解压路径3 查看cuda,cudnn和tensorflow的对应关系4. 安装cudnn4.1 下载cudnn4.2 复制cudnn文件4.

2021-04-26 19:16:09 241

OpenVINO安装包

Openvino 2021版本

2021-01-17

北京大学 编译原理 考研试题

北京大学 编译原理 考研真题 对于考编译原理的同学非常有用!!

2010-02-05

编译原理清华大学版习题答案2

编译原理清华大学出版社全部习题答案 权威版本

2010-01-26

编译原理清华大学版习题答案1

编译原理清华大学出版社所有习题答案1 权威版本

2010-01-26

软考大纲 程序员考试 软件设计师考试 数据库系统工程师考试 网络工程师考试 网络管理员级考试 系统分析师考试 系统架构设计师考试 信息系统项目管理师考试

程序员考试 软件设计师考试 数据库系统工程师考试 网络工程师考试 系统分析师考试 系统架构设计师考试 信息系统项目管理师考试

2010-01-13

UML课程设计 用例图、顺序图等的画法,及案例

UML 介绍UML建模,用例图、顺序图等的画法,及案例。

2010-01-13

UML建模图,用例图 活动图 部署图...

用于UML建模的各种图,例如用例图 活动图 部署图。

2010-01-13

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除