自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(22)
  • 问答 (1)
  • 收藏
  • 关注

原创 DataWhale 深度强化学习课程(六 策略梯度和Actor-Critic算法)

轨迹是由状态和动作组合而成序列,实际上一方面环境的初始状态是随机的,另一方面智能体每次采取的动作是随机的,从而导致每条轨迹的长度都可能不一样,即我们可以不必采样所有的轨迹,而是采样一部分且数量足够多的轨迹,然后利用这些轨迹的平均值来近似求解目标函数的梯度。但Critic即原来的值函数部分就不需要采样而只负责估计值函数了,并且由于它估计的值函数指的是策略函数的值,相当于带来了一个更稳定的估计,来指导Actor的更新,反而能缓解策略梯度估计带来的方差。对于连续动作空间,通常策略对应的动作可以从高斯分布。

2023-11-28 00:52:37 573

原创 linux 环境下 python torch 1.11.0安装

使用conda默认源。

2023-11-26 12:29:50 156

原创 重要性采样

参考大佬的,留个坑复习一下

2023-11-24 21:16:51 66

原创 DataWhale 深度强化学习课程(五 DQN算法)

算法的伪代码,其中交互采样的目的就是与环境交互并产生样本,模型更新则是利用得到的样本来更新相关的网络参数,由于此处用的是神经网络,因此会多一个计算损失函数并进行反向传播的步骤,即梯度下降,需要定义当前网络,目标网络和经验回放等元素,这些都可以看作算法的一个模块,分别用一个python类来定义。神经网络也有缺点,虽然它的输入可以是连续的,但是输出只能是离散的,即只能适用于离散的动作空间,如果要处理连续的动作空间,就需要用到策略梯度的方法了,这个问题我们在后面会详细讲解。行为策略是探索环境的策略,一般用。

2023-11-24 21:07:10 99

原创 DataWhale 深度强化学习课程(四 深度学习基础)

2、Adam 是一种自适应的优化算法,它不仅仅考虑了当前的梯度,还考虑了之前的梯度的平方,这样可以更加准确地估计梯度的方向,从而加快梯度下降的速度,也是目前最流行的优化器之一。注意在做强化学习应用或研究的时候,我们并不需要太纠结于优化器的选择,因为这些优化器的效果并没有太大的差别,而且我们也不需要去了解它们的具体原理,只需要知道它们的大致作用就可以了。动量法的基本思想是在梯度下降的过程中,不仅仅考虑当前的梯度,还要考虑之前的梯度,这样可以加快梯度下降的速度,同时也可以减少梯度下降过程中的震荡。

2023-11-19 14:32:44 25

原创 DataWhale 深度强化学习课程(三 表格型方法(基于价值的方法求解强化学习问题))

我们处在未知的环境里,也就是这一系列的决策的概率函数和奖励函数是未知的,这就是有模型与免模型的最大的区别。在强化学习里面,我们可以每走一步更新一次 Q 表格,用下一个状态的 Q 值来更新当前状态的 Q 值,这种单步更新的方法被称为时序差分方法。时序差分是介于蒙特卡洛和动态规划之间的方法,它是免模型的,不需要马尔可夫决策过程的转移矩阵和奖励函数。也有问题考虑太远预期并不好,比如股票,我们关注的是累积的股票奖励,可是如果10年之后股票才有一次大涨大跌,我们肯定不会把10年后的奖励也作为当前动作的考虑因素。

2023-11-18 18:54:54 82

原创 DataWhale 深度强化学习课程(二 MDP过程)

多次采样(一种方法MC Monte Carlo采样)后得到的回报的均值为价值,即回报的期望,消除回报的不确定性,即每个episode得到回报不一致。之后后继的状态的每一步都按照最优的策略去做,最后的结果就是最优的。在强化学习中,智能体与环境就是这样进行交互的,这个交互过程可以通过马尔可夫决策过程来表示,马尔可夫决策过程是强化学习的基本框架。假设概率函数是平稳的(stationary)(策略概率不会随时间变化),不同时间点,我们采取的动作其实都是在对策略函数进行采样。,在优化过程中得到一个最新的策略。

2023-11-13 22:37:13 53

原创 DataWhale 深度强化学习课程(一 概念理解)

若仅为获知每个摇臂的期望奖励,则可采用仅探索(exploration-only)法:将所有的尝试机会平均分配给每个摇臂(即轮流按下每个摇臂),最后以每个摇臂各自的平均吐币概率作为其奖励期望的近似估计。若仅为执行奖励最大的动作,则可采用仅利用(exploitation-only)法:按下目前最优的(即到目前为止平均奖励最大的)摇臂,若有多个摇臂同为最优,则从中随机选取一个。采取基于策略的强化学习(policy-based RL)方法,当学习好了这个环境后,在每一个状态,我们都会得到一个最佳的动作。

2023-11-11 23:10:39 32

原创 RTX3090+cuda117 torch安装

pytorch安装

2023-11-06 22:30:40 91

原创 协同控制中的共识算法概述

学习多智能体协同控制中的共识算法中,欢迎交流。

2022-04-20 15:19:23 10750 2

原创 张量及张量积的概念

张量及张量积的概念标签(空格分隔): 数学基础知识今日阅读论文《Observer-Based Event-Triggered Consensus Control of Two-Layer Networks with Switching Topologies》,见运算符(⊗\otimes⊗),只觉眼熟,一知半解,遂查阅。###协变与反变从线性空间 V\mathbf{V}V 和其对偶空间 V∗\mathbf{V}^{*}V∗谈起, 首先介绍张量理论中协变与反变理论。定义线性空间上的线性函数。设 V

2022-03-01 10:50:23 2673

原创 对抗环境下的多无人机编队方法和队形变换研究

对抗环境下的多无人机编队方法和队形变换研究肖雁冰 张迎周(导)南京邮电大学标签(空格分隔): 论文阅读摘要  在无人机功能有限的今天,面对日趋复杂的作战任务、无法预测的作战环境,单一无人机所拥有的性能逐渐无法满足作战要求,无人机更多地以多机协同作战的方式执行综合性任务。多无人机编队是多无人机系统的重要组成部分,是任务分配、路径规划等工作的前提,但在目前高对抗的动态环境中也受到了巨大的挑战,主要包括:(1)以现有编队方法构建的多无人机编队在队形稳定性和队形变换自主性两方面无法同时得到满足。(2

2022-02-07 11:06:32 8987

原创 无人机集群通信网络拓扑重构及关键技术研究∗

无人机集群网路拓扑重构关键技术研究

2022-01-26 22:03:45 6382

原创 机器学习实战之Logistics回归实现

from math import *import numpy as np#%%"回归梯度上升优化算法"def loadDataSet(): # 文件读取 dataMat = [] labelMat = [] fr = open(r'C:\Users\xuning\PycharmProjects\machine learning\Logistics Regression\testSet.txt','r') for line in fr.readlines():

2020-07-17 09:24:42 131

原创 机器学习实战之贝叶斯分类器实现

"""词表到向量的转换函数"""def loadDataSet(): postingList = [['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'], ['maybe', 'not', 'take', 'him', 'to', 'dog', 'park', 'stupid'], ['my', 'dalmation', 'is', 'so', 'cu

2020-07-15 10:36:37 271

原创 机器学习实战之决策树实现

1、算法原理及概念公式2、决策树的构造2.1、计算数据集的香农熵from math import logdef calcShannonEnt(dataSet): # 计算数据集的香农熵 numEntries = len(dataSet) # 数据集中实例的总数 labelCounts = {} # 字典键值记录当前类别出现的次数 for featVec in dataSet: currentLabel = featVec[-1] # 当前标签为字典

2020-07-11 22:43:00 136

原创 机器学习实战之KNN实现

最近入坑机器学习。买了本《机器学习实战》配合李航老师的《统计学习方法》方便尽快入门。方便记录,从博客开始,从KNN开始,下面先介绍一下KNN的原理以及思路,并给出实战中的代码搭配食用。1、算法原理k-近邻法是一种基本分类和回归方法,不具有显式的学习过程。k-近邻法实际上利用训练数据集对特征向量空间进行划分,并作为其分类”模型“。有三个要点:k值的选择,距离度量及分类决策规则。k-近邻算法的效率低,能耗高,kd树方法可以用来减少计算次数。算法步骤:输入: 训练数据集 T={(x1,y1),(x2,

2020-07-06 23:02:48 209

原创 t-sne根据数据样本标签画三维图

在做数据训练分析时,用t-sne来做数据降维及可视化,当数据样本具有标签时,如何画图?1、将读取的数据的形式转换为数组2、根据t-sne对数据进行降维,根据需求确定维数。3、三维数据,将降维后的数据连同标签转换到dataframe中4、依据dataframe,画出三维散点图样本有八类,根据每类的颜色不同确定数据的可视化df = pd.DataFrame(t_sne.embedding_...

2020-04-13 23:59:03 1965 3

原创 梯度下降法总结

共轭梯度法寻找一组正交基代表梯度下降方向,根据矩阵的维数来决定基的个数

2020-04-01 21:45:29 455

原创 'numpy.float64' object is not callable

踩坑1:编程中做乘法运算少了个*,出现此错误。

2020-03-20 23:51:27 636

原创 关于标量、向量、矩阵求导的一些

1、向量函数的定义向量函数f(x),f(x),f(x), xxx是一个n维向量,定义f′(x)=∂f∂x=∇f=[∂f∂x1(x)⋮∂f∂xn(x)]=Df(x)⊤f'(x)=\frac{\partial f}{\partial x}=\nabla f=\left[\begin{array}{c}\frac{\partial f}{\partial x_{1}}(\boldsymbol{x}) ...

2020-03-20 18:22:02 272

转载 Latex图片排版

latex中插入图片latex排版之插入图片:在排版图片之前,个人认为不管用不用到,引入下面两个包:\usepackage{graphicx}\usepackage{subfigure}(1)插入单个图片,图片格式为png\begin{figure}[h]\centering\includegraphics[width=4cm,height=5cm]{3}\caption{这是一...

2020-03-18 18:55:09 1044

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除