GrandpaDZB-CSDN博客

原创 [深度强化学习] [4] Twin Delayed DDPG(TD3)

文章目录1 相比与DDPG，TD3的改进1.1 Trick 1 Clipped Double Q learning & Target Policy Smoothing1.2 Trick 2 "Delayed" Policy Update2 代码部分1 相比与DDPG，TD3的改进这个名字挺逗的，因为名字里有一个T带三个D所以叫TD3，类似的命名很多，比如A2C和A3C就是名字里带了2个和3个A和一个C。DDPG运行的时候感觉不是很稳，抖动相对挺明显的，一种原因就是Q值估计过高，导致策略网络局部

2022-01-23 16:18:10 1174

原创 [深度强化学习] [3] Deep Deterministic Policy Gradient

文章目录1 Q-Learning 风格以及基于Bellman function的目标设计1 Q-Learning 风格以及基于Bellman function的目标设计之前的两篇博客，VPG和TRPO&PPO都是actor-critic风格算法设计，这一篇的ddpg可以说是用于连续动作空间的dqn，通过学习Q function进一步确定策略，由于对Q function的学习是基于贝尔曼最优，所以学习样本不需要依赖于特定的采样，因此只需要保存历史数据，然后回访经验池，也就是说ddpg是一个off-

2022-01-22 21:42:24 2375

原创 [深度强化学习] [2] Trust Region Policy Optimization & Proximal Policy Optimization

文章目录1 Vanilla Policy Gradient的缺陷与新的优化目标2 MM优化(Minorize-Maximization)与下界函数3 求解优化4 代码部分4.1 处理网络参数4.2 实用算法4.3 TRPO算法部分1 Vanilla Policy Gradient的缺陷与新的优化目标VPG优化策略的方法就是通过Policy Gradient进行梯度上升。梯度上升是对函数点的一阶近似，根据步长更新，一阶近似也就是超平面拟合局部，步长稍微大一点误差还是挺大的，容易优化出错。强化学习对策略优

2022-01-21 18:36:36 803

原创 [深度强化学习] [1] Vanilla Policy Gradient

文章目录1 目标函数与前置知识2 优势函数(Advantage function)3 折扣系数γ\gammaγ4 GAE(Generalized Advantage function Estimation)5 Vanilla Policy Gradient6 代码部分6.1 神经网络搭建6.1.1 策略网络6.1.2 价值网络6.1.3 Actor-Critic6.2 GAE Buffer6.3 VPG算法部分7 跑一下代码测试一下1 目标函数与前置知识Policy Gradient方法体现在用神经网络

2022-01-21 00:08:19 656

原创 [深度学习] TensorFlow2.0简单方便易用使用笔记

文章目录1 搭建网络结构1.1 Sequential的方式搭建层以及可用的层类型1.2 选择合适的激活函数1.3 正则化约束1.4 自定义层与网络2 确定损失函数2.1 TensorFlow中可调用的损失函数2.1.1 MSE 均方误差2.1.2 binary_crossentropy 二分类交叉熵2.1.3 categorical_crossentropy2.1.4 sparse_categorical_crossentropy2.1.5 kl_divergence2.2 自定义损失函数3 确定优化器

2021-12-13 15:58:09 1118 1

原创线性卷积，圆周卷积的矩阵表达

文章目录1 内容简介2 符号说明3 线性卷积及其矩阵表达4 圆周卷积及其矩阵表达1 内容简介介绍了两个有限长离散序列的线性卷积与圆周卷积的表达式，与其矩阵表达，这会有利于运算。这部分内容源自于信号课程，由于老师的课件过于省略，讲解也有点抽象，还是靠自己动手算一算来得好。2 符号说明令x[n]，h[n]分别为长度M，N的有限长离散序列。为了便于矩阵表达，也用xxx与hhh表达序列的对应列向量，为了便于表述，下面不区分“序列”与“向量”。定义 hN0(k)h^0_N(k)hN0(k)为序列h补充

2021-10-18 12:04:04 1593

原创关于CFT, FT, DTFT, DFS, DFT 的推导与解释

目录1 内容简介2 Fourier Series 傅里叶级数3 CFT 连续时间傅里叶变换4 DTFT 离散时间傅里叶变换5 DFS 傅里叶级数6 DFT 离散傅里叶变换7 矩阵表达更方便的用处1 内容简介写这个内容呢完全是因为要复习一下信号与系统这门课程，一下子给我蹦出了CFT, FT, DTFT, DFS, DFT一堆乱七八糟的玩意，书上写的详尽，但杂乱，网络上的资料粗略草率，但是整理得很好。因此我希望从更好的数学角度去总结所有的变换和级数的由来。因此本篇并不是从概念理解讲起，不会直观地解释他们的

2021-10-13 17:40:50 2343

原创 [论文学习] Bearing Rigidity and Almost Global Bearing-Only Formation Stabilization[1]

目录1 论文概述与定义2 Bearing Rigidity In Arbitrary Dimensions2.1 基本定义2.2 用于平行检验的投影映射2.3 Bearing rigidity theory的概念定义2.4 Infinitesimal bearing rigidity2.5 一些引理与证明1 论文概述与定义首先，将本文的内容整理到CSDN上是因为，这篇文章的数学推导太帅了，概念多，以至于我边看边打草稿推导很容易思路混乱，只好逐步梳理。本文内容提出了基于纯方位信息的编队控制。使用群体间的

2021-10-11 17:40:59 1436 3

原创基本模型预测控制（MPC）原理

文章目录1 模型预测控制的基本思想2 简单离散情况下的MPC2.1 状态空间以及连续到离散的转化2.2 算法原理3 约束条件的转化3.1 输入向量变化量的约束3.2 输入向量的约束3.3 输出向量的约束4 约束优化1 模型预测控制的基本思想假设拥有一个精度较高的可以描述系统的状态空间方程，显然我可以根据当前的状态的未来的输入预测出未来的状态。由此可以定义包含两项的损失函数一项是预测的未来状态和期望的未来状态的距离另一项是输入变化量的模长显然，我们希望优化关于未来输入的损失函数，使得这两项最小，

2021-07-20 17:04:46 14579 1

原创 [深度学习][5] 前馈神经网络与反向传播以及TensorFlow2.0实现

文章目录1 前馈神经网络及其产生动机1.1 问题的产生1.2 前馈神经网络的模型描述2 损失函数的选择2.1 均方误差（MSE）2.2 交叉熵（cross entropy）3 输出层的选择3.1 Sigmoid输出单元3.2 Softmax输出单元4 激活函数的选择4.1 整流线性单元及其拓展4.2 Sigmoid函数4.3 双曲正切tanh函数4.4 其他的激活函数5 随机梯度下降与反向传播（BackPropagation）6 TensorFlow2.0的实现1 前馈神经网络及其产生动机1.1 问题的

2021-07-10 22:57:53 638 4

原创 [论文学习] 带有时滞和不规则拓扑的多智能体一致性稳定性分析

文章目录1 论文的贡献，解决的问题2 使用图论描述不规则拓扑的多智能体3 系统的动力学建模[论文学习笔记]Cepeda-Gomez R , Olgac N . Exhaustive stability analysis in a consensus system with time delay and irregular topologies[C]// Proceedings of the 2011 American Control Conference. IEEE, 2011.1 论文的贡献，解决的

2021-05-27 19:51:38 1247 3

原创 [论文学习] 改进的时滞系统稳定性分析CTCR方法

文章目录1 原方法的局限2 改进所使用的原理2.1 Routh表对于特征方程存在虚根的情况会表现出R1=0的特性2.2 利用Routh表的R2元素可以求解出对应的crossing frequency3 实例与代码文献学习笔记：Olgac N , Sipahi R . An Improved Procedure in Detecting the Stability Robustness of Systems With Uncertain Delay[J]. IEEE Transactions on Auto

2021-05-16 18:10:12 893

原创 [论文学习] 一种线性时不变时滞系统的稳定性分析方法(CTCR)

文献学习笔记： Olgac N , Sipahi R . An exact method for the stability analysis of time-delayed linear time-invariant (LTI) systems[J]. IEEE Transactions on Automatic Control, 2002, 47(5):793-797.1 研究的对象以及方法简述我们研究的对象是一个线性时不变的时滞系统，分析它在不同时滞情况下的稳定性：x˙=Ax+Bx(t−τ)(

2021-05-15 21:27:40 1616 1

原创 [Ubuntu] 无论如何都能学明白的Cmake入门

目录1 CMakeLists.txt 怎么写1.1 语句含义1.2 一些实例1.2.1 创建一个可执行文件1.2.2 引用.h文件1 CMakeLists.txt 怎么写1.1 语句含义cmake 是一个跨平台、开源的构建系统。它是一个集软件构建、测试、打包于一身的软件。它使用与平台和编译器独立的配置文件来对软件编译过程进行控制。CMakeLists.txt直接指定了程序的编译规则。因为仅仅只是作为一个入门学习。我们的目标是完成软件编译完成静态库/共享库的建立使用静态库/共享库首先我们

2021-05-14 19:42:32 531 1

原创 [3]数值计算与基于梯度的优化算法

文章目录1 数值计算1.1 上溢和下溢以及softmax函数1.2 病态条件2 基于梯度的优化方法2.1 基本概念2.2 梯度下降2.3 Jacobian和Hessian矩阵2.3.1 Hessian矩阵的性质2.3.2 步长优化2.3.3 牛顿法（Newton's Method）优化2.4 约束优化2.5 （实例）线性最小二乘1 数值计算1.1 上溢和下溢以及softmax函数计算机在存储连续数学信息的时候，只能通过有限位数来近似逼近我们期望的“无限长度”的数字。下溢指的是当数据过小导致计算机近似

2021-05-09 16:39:07 515

原创 [2]概率与信息论知识补充

目录1 散乱的知识点1.1 方差、协方差、协方差矩阵1.2 常用的概率分布1.2.1 Multivariate normal distribution1.2.2 Exponential distribution & Laplace distribution1.2.3 Empirical distribution1.3 常用函数1.3.1 logistic sigmoid1.3.2 softplus1.4 贝叶斯规则1.5 连续型变量的技术细节1.6 信息论基本概念1.7 结构化概率模型1.8 总结

2021-05-08 18:57:13 397

原创 [1]主成分分析及线性代数知识补充

1 线性代数知识补充1.1 范数范数是将向量映射成一个非负数的函数，即f:Rn⟼R+f:\mathbb{R}^n\longmapsto\mathbb{R}^+f:Rn⟼R+严格说，对于x,y∈Rn\textbf{x,y}\in\mathbb{R^n}x,y∈Rn应该满足性质：f(x)=0⇒x=0f(\textbf{x}) = 0 \Rightarrow \textbf{x} = 0f(x)=0⇒x=0f(x+y)≤f(x)+f(y)f(\textbf{x}+\textbf{y}) \le f(\

2021-05-07 21:57:52 311

原创 [Ubuntu] 使用terminator与zsh shell强化终端（顺便装个ROS)）

目录1. 安装ROS Melodic1.1 配置Ubuntu软件仓库1.2 设置sources.list1.3 设置keys1.4 安装ROS Melodic1.5 配置环境并安装一些依赖项ok 你已经安装好了kinetic和neotic版本安装流程大致类似，把上述命令中所有的melodic替换成kinetic或者neotic就好了2. 安装Terminator2.1 安装2.2 美化终端3. 安装zsh3.1 安装主题美化3.2 插件安装3.3 添加命令的short cut1. 安装ROS Melodi

2021-04-29 13:05:50 572 2

GrandpaDZB的博客