expectmorata-CSDN博客

1. Introductiontowr是非常优美的足式机器人规划代码，通过阅读towr重要的几个迭代版本的代码深入了解。2 v0.1第一代的版本，foot的位置是提前给定的，只对COG的trajectory进行优化。2.1 cost公式仅仅只考虑加速度，∫0Tx¨2(t)dt+v=qTGq+v\int_0^T \ddot{x}^2(t)dt+v=q^TGq+v∫0Tx¨2(t)dt+v=qTGq+v其中，q=[abcd]Tq = \begin{bmatrix}a &

2023-11-10 10:46:04 129

原创 leetcode算法 -- 数组

常见的数组算法有双指针，滑动窗口，二分查找和分冶。

2023-06-18 23:40:41 436

原创 David Silver Lecture 10: Classic Games

Minimax搜索是在决策理论和游戏理论中用于决定最优策略的一种方法，特别适用于对抗性的环境（例如，国际象棋或者井字游戏）。基本思想是最大化我们的最小可能回报：最大化在对手做出最佳对我们不利决策的情况下我们可以获得的收益。Minimax搜索的核心是深度优先遍历的方式去查看所有可能的游戏结果，然后从这些结果中回溯，对每个节点做一个决策：如果节点是我们的回合，我们会选择最大的值（因为我们希望最大化我们的收益）；

2023-05-20 17:56:54 742

原创 David Silver Lecture 9:Exploration and Exploitation

这个例子中的 values 变量代表的是对每个臂（行动）的预期奖励（expected reward）的估计，也就是强化学习中的动作值函数（action value function），或称为 Q-function。这个函数的作用是预测在给定状态下采取特定动作所能获得的预期奖励。这个公式的作用是根据我们新的观测来更新我们对预期奖励的估计。reward - self.values[chosen_arm] 是观察到的奖励与当前估计的差异，称为预期奖励的误差（reward error）。然后我们将这个误差除以选择

2023-05-20 16:28:01 699

原创 David Silver Lecture 8: Integrating Learning and Planning

model主要是指，state transitions和相应的reward。

2023-05-18 07:53:38 342

原创 David Silver Lecture 7: Policy Gradient

基于值的强化学习在基于值的 RL 中，目标是找到一个最优的值函数，通常是 Q 函数或 V 函数。这些函数为给定的状态或状态-动作对分配一个值，表示从该状态开始或在该状态下执行特定动作的预期回报。通过这种方式，智能体可以选择那些具有最高值的动作。Q-Learning 和 Deep Q Network (DQN) 就是基于值的 RL 的例子。这些方法都试图优化 Q 函数，从而间接地优化策略。基于策略的强化学习在基于策略的 RL 中，目标是直接找到最优策略，无需通过值函数。

2023-05-16 16:28:29 450

原创 David Silver Lecture 6: Value function approximation

pipeline大致讲完了，开始到数值计算的部分。

2023-05-10 22:02:15 432

原创 David Silver Lecture 5: Model-Free Control

上一章是对一个unknown MDP进行value function的预测，相当于policy evaluation。这一章是对unknown MDP找到一个最优的policy， optimise value function.

2023-05-09 21:52:23 576

原创 David Silver Lecture 4: Model-Free Prediction

任务：第三章使用动态规划方法，解决known的MDP问题，这章通过model free prediction对一个unknown的MDP估计他的value function。下一章通过Model free control的方法针对一个unknown的MDP optimise value function。

2023-05-05 20:41:14 607

原创 David Silver Lecture 3: planning by dynamic programming

定义：核心思想：将复杂问题拆解成简单子问题。

2023-05-04 22:04:46 692

原创 David Silver Reinforcement Learning -- Markov process

David silver RL course lecture 2.

2023-04-26 11:06:33 457

原创 Robot dynamics lecture 3

I’ve been working with inertial measurement units lately, and I’ve come to realize that there’s a surprising amount of mathematics involved in processing the raw data from the sensors. The story begins with me trying to integrate a three-dimensional angula

2022-05-19 19:49:30 269

原创 Underactuated Robotics lecture 4 笔记 --- Dynamic programming

7 Introductionunderactuated robotics的第4，5，6章节是足式机器人建模和如何处理模型不确定性，因为对足式机器人的接触很少，先将这三个章节跳过去。先继续关注控制，规划和模型辨识。7.1 Formulating control design as an optimization最优控制是非常通用的框架，适用于各种机器人系统，通过构建goal 和constraints, 描述非常复杂的目标行为。最基础的想法是：控制的goal 是long-term scalar cos

2021-12-23 23:32:03 658

原创 Underactuated Robotics lecture 3 笔记 ---Acrobots, cart-poles and quadrotors

3. Introduction对于低维度的欠驱动系统已经取得了很多的进展，这个部分从低维度开始，逐渐介绍这些主流算法。3.1 The acrobotacrobot 机器人，只有elbow关节是有电机的，在shoulder部分是没有电机的，和体操中的单杠类似。它的典型任务是摆动到最高点并且保持平衡。3.1.1 Equations of motion...

2021-11-29 20:53:27 871

原创 Underactuated Robotics lecture 2 笔记 --- The simple pendulum

1. Introduction大部分的刚体机器人可以看成是连杆耦合的，倒立摆是最基本的结构，研究倒立摆有助于理解后面的章节。刚体的运动方程，一般通过拉格朗日方法获取更为方便。ml2θ¨(t)+mglsinθ(t)=Qml^2\ddot{\theta}(t)+mglsin\theta(t)=Qml2θ¨(t)+mglsinθ(t)=QQ可以看成是广义力，控制输入u+摩擦力产生的转矩。Q=−bθ˙(t)+u(t)Q = -b\dot{\theta}(t)+u(t)Q=−bθ˙(t)+u(t)2.2

2021-11-26 19:45:03 473

原创 underactuated robotics lecture 1 笔记 --- Introduction

1. Introduction最近因为目前的项目中，可能会用到一些基于动力学的planning 和control的算法，看了一下MIT欠驱动机器人的课程，通过记笔记的方式帮助自己查缺补漏。笔记基本上按照讲课的顺序进行梳理，穿插一些在matlab上实现的结果和个人的理解。2 Motivation2.1.1 Honda ASIMO vs passive dynamic walkersASIMO机器人的几大问题：1）动作表现的想不了解自己的动力学；2）使用高增益去follow desire traje

2021-11-26 13:56:00 334

原创 simscape 液压系统笔记

1. Introduction先关注simscape中提供的几个典型的液压系统，再进行总结梳理。2. 典型液压系统2.1 简易的开关阀开环阀放在油路的入口或者出口都可以，求解器f(x)也同样的，放在油路的输入或者输出也都可以。2.2 变量泵直接控制该模型由关节驱动器、液压转换接口和驱动自由度组成，流量由变量泵控制器。这个系统是matlab 用于挖掘机系统仿真的液压模型，充分考虑了挖掘机的负流量液压系统特性。整个系统液压执行器变量泵的压强由控制器控制，产生恒定速度的流体，驱动关节运

2021-09-22 11:11:12 3709 7

原创 Advanced PID Control chapter 1 -- Introductiton

1.Introduction最近在梳理控制系统知识的时候发现一本经典PID教程[1], 《Advanced PID Control》。将教材里的内容梳理一遍，看看能不能有所收获吧。作者强调这本书的主要目标通过向读者提供技术背景，帮助大家更好的理解PID，进而理解其他更复杂控制器在现代工业中的使用和拓展。1.1. 反馈系统系统中存在外部扰动、模型时变、跟踪指标，这些需要借助反馈控制实现。1.2 PID组成P={Ke(t)当前的误差Ki∫0te(t)dt过去的累计误差Kdde(t)dt线性插值预测未

2021-09-12 16:58:20 676 1

原创 ipopt和ifopt笔记

1 Introduction先看IPOPT的官方说明[1]Ipopt (Interior Point Optimizer, pronounced “Eye-Pea-Opt”) is an open source software package for large-scale nonlinear optimization. It can be used to solve general nonlinear programming problems of the form2 Installatio

2021-06-22 14:29:16 1354 1

原创 matlab optimization toolbox 笔记

1 Introductionmatlab optimmization 工具箱功能十分强大，这一章节梳理problem based optimization 问题。Optimization Toolbox™ provides functions for finding parameters that minimize or maximize objectives while satisfying constraints. The toolbox includes solvers for linear p

2021-06-19 14:06:58 5006

原创 ubuntu 18.04 安装LabVIEW2018 vipm ros-for-labview

1 IntroductionLabVIEW是测控的一个很好的工具，之前都是在windows 上使用LabVIEW。但是现在开发迁移到了ubuntu，尝试在ubuntu 上搭建LabVIEW开发环境。2 软件下载和安装LabVIEW社区版本，如LabVIEW 2020 sp1是支持Linux版本的。LabVIEW的安装按照[1]的教程来的。2.1 安装LabVIEWsudo apt-get install alien #在桌面右击打开终端输入,静静等待安装成功#删除剩下文件中带有 i386的文件

2021-06-02 15:32:23 3348 4

原创西门子PLC s7-1200学习之路

1 Introduction最近因为一个项目需要使用西门子PLC，买了一个入门级的PLC s7-1200，并完成了一个PLC和PC通过TCP进行通信的小程序，为了防止活干完了，内容就全忘了，所以用一个笔记进行梳理和总结。入门一种语言，需要回答新手的几个问题，这个笔记按照回答的方式梳理。2 问题2.1 PLC是什么，什么时候用，要怎么选？根据[1]，PLC可以替代继电器功能并完成复杂的控制功能。个人感觉功能上来看，PLC、DSP、单片机和FPGA之间的界限越来越小，只是各有侧重。PLC因为基于梯形图

2021-05-26 10:19:27 15291 6

空空如也

空空如也