自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

weixin_43485943的博客

知识很重要,知识的联系更重要

  • 博客(71)
  • 收藏
  • 关注

原创 karpathy build make more --- 2

用多层神经网络实现更复杂一点名字预测器。

2024-04-19 10:23:28 770

原创 karpathy building make more --- 1

karpathy build make more

2024-04-14 15:53:56 605

原创 ilqr 算法说明

希望能用比较简单的方式将ilqr算法进行整理和总结。

2024-01-17 22:54:57 1220 1

原创 李沐机器学习系列5---循环神经网络

对于样本的分析,通过全连接层处理表格数据,通过卷积神经网络处理图像数据;第一种假设,所有数据都是独立同分布的RNN 处理序列信号序列数据的更多场景1)用户使用习惯具有时间的先后性2)外推法和内插法。

2024-01-05 11:46:45 1273

原创 李沐机器学习系列4---全连接层到卷积

从概率分布的角度来看卷积的定义,fτ是概率密度,gt−τ是在这个分布下的均值f∗gt∫−∞∞​fτgt−τdτ。

2024-01-04 14:48:04 947 1

原创 李沐机器学习系列3---深度学习计算

继承基础层,并实现前向传播。

2024-01-03 22:10:15 525

原创 李沐机器学习系列1--- 线性规划

sgd 和优化中的方法的区别,sgd利用部分样本,采用迭代的方式,进行优化;传统的优化方法,如qp或者sqp则对全部的样本的loss进行迭代,并且迭代过程中,会同时优化步长;return yreturn l一定要在参数更新这里将param.grad.zero_()

2024-01-03 21:41:09 1031

原创 李沐机器学习系列2--- mlp

LP中有一个很强的假设,输入和输出是线性关系,这一般是不符合事实的。通过几何的方式去对信息进行理解和压缩是比较高效的,MLP可以表示成下面的形式。

2024-01-03 21:40:43 1180 2

原创 towr code阅读

1. Introductiontowr是非常优美的足式机器人规划代码,通过阅读towr重要的几个迭代版本的代码深入了解。2 v0.1第一代的版本,foot的位置是提前给定的,只对COG的trajectory进行优化。2.1 cost公式仅仅只考虑加速度,∫0Tx¨2(t)dt+v=qTGq+v\int_0^T \ddot{x}^2(t)dt+v=q^TGq+v∫0T​x¨2(t)dt+v=qTGq+v其中,q=[abcd]Tq = \begin{bmatrix}a &

2023-11-10 10:46:04 129

原创 leetcode算法 -- 数组

常见的数组算法有双指针,滑动窗口,二分查找和分冶。

2023-06-18 23:40:41 436

原创 David Silver Lecture 10: Classic Games

Minimax搜索是在决策理论和游戏理论中用于决定最优策略的一种方法,特别适用于对抗性的环境(例如,国际象棋或者井字游戏)。基本思想是最大化我们的最小可能回报:最大化在对手做出最佳对我们不利决策的情况下我们可以获得的收益。Minimax搜索的核心是深度优先遍历的方式去查看所有可能的游戏结果,然后从这些结果中回溯,对每个节点做一个决策:如果节点是我们的回合,我们会选择最大的值(因为我们希望最大化我们的收益);

2023-05-20 17:56:54 742

原创 David Silver Lecture 9:Exploration and Exploitation

这个例子中的 values 变量代表的是对每个臂(行动)的预期奖励(expected reward)的估计,也就是强化学习中的动作值函数(action value function),或称为 Q-function。这个函数的作用是预测在给定状态下采取特定动作所能获得的预期奖励。这个公式的作用是根据我们新的观测来更新我们对预期奖励的估计。reward - self.values[chosen_arm] 是观察到的奖励与当前估计的差异,称为预期奖励的误差(reward error)。然后我们将这个误差除以选择

2023-05-20 16:28:01 699

原创 David Silver Lecture 8: Integrating Learning and Planning

model主要是指,state transitions和相应的reward。

2023-05-18 07:53:38 342

原创 David Silver Lecture 7: Policy Gradient

基于值的强化学习在基于值的 RL 中,目标是找到一个最优的值函数,通常是 Q 函数或 V 函数。这些函数为给定的状态或状态-动作对分配一个值,表示从该状态开始或在该状态下执行特定动作的预期回报。通过这种方式,智能体可以选择那些具有最高值的动作。Q-Learning 和 Deep Q Network (DQN) 就是基于值的 RL 的例子。这些方法都试图优化 Q 函数,从而间接地优化策略。基于策略的强化学习在基于策略的 RL 中,目标是直接找到最优策略,无需通过值函数。

2023-05-16 16:28:29 450

原创 David Silver Lecture 6: Value function approximation

pipeline大致讲完了,开始到数值计算的部分。

2023-05-10 22:02:15 432

原创 David Silver Lecture 5: Model-Free Control

上一章是对一个unknown MDP进行value function的预测,相当于policy evaluation。这一章是对unknown MDP找到一个最优的policy, optimise value function.

2023-05-09 21:52:23 576

原创 David Silver Lecture 4: Model-Free Prediction

任务:第三章使用动态规划方法,解决known的MDP问题,这章通过model free prediction对一个unknown的MDP估计他的value function。下一章通过Model free control的方法针对一个unknown的MDP optimise value function。

2023-05-05 20:41:14 607

原创 David Silver Lecture 3: planning by dynamic programming

定义:核心思想:将复杂问题拆解成简单子问题。

2023-05-04 22:04:46 692

原创 David Silver Reinforcement Learning -- Markov process

David silver RL course lecture 2.

2023-04-26 11:06:33 457

原创 Robot dynamics lecture 3

I’ve been working with inertial measurement units lately, and I’ve come to realize that there’s a surprising amount of mathematics involved in processing the raw data from the sensors. The story begins with me trying to integrate a three-dimensional angula

2022-05-19 19:49:30 269

原创 Underactuated Robotics lecture 4 笔记 --- Dynamic programming

7 Introductionunderactuated robotics的第4,5,6章节是足式机器人建模和如何处理模型不确定性,因为对足式机器人的接触很少,先将这三个章节跳过去。先继续关注控制,规划和模型辨识。7.1 Formulating control design as an optimization最优控制是非常通用的框架,适用于各种机器人系统,通过构建goal 和constraints, 描述非常复杂的目标行为。最基础的想法是:控制的goal 是long-term scalar cos

2021-12-23 23:32:03 658

原创 Underactuated Robotics lecture 3 笔记 ---Acrobots, cart-poles and quadrotors

3. Introduction对于低维度的欠驱动系统已经取得了很多的进展,这个部分从低维度开始,逐渐介绍这些主流算法。3.1 The acrobotacrobot 机器人,只有elbow关节是有电机的,在shoulder部分是没有电机的,和体操中的单杠类似。它的典型任务是摆动到最高点并且保持平衡。3.1.1 Equations of motion...

2021-11-29 20:53:27 871

原创 Underactuated Robotics lecture 2 笔记 --- The simple pendulum

1. Introduction大部分的刚体机器人可以看成是连杆耦合的,倒立摆是最基本的结构,研究倒立摆有助于理解后面的章节。刚体的运动方程,一般通过拉格朗日方法获取更为方便。ml2θ¨(t)+mglsinθ(t)=Qml^2\ddot{\theta}(t)+mglsin\theta(t)=Qml2θ¨(t)+mglsinθ(t)=QQ可以看成是广义力,控制输入u+摩擦力产生的转矩。Q=−bθ˙(t)+u(t)Q = -b\dot{\theta}(t)+u(t)Q=−bθ˙(t)+u(t)2.2

2021-11-26 19:45:03 473

原创 underactuated robotics lecture 1 笔记 --- Introduction

1. Introduction最近因为目前的项目中,可能会用到一些基于动力学的planning 和control的算法,看了一下MIT欠驱动机器人的课程,通过记笔记的方式帮助自己查缺补漏。笔记基本上按照讲课的顺序进行梳理,穿插一些在matlab上实现的结果和个人的理解。2 Motivation2.1.1 Honda ASIMO vs passive dynamic walkersASIMO机器人的几大问题:1)动作表现的想不了解自己的动力学;2)使用高增益去follow desire traje

2021-11-26 13:56:00 334

原创 simscape 液压系统笔记

1. Introduction先关注simscape中提供的几个典型的液压系统,再进行总结梳理。2. 典型液压系统2.1 简易的开关阀开环阀放在油路的入口或者出口都可以,求解器f(x)也同样的,放在油路的输入或者输出也都可以。2.2 变量泵直接控制该模型由关节驱动器、液压转换接口和驱动自由度组成,流量由变量泵控制器。这个系统是matlab 用于挖掘机系统仿真的液压模型,充分考虑了挖掘机的负流量液压系统特性。整个系统液压执行器变量泵的压强由控制器控制,产生恒定速度的流体,驱动关节运

2021-09-22 11:11:12 3709 7

原创 Advanced PID Control chapter 1 -- Introductiton

1.Introduction最近在梳理控制系统知识的时候发现一本经典PID教程[1], 《Advanced PID Control》。将教材里的内容梳理一遍,看看能不能有所收获吧。作者强调这本书的主要目标通过向读者提供技术背景,帮助大家更好的理解PID,进而理解其他更复杂控制器在现代工业中的使用和拓展。1.1. 反馈系统系统中存在外部扰动、模型时变、跟踪指标,这些需要借助反馈控制实现。1.2 PID组成P={Ke(t)当前的误差Ki∫0te(t)dt过去的累计误差Kdde(t)dt线性插值预测未

2021-09-12 16:58:20 676 1

原创 ipopt和ifopt笔记

1 Introduction先看IPOPT的官方说明[1]Ipopt (Interior Point Optimizer, pronounced “Eye-Pea-Opt”) is an open source software package for large-scale nonlinear optimization. It can be used to solve general nonlinear programming problems of the form2 Installatio

2021-06-22 14:29:16 1354 1

原创 matlab optimization toolbox 笔记

1 Introductionmatlab optimmization 工具箱功能十分强大,这一章节梳理problem based optimization 问题。Optimization Toolbox™ provides functions for finding parameters that minimize or maximize objectives while satisfying constraints. The toolbox includes solvers for linear p

2021-06-19 14:06:58 5006

原创 ubuntu 18.04 安装LabVIEW2018 vipm ros-for-labview

1 IntroductionLabVIEW是测控的一个很好的工具,之前都是在windows 上使用LabVIEW。但是现在开发迁移到了ubuntu,尝试在ubuntu 上搭建LabVIEW开发环境。2 软件下载和安装LabVIEW社区版本,如LabVIEW 2020 sp1是支持Linux版本的。LabVIEW的安装按照[1]的教程来的。2.1 安装LabVIEWsudo apt-get install alien #在桌面右击打开终端输入,静静等待安装成功#删除剩下文件中 带有 i386的文件

2021-06-02 15:32:23 3348 4

原创 西门子PLC s7-1200学习之路

1 Introduction最近因为一个项目需要使用西门子PLC,买了一个入门级的PLC s7-1200,并完成了一个PLC和PC通过TCP进行通信的小程序,为了防止活干完了,内容就全忘了,所以用一个笔记进行梳理和总结。入门一种语言,需要回答新手的几个问题,这个笔记按照回答的方式梳理。2 问题2.1 PLC是什么,什么时候用,要怎么选?根据[1],PLC可以替代继电器功能并完成复杂的控制功能。个人感觉功能上来看,PLC、DSP、单片机和FPGA之间的界限越来越小,只是各有侧重。PLC因为基于梯形图

2021-05-26 10:19:27 15291 6

原创 Convex optimization 4.2 ---Strong duality

1 Introduction在4.1节,我们回顾了对偶的原理、如何构建、作用,在4.2继续应用对偶条件,尤其是强对偶条件,帮助我们分析和解决优化问题。2 Certificate of suboptimality对于标准的优化问题:{minf0(x),x∈Rnsubfi(x)≤0,i=1,...mhi(x)=0,i=1,...,p\left \{\begin{aligned}& min \quad & f_0(x), x \in R^n \\& sub \quad &a

2021-05-07 17:49:47 235

原创 Convex optimization 4.1 --- Lagrange Dual Problem

1 Introduction对偶问题是凸优化的关键,原问题可能因为约束比较复杂,不容易求解,或者不满足凸优化条件,采用对偶处理后,是凹函数。问题是对偶处理的原理是什么?[1]References[1] https://www.zhihu.com/question/58584814/answer/1119054535...

2021-05-06 19:48:55 189

原创 Convex optimization 3.2 --- 凸优化问题 part2

7 GP(几何规划)7.1 概念和定义monomials使用log进行处理,并设xi=eyix_i=e^{y_i}xi​=eyi​

2021-05-04 07:37:00 436

原创 Convex optimization 3.1 --- 凸优化问题 part1

1 introduction在前面两个章节,回顾了凸集、凸函数、凸集和凸函数联系。从这章开始认识凸优化问题。2 凸优化问题2.1 优化问题的标准形式2.1.1 优化问题的最优解优化问题的最优解解集可能存在两种极端情况2.1.2 优化问题的解集可行解如果xix_ixi​满足fi(x)、hi(x)f_i(x)、h_i(x)fi​(x)、hi​(x),则称xix_ixi​是可行解。最优解如果xix_ixi​,使得f0(xi)=p∗f_0(x_i)=p*f0​(xi​)=p∗,则称x

2021-04-28 14:01:01 4656

原创 Convex optimization 2 --- convex function

1 Introduction在第一部分,学习了判断集合是否是凸集,这个部分开始学习函数是否是凸函数。2 凸函数2.1 凸函数定义以一维函数为例,下面这个图曲线上两点之间的线段始终在曲线函数的上方。2.2 常见一维凸函数一维凸函数一维凹函数2.3 常见高维凸函数高维凸函数,x∈Rnx\in R^nx∈Rn高维affine function仍可以用集合的角度理解,从高维集合投影到一维集合上。高维norms ∣∣x∣∣p||x||_p∣∣x∣∣p​是一个凸锥。高维凸函数,

2021-04-21 20:01:30 707

原创 Convex optimization 1 --- convex set

1 Introduction凸优化在工程领域发挥着重要作用,这个系列根据standford EE364a 的convex optimization 课程,进行梳理总结。2 优化问题2.1 常见的优化问题2.1.1 决策类的优化问题设定目标,考虑限制,给出决策。2.1.2 模型参数辨识选定模型,带入数据,计算系数。此时目标是降低模型的预测误差,参数必须在合理的区间,给出最小的参数。2.2 数学抽象构建工程的最优化问题,constraints一般比较容易构建,如何选定object 函数非

2021-04-11 18:03:55 356

原创 Robotic Manipulation 2 --- icp

1 Introduction机械臂需要和环境完成交互,需要有一定的感知能力,这个部分侧重,对物体的匹配。匹配点云和ground truth 的model,主要就是讲icp(Iterative Closest Point)。2 icp 算法2.1 ICP based on SVD在slam中有个问题,需要根据传感器(如激光雷达的点云)数据,和真实的模型,进行匹配,确定激光点云和模型的相对位置(R,T矩阵),对模型进行定位。问题描述红色的点是ground truth, 蓝色的是点云数据,计算蓝色相

2021-01-28 11:49:33 126 1

原创 nanopb 问题总结

1. Introduction遇到的问题:Could not import the Google protobuf Python libraries解决办法[1]:pip install --ignore-installed sixsudo pip install protobuf2. examples2.1 使用protoc工具生成头文件和源文件使用cmake 直接生成相应的头文件cmake_minimum_required(VERSION 2.8)project(NANOPB_C

2021-01-27 10:48:27 1092

原创 Robotic Manipulation 1 --- simple pick and place

1.认识drake环境1.1 drake一个基本过程// Build a generic multibody plant.systems::DiagramBuilder<double> builder; // 工厂模式auto pair = AddMultibodyPlantSceneGraph( &builder, std::make_unique<MultibodyPlant<double>>(FLAGS_time_step));

2021-01-23 16:44:22 166 1

原创 ubuntu上使用st-link flash

1. Introduction使用的是源码安装,参考了[1][2][3]。2. RequirementsCommon requirementsInstall the following packages from your package repository:gitgcc or clang or mingw32-gcc or mingw64-gcc (C-compiler; very likely gcc is already present)build-essential (on Deb

2020-11-09 11:23:02 1159

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除