JK-Ray-CSDN博客

转载 Continuous control with Deep Reinforcement Learning

来源：ICLR2016作者：Deepmind创新点：将Deep Q-Learning应用到连续动作领域continuous control（比如机器人控制）实验成果：能够鲁棒地解决20个仿真的物理控制任务，包含机器人的操作，运动，开车。。。效果比肩传统的规划方法。优点：End-to-End将Deep Reinforcement Learning应用在连续动作

2017-12-26 11:39:35 2703

转载深度强化学习——连续动作控制DDPG、NAF

传统的DQN只适用于离散动作控制，而DDPG和NAF是深度强化学习在连续动作控制上的拓展。一、存在的问题DQN是一个面向离散控制的算法，即输出的动作是离散的。对应到Atari 游戏中，只需要几个离散的键盘或手柄按键进行控制。然而在实际中，控制问题则是连续的，高维的，比如一个具有6个关节的机械臂，每个关节的角度输出是连续值，假设范围是0°~360°，归一化后为（-1，1）。若把每个关节角取值范围离散

2017-12-26 11:21:20 4539

转载 UR5机械臂--ROS系统通信建立与实时控制

实验室近期购置了一台UR5机械臂，需要给机械臂上ROS系统。于是查询各种资料、博客，以及翻墙到谷歌找到了一些资料。花了足足一个月时间终于在ROS系统上与UR5本体建立通信，并在RVIZ上控制UR5,记录安装调试过程以备后续任务。1.首先说下配置：Ubuntu14.04+ROS indigo2.安装UR5相关的各种包（详情请进网址：点击打开链接） (1) cd ~/catkin_ws/s

2017-12-26 11:15:57 8263 3

原创 Ubuntu全盘备份与恢复，亲自总结，实测可靠

Ubuntu系统全盘备份与恢复，亲自总结，实测可靠初学者在使用Ubuntu这类Linux操作系统时，常常会由于不当操作导致系统崩溃，重装系统是难免的事情。重装系统虽然简单，但是各种软件/环境重新下载、配置相当占用时间，因此有必要对系统同进行备份，以避免将来连哭的地方都找不到。本教程已经由JK小僧在计算机上亲自实践，可以恢复之前Ubuntu系统上的各类软件和环境配置，方法简单，值得推广：一、备份系统

2017-10-13 16:25:28 56082 25

转载 Qt快速入门

简介Qt Creator是使用Qt开发的IDE。Qt支持Windows、Linux/Unix、Mac OS X、Android、BlackBerry、QNX等多种平台，Qt Creator为不同平台提供了统一的开发环境。Qt Creator集成了Qt Designer、Qt Assistant、Help等工具。因此，在开发过程中可以很快的通过Designer来设计界面。如果想从Qt API中获得更详

2017-10-07 20:42:29 21101 1

原创 David Silver《Reinforcement Learning》课程解读—— Lecture 5： Model-Free Control

David Silver《Reinforcement Learning》课程解读—— Lecture 5： Model-Free Control上次课谈到了在给定policy的情况下求解未知environment的MDP问题，称之为Model-Free Prediction问题。本节则是解决未知policy情况下未知environment的MDP问题，也就是Model-Free Control问题，

2017-09-08 08:54:41 1239 1

原创 David Silver《Reinforcement Learning》课程解读—— Lecture 4： Model-Free Prediction

David Silver《Reinforcement Learning》课程解读—— Lecture 4： Model-Free PredictionDP动态规划能够解决已知environment的MDP问题，即已知S,A,P,R,γ S,A,P,R,γ，根据是否已知policy又将问题划分为prediction和control的问题。本质上来说这种known MDP问题已知environment即

2017-06-22 10:35:12 913 2

原创 C++程序设计学习笔记

最近在学习北大《C++程序设计》这门公开课，重新复习C++编程知识。笔记记录在了gitbook上，有兴趣的同学可以点击北大C++程序设计学习笔记进行访问。Thanks！

2017-06-13 23:47:12 452

原创 David Silver《Reinforcement Learning》课程解读—— Lecture 3： Planning by Dynamic Programming

David Silver《Reinforcement Learning》课程解读—— Lecture 3： Planning by Dynamic ProgrammingDP用来解决MDPs的planning问题，主要解决途径有policy iteration和value iteration。目录：IntroductionPolicy EvaluationPolicy IterationVa

2017-06-07 01:25:07 1881

原创机器学习的明天——迁移学习

浅谈迁移学习——机器学习的明天上个月，柯洁大战AlphaGo落下帷幕，19岁的男孩少有地在比赛中落泪，赛后他为我们留下一句话，柯洁说“AlphaGo”看上去像神一样的存在，好像他是无懈可击的··· 的确，DeepMind创造的AlphaGo让人为之赞叹，让柯洁为之疯狂。而背后，从机器学习的角度，充分证明了深度强化学习和大数据的重要意义。DeepMind

2017-06-02 23:32:22 11038 1

原创 David Silver《Reinforcement Learning》课程解读—— Lecture 2： Markov Decision Process

David Silver《Reinforcement Learning》课程解读 Section 2Lecture 2： Markov Decision ProcessMDPs正式描述了强化学习的环境，几乎所有的强化学习问题都可以描述为MDPs。1. Markov Process用于描述RL的环境，该环境完全可观（如当前状态完整描述了整个过程）。特性无后效/ 记忆性状态转移矩阵Pss′P_{s

2017-06-02 08:13:29 2620

原创利用moveit在ROS RViz下仿真控制UR机械臂

利用moveit在ROS RViz下仿真控制UR机械臂上一篇博客介绍了UR5机械臂仿真环境的搭建，接下来讲介绍一下如何利用ROS官方提供的moveit包在RViz控制UR5运动，以及RViz界面的几个主要功能介绍。首先，让我们先了解一下UR5的RViz控制界面：界面主要分为三部分，左上角Displays窗口主要通过修改一些参数来更改UR

2017-06-01 20:32:24 19356 3

原创浅谈GAN生成对抗网络

浅谈GAN——生成对抗网络重要引用：深度学习新星：GAN的基本原理、应用和走向 | 硬创公开课；生成对抗网络(GAN)相比传统训练方法有什么优势?；通过拳击学习生成对抗网络（GAN）的基本原理最近总是听老板提起对抗学习，好奇之心，在网上搜集了一些相关资料，整理如下，大部分摘自重要引用的内容。近年来，基于数据而习得“特征”的深度学习技术受到狂热追捧，而其中GAN模型训练方法更加具有激进意

2017-06-01 10:58:29 15877 3

原创机器学习的分类与主要算法对比

机器学习的分类与主要算法对比重要引用：Andrew Ng Courera Machine Learning；从机器学习谈起；关于机器学习的讨论；机器学习常见算法分类汇总；LeNet Homepage；pluskid svm　　首先让我们瞻仰一下当今机器学习领域的执牛耳者：　　这幅图上的三人是当今机器学习界的执牛耳者。中间的是Geoffrey Hinton, 加拿大多伦多大学的教授，如今被聘为“Goo

2017-05-31 23:22:21 54044 12

原创 UR5机械臂仿真环境搭建

UR5机械臂仿真环境搭建重要参考： ROS官网教程前段时间，实验室采购了一台UR5机械臂，今天花了一下午，对照官网教程，完成了仿真环境搭建，期间遇到了一些问题，好在最后都解决了。机械臂的运动规划和运动控制是一个很火的内容，同时也可以作为很多人工智能算法验证的实验平台，由于发现这一块国内网站的相关博客很少，为了方便后续学者开发，现把搭建过程整理如下：1、系统配置： Ubuntu 14.04 &

2017-05-31 19:41:44 14530 9

原创 David Silver《Reinforcement Learning》课程解读—— Lecture 1： Introduction to Reinforcement Learning

David Silver《Reinforcement Learning》课程解读前段时间学习了UCL讲师、AlphaGo项目的主程序员David Silver的课程Reinforcement Learning，手写了30多页学习笔记，可以说学得很浅，整个知识网络掌握得不够有连贯性，为了将整个课程的体系做一个梳理，写下此篇博文。课程ppt和视频资料在网上很容易搜索，此处不再提供。课程目录：Lectu

2017-05-30 19:53:24 4804 4

原创 MATLAB矩阵元素的提取和替换

1. 提取1 . 单个元素的提取a=[1,2,3;3,4,5]a = 1 2 3 3 4 5b=a(1,2)b = 2 2 . 提取矩阵中某一行的元素a=[1,2,3;3,4,5],运行后：a = 1 2 3 3 4 5b=a(1,:)b = 1 2 33 . 提

2017-05-17 10:48:53 62223 1

原创 MATLAB数组元素引用的三种方法

1. Matlab中数组元素引用有三种方法： - 下标法(subscripts) - 索引法(index) - 布尔法(Boolean) - Markdown和扩展Markdown简洁的语法 - 代码块高亮 - 图片链接和图片上传 - LaTex数学公式 - UML序列图和流程图 - 离线写博客 - 导入导出Markdown文件 -

2017-05-17 10:26:33 27910 3

原创 MATALB中数组、矩阵、向量、行列式的关系

MATALB中数组、矩阵、向量、行列式的关系正如matlab（矩阵实验室）这个名字一样，matlab的数据结构只有数组（array）一种形式：单个的数就是1*1的矩阵向量(vector)：特指1*n或n*1的数组，前者称为行向量，后者称为列向量矩阵(matrix)：一般特指二维数组，其它与数组相同行列式(determinant)：方阵的det值，一般用在解线性方程组中数组(array)：就

2017-05-17 00:08:26 2121

原创 Word将图片格式大小设置成一样大小

Word图片大小归一

2017-05-09 10:54:52 8662 2

原创 MATLAB一些的小问题

1. 矩阵的表示2. zeros函数和ones函数 3.A(1)代表什么意思4.产生均匀分布随机数5.读取/写入.csv文件6.fill填充图形用法

2017-05-06 13:36:42 1186

转载欢迎使用CSDN-markdown编辑器

欢迎使用Markdown编辑器写博客本Markdown编辑器使用[StackEdit][6]修改而来，用它写博客，将会带来全新的体验哦：Markdown和扩展Markdown简洁的语法代码块高亮图片链接和图片上传LaTex数学公式UML序列图和流程图离线写博客导入导出Markdown文件丰富的快捷键快捷键加粗 Ctrl + B 斜体 Ctrl + I 引用

2017-05-05 22:05:13 216

原创 WinEdt 7.0 注册

WinEdt 7.0 需要注册，就搜集了一下方法，转发在这里了。1. 先用crack算出注册码（crack在这里下载：http://download.csdn.net/detail/setoy/4384553）2. 用注册码注册，重启WinEdt后就会发现已经注册成功。。。。。。但是过段时间又会跳出让你注册的信息，因此还需以下步骤：3. option

2015-11-01 10:58:17 7805

原创 Exbox上的相关链接

http://blog.exbot.net/archives/category/ros

2015-09-14 21:26:21 416

转载一些摄像机标定的Matlab工具箱（含Kinect和激光）

摘要：今天下课路上LF提到了摄像机标定的问题，正好实验用kinect的话也需要做一下标定，在这把一些比较好的ToolBox汇集一下，不用再到处查了。Top 2012.12.1今天下课路上LF提到了摄像机标定的问题，正好实验用kinect的话也需要做一下标定，在这把一些比较好的ToolBox汇集一下，不用再到处查了。1.摄像机Camera Calibration Toolbo

2015-09-14 21:25:14 3724 1

转载轮式驱动单元电机PID控制说明

PID控制是一种简单有效且具有较强鲁棒性较强的控制手段，在任何一本关于自动控制的教材中均可找到相应的介绍，在此不过多介绍基本原理，而侧重于程序的使用方法及其在轮式驱动单元中的测试结果。目前机器人的电机大多采用脉宽调制（Pulse width modulation）或简称PWM进行控制，而不是使用模拟功率电路。在软件中通过改变脉冲宽度（如图1，上图对下图），我们可以改变等效的模拟电

2015-09-14 21:24:23 2488

转载参考项目：带深度摄像头的WIFI小车

合作项目：带深度摄像头的WIFI小车2013年07月12日robotics评论 1 条阅读 47,929 次 Why WIFI？可以让小车作为分布式结构中的一个节点，与其他节点通讯，处理复杂问题。Why depth camera？可以运行当前流行的视觉算法，用于识别物体，人物，手势等，Depth camera是未来camera产品的标配。项目范围，功能需

2015-09-14 21:20:36 2892

转载现代的先进控制理论先进在哪里？如何评价在PID控制器份额在95%条件下稳定性逊色的先进控制系统？

感谢冷哲、Tam Alex、小心假设三位在知乎精彩而透彻的回答经三位作者同意，转发至本博。转载请联系原作者。对第二个问题的解释在于，既然PID控制器运用已经如此广泛了，那么基于现代控制理论的现代控制系统就处于一个相对尴尬的境地，即应用有限的同时理论却在不断更新，这使自动化越来越像理科而不是工科，对于这种现象该如何评价。ps.需要注意的是1）理科的任务更像是观察和描

2015-09-14 21:18:54 7880 1

转载老王说ROS

1. ROS结构今天扯一下ros吧。抛开ros生态圈不讲，单表ros软件。（1）作为通信中间件的ros是怎么玩的。ros软件提供了一个通信中间件来实现分布式系统的构建。那么既然是通信中间件，ros的通信机制是怎么实现的呢？单从文档上看，ros提供了订阅发布的通信机制，也就是有个发布者发布一个topic，订阅者订阅这个topic，当有发布者就某个topic 发布message的时候，订阅这个

2015-09-14 21:17:07 2138

转载老王说ros的tf库

ros的tf库为了这个题目，我是拿出了挤沟的精神挤时间，是下了功夫的，线性代数、矩阵论复习了，惯性导航里的dcm、四元数也了解了，刚体力学也翻了，wiki里的欧拉角也读了，tf的tutorial、paper、source code也都看了。说实在的，经过这次努力，我是有点了然于胸了，我也非常想了然于纸上与小伙伴们分享，但尝试了几次失败了，我也不跟自己过不去了，还是扯吧。1）tf不是坐标变换

2015-09-14 21:14:53 2402 2

转载机器人书单与学习资源——控制篇

作者：Yifan Hou，Roboticist感谢作者授权ExBot转载，知乎原文链接正如李淼所说，机器人学科太杂，一个搞导航的Roboticist和一个搞控制的Roboticist其实共同语言并不太多。但题主问的是机器人控制，我可以分享一点经验~我说的不一定全、对，欢迎提意见--------------------------------------------------

2015-09-14 21:12:21 3792

转载机器人控制该怎么入门？

感谢以下大牛回答及授权转载！吕朝阳，Robotics PhD @ Gatech贺磊，Ph.D. candidate @ hust王子豪 ----------------------------------------------------------------------------------------------吕朝阳：对于工科领域来说

2015-09-14 21:11:11 6069

转载机器人书单与学习资源——导航篇

转载请保留此段：感谢郑帆，立党，Wu Kenzi等给出的原创及授权ExBot转载，由Top liu汇集整理，原文链接入门教程首先推荐 RA magazine 首页的几篇 tutorial 性质的论文。RAM 是 robotics 领域最顶尖的期刊之一，这几篇都是著名学者写给学术新人的入门读物，希望对题主有所帮助。RAM 首页：RA Magazine - IEEE Robotic

2015-09-14 21:09:18 2124

转载 ifconfig

ifconfig 是一个用来查看、配置、启用或禁用网络接口的工具，这个工具极为常用的。可以用这个工具来临时性的配置网卡的IP地址、掩码、广播地址、网关等。也可以把它写入一个文件中（比如/etc/rc.d/rc.local)，这样系统引导后，会读取这个文件，为网卡设置IP地址功能说明：显示或设置网络设备。语　　法：ifconfig [网络设备][down up -allmulti

2015-08-02 08:55:20 444

原创半闲居士的博客地址，主要关于RGBD-SLAM

http://www.cnblogs.com/gaoxiang12/

2015-07-31 17:37:55 1547

原创古月居关于ROS的导航部分要抽空学习一下

ROS探索总结（十二）——坐标系统http://blog.csdn.net/hcx25909/article/details/9255001ROS探索总结（十三）——导航与定位框架http://blog.csdn.net/hcx25909/article/details/9334231ROS探索总结（十四）——move_base（路径规划）htt

2015-07-31 17:05:55 1516

转载 socket通讯原理以及tcp、ip三次握手机制分析

要写网络程序就必须用Socket，这是程序员都知道的。而且，面试的时候，我们也会问对方会不会Socket编程？一般来说，很多人都会说，Socket编程基本就是listen，accept以及send，write等几个基本的操作。是的，就跟常见的文件操作一样，只要写过就一定知道。对于网络编程，我们也言必称TCP/IP，似乎其它网络协议已经不存在了。对于TCP/IP，我们还知道TCP和UDP，前

2015-07-26 00:31:40 427

原创写blog的目的

首先声明一下，本人本科纯机械，研究生跳到控制，很多知识自己之前没有接触，编程能力和看代码的能力很差。自己虽然已经马上要研二了，可是学到的东西始终感觉很皮毛，不深入也不连续，所以决定开始写自己的博客，目的有三：1.激励自己在相关领域及时学习，保证学习的连续性。2.记录学习的新知识，帮助自己构建知识体系，修复日常操作中的小bug。3.收藏、学习大牛们的经验。希望自己能尽

2015-07-26 00:00:56 435

空空如也

空空如也