songrotek-CSDN博客

原创深度增强学习知乎专栏与Blog迁移说明

本Blog接下来将陆续迁移至 blog.floodsung.com主要内容将全面聚焦深度增强学习Deep Reinforcement Learning！使用Github Pages和Hexo。更简洁的界面是我转移博客的原因之一。新的blog将带给大家更好的阅读体验！新的文章也仍然会同步发布到CSDN上。欢迎关注我的新blog，欢迎交流！

2016-05-24 16:04:25 6848 3

原创 DRL前沿之：Hierarchical Deep Reinforcement Learning

1 前言如果大家已经对DQN有所了解，那么大家就会知道，DeepMind测试的40多款游戏中，有那么几款游戏无论怎么训练，结果都是0的游戏，也就是DQN完全无效的游戏，有什么游戏呢？比如上图这款游戏，叫做Montezuma’s Revenge。这种游戏类似超级玛丽，难在哪里呢？需要高级的策略。比如图中要拿到钥匙，然后去开门。这对我们而言是通过先验知识得到的。但是很难想象计算机如何仅仅通过图像

2016-05-12 15:52:41 10071 1

原创增强学习Reinforcement Learning经典算法梳理3：TD方法

1 前言在上一篇blog中，我们分析了蒙特卡洛方法，这个方法的一个特点就是需要运行完整个episode从而获得准确的result。但是往往很多场景下要运行完整个episode是很费时间的，因此，能不能还是沿着bellman方程的路子，估计一下result呢？并且，注意这里，依然model free。那么什么方法可以做到呢？就是TD（temporal-difference时间差分）方法。有个名词注意一

2016-05-12 11:35:26 50768 2

原创增强学习Reinforcement Learning经典算法梳理2：蒙特卡洛方法

1 前言在上一篇文章中，我们介绍了基于Bellman方程而得到的Policy Iteration和Value Iteration两种基本的算法，但是这两种算法实际上很难直接应用，原因在于依然是偏于理想化的两个算法，需要知道状态转移概率，也需要遍历所有的状态。对于遍历状态这个事，我们当然可以不用做到完全遍历，而只需要尽可能的通过探索来遍及各种状态即可。而对于状态转移概率，也就是依赖于模型Model，这

2016-05-12 10:17:36 21131 2

原创增强学习Reinforcement Learning经典算法梳理1：policy and value iteration

前言就目前来看，深度增强学习（Deep Reinforcement Learning)中的很多方法都是基于以前的增强学习算法，将其中的value function价值函数或者Policy function策略函数用深度神经网络替代而实现。因此，本文尝试总结增强学习中的经典算法。本文主要参考：1 Reinforcement Learning: An Introduction 2 Reinforcem

2016-05-11 21:46:05 28478 3

原创 OpenAI Gym 关于CartPole的模拟退火解法

前言今天测试OpenAI Gym，然后发现CartPole的最快实现快到离谱，使用Simulated Annealing，也就是SA模拟退火法。效果如下图：代码地址：模拟退火解CartPole于是好好研究了一下。关于模拟退火法一种最优控制算法，基本思想就是每次找一个邻近的点（解法），如果邻近的点比较优，就接受这个点，但是下一次使用随机有一定概率继续选择新的邻近的点，从而避免局部最优，从而通过多次

2016-05-03 21:38:01 7882

原创 DRL前沿之：End to End Learning for Self-Driving Cars

前言如果大家关注上个月Nvidia GTC，那么大家应该会注意到Nvidia 老大黄仁勋介绍了他们自家的无人驾驶汽车，这个汽车的无人驾驶技术和以往的方法不一样，完全采用神经网络。这个系统取名为DAVE。 NVIDIA GTC Self-Driving Car 上面的视频需翻墙观看。很庆幸的是，就在上周，Nvidia发表了他们的文章来介绍这个工作： http://arxiv.org/abs/16

2016-05-03 10:21:26 9317 2

原创 DRL前沿之：Benchmarking Deep Reinforcement Learning for Continuous Control

前沿Deep Reinforcement Learning可以说是当前深度学习领域最前沿的研究方向，研究的目标即让机器人具备决策及运动控制能力。话说人类创造的机器灵活性还远远低于某些低等生物，比如蜜蜂。。DRL就是要干这个事，而是关键是使用神经网络来进行决策控制。因此，考虑了一下，决定推出DRL前沿系列，第一时间推送了解到的DRL前沿，主要是介绍最新的研究成果，不讲解具体方法（考虑到博主本人也没办法

2016-04-27 15:48:38 6830 2

原创你是这样获取人工智能AI前沿信息的吗？

前言对于Researchers或者Geeks而言，特别是并没有在顶级的科研圈里的人，如何高效的获取最新的科技前沿，对自己的研究方向，定位是非常重要的。对于比如人工智能的入门者而言，确定方向更是重中之重。本人自己的经历发现常常相对旁人总能第一时间获取最新的技术前沿（显然也会漏到很多）。然后觉得获取信息或许也是一种能力，值得去探索。那么下面我就分享一下个人是如何收集前沿信息的，班门弄斧，请批评指正！Ti

2016-04-16 14:06:41 9174 4

原创了解点OpenAI及深度学习研究前沿

前言OpenAI是2015年底刚成立的人工智能公司，由Elon Musk领投，号称有10亿美金的投资额，由几位人工智能的顶尖好手组成。这基本上意味着一个新的DeepMind公司诞生，只不过这次OpenAI是一个组织，不属于任何一个公司。为什么要了解OpenAI？因为OpenAI的研究内容很大程度上代表着人工智能的研究方向，由于其非盈利性质以及地处加州硅谷这种黄金地段，未来聚集更多顶尖人才的可能性很大

2016-04-14 09:07:32 17025 4

原创了解点Jurgen Schmidbuber

前言可能很多童鞋都知道Andrew Ng，但并不是很多人知道Jurgen Schmidbuber。但在我看来，这位大神真的的超神。由于RNN，LSTM的兴起，Jurgen Schmidbuber开始走入到我们的视线。深入了解一下，发现他的研究超乎想象的前沿。他的网站：http://people.idsia.ch/~juergen/ 他的Google+：https://plus.google

2016-04-13 09:34:40 2285

原创深度解读 AlphaGo 算法原理

深度解读AlphaGo

2016-04-05 22:07:17 87529 16

原创用Tensorflow基于Deep Q Learning DQN 玩Flappy Bird

前言2013年DeepMind 在NIPS上发表Playing Atari with Deep Reinforcement Learning 一文，提出了DQN（Deep Q Network）算法，实现端到端学习玩Atari游戏，即只有像素输入，看着屏幕玩游戏。Deep Mind就凭借这个应用以6亿美元被Google收购。由于DQN的开源，在github上涌现了大量各种版本的DQN程序。但大多是复现

2016-03-22 00:11:57 75046 30

原创 Paper Reading 4:Massively Parallel Methods for Deep Reinforcement Learning

来源：ICML 2015 Deep Learning Workshop作者：Google DeepMind创新点：构建第一个用于深度增强学习的大规模分布式结构该结构由四部分组成：并行的行动器：用于产生新的行为并行的学习器：用于从存储的经验中训练分布式的神经网络：用于表示value function或者policy分布式的经验存储实验结果：将DQN应用在该体系结构上，训练的水平在49个游戏中

2016-03-18 08:34:25 3722

原创 Paper Reading 3:Continuous control with Deep Reinforcement Learning

来源：ICLR2016作者：Deepmind创新点：将Deep Q-Learning应用到连续动作领域continuous control（比如机器人控制）实验成果：能够鲁棒地解决20个仿真的物理控制任务，包含机器人的操作，运动，开车。。。效果比肩传统的规划方法。优点：End-to-End将Deep Reinforcement Learning应用在连续动作空间缺点：对于3D赛车，有时候并不

2016-03-17 21:32:48 9834 3

原创 Paper Reading 2:Human-level control through deep reinforcement learning

来源：Nature 2015作者：Deepmind理解基础：深度学习基础增强学习基础创新点：构建一个全新的Agent，基于Deep Q-network,能够直接从高维的原始输入数据中通过End-to-End的增强学习训练来学习策略成果：将算法应用到Atari 2600 游戏中，其中49个游戏水平超过人类。第一个连接了高维的感知输入到动作，能够通用地学习多种不同的task详细分析研究目标Gene

2016-03-17 21:27:03 7865

原创 AlphaGo来了，终结者不远了

前言2016年3月9日，这注定是载入史册的一天。在不被大部分人看好的情况下，AlphaGo第一局就胜了李世石，第二局的胜利更是让很多围棋高手目瞪口呆。接下来的5:0就是时间问题了。AlphaGo的胜利到底意味着什么？不同人总有不同的观点。对于很多不了解AlphaGo原理的普通观众而言，会感觉智能来了，机器人要统治世界了，细思极恐。而以此同时，一些研究人工智能的专家们，绝大多数可能根本没有认真看

2016-03-12 21:29:43 3126 3

原创 ROS相关：使用rospy 编写ros程序并使用rosbag存储数据

为什么使用rospyROS支持C++和Python，由于ROS的底层是由C++编写，因此大多数的ROS程序都使用C++，但是Python语言接口简单，更容易编写。并且可以使用python与深度学习的一些框架比如Caffe，TensorFlow，Theano等结合。因此，采用python是更好的选择。本文只总结一些rospy使用的细节和rosbag的使用rospy的优点除了上面说的接口简单，容易编写，

2016-03-03 16:22:05 16380 4

原创从头开始安装Ubuntu,cuda,cudnn,caffe,tensorflow,ROS

前言安装ubuntu一直是一件特别特别麻烦的事情，以前常常因为换一台主机就得完全重新安装一遍，每次安装都要折腾特别久，总会遇到各种各样的问题。因此很有必要写一个Blog完整记录整个过程及遇到的问题。现在，我使用Thinkpad e49来进行完全从头的安装。该型电脑有入门级显卡Nvidia GeForce 610M（支持CUDA）。之前安装的是Windows 7。这里一步一步介绍以下安装：U

2016-03-01 11:10:49 14127 12

原创解密Google Deepmind AlphaGo围棋算法：真人工智能来自于哪里？

2016年1月28日，Google Deepmind在Nature上发文宣布其人工智能围棋系统AlphaGo历史性的战胜人类的职业围棋选手！这条重磅新闻无疑引起了围棋界和人工智能界的广泛关注！3月份AlphaGo对阵李世石的比赛更将引起全人类的目光！是什么使围棋算法产生了质的飞跃？要知道，在之前最好的围棋程序也只能达到业余人类棋手的水平。是真的人工智能产生了吗？对于大多数人来说，大家都知道1997

2016-01-30 16:53:44 46101 10

原创 Paper Reading 1 - Playing Atari with Deep Reinforcement Learning

来源：NIPS 2013作者：DeepMind理解基础：增强学习基本知识深度学习特别是卷积神经网络的基本知识创新点：第一个将深度学习模型与增强学习结合在一起从而成功地直接从高维的输入学习控制策略具体是将卷积神经网络和Q Learning结合在一起。卷积神经网络的输入是原始图像数据（作为状态）输出则为每个动作对应的价值Value Function来估计未来的反馈Reward实验成果：使用同一个

2016-01-25 16:13:48 20059 3

原创 Deep Reinforcement Learning 基础知识（DQN方面）

## Introduction深度增强学习Deep Reinforcement Learning是将深度学习与增强学习结合起来从而实现从Perception感知到Action动作的端对端学习的一种全新的算法。简单的说，就是和人类一样，输入感知信息比如视觉，然后通过深度神经网络，直接输出动作，中间没有hand-crafted工作。深度增强学习具备使机器人实现完全自主的学习一种甚至多种技能的潜力。

2016-01-25 16:07:18 91773 21

原创 Deep Reinforcement Learning 深度增强学习资源

1 学习资料增强学习课程 David Silver （有视频和ppt）:http://www0.cs.ucl.ac.uk/staff/D.Silver/web/Teaching.html最好的增强学习教材：Reinforcement Learning: An Introductionhttps://webdocs.cs.ualberta.ca/~sutton/book/the-book.html 深

2016-01-24 10:35:12 21719 4

原创 Qt 之运行Qt Creator出现cannot find -lGL的问题的两种解决

网上找了一下很多人都出现了这个错误。有两种原因，一种是没有按照libGL库，那么就安装：sudo apt-get install libgl1-mesa-dev一种是装了，但是路径不对，那么就配置一下路径：“ locatelibGL/usr/lib/i386−linux−gnu/mesa/libGL.so.1/usr/lib/i386−linux−gnu/mesa/libGL.so.1.2.0

2015-08-27 10:17:30 19039 8

原创 Python 之使用Tkinter 做GUI 研究机器人走迷宫

这本是课程的一个作业研究搜索算法，当时研究了一下Tkinter，然后写了个很简单的机器人走迷宫的界面，并且使用了各种搜索算法来进行搜索，如下图：使用A*寻找最优路径：由于时间关系，不分析了，我自己贴代码吧。希望对一些也要用Tkinter的人有帮助。from Tkinter import *from random import *import timeimport numpy as

2015-08-27 10:09:44 5680

原创计算机视觉CV 之 CMT跟踪算法分析四

1 前言在上一部分我们已经分析到了计算特征点的缩放和旋转，这里最后分析去掉不好的特征点的方法。2 最后步骤分析vote的基本思想就是这些特征点相对中心的相对距离在把缩放旋转考虑进去之后是相对不变的，也就是按道理下一帧的特征点相对中心的位置是不变的。但是由于图像本身的变化，不可能得到完全一样的相对位置，这个时候，有一些会离中心近，有一些会偏差很大。那么，作者就采用聚类的方法，选择最大的一类作为最好的

2015-08-27 09:57:08 5118 1

原创计算机视觉CV 之 CMT跟踪算法分析3

1 前言在上一篇blog中，我们分析了CMT的整体算法流程及前面几步的实现分析，接下来我们继续分析后面的几步。2 Step 4，5，6 特征点匹配与数据融合这几步就是通过跟踪和特征匹配来获取这一帧的特征点，将两者融合在一起。上一篇文章分析了光流，这里再分析一下特征匹配。源代码如下： //Detect keypoints, compute descriptors 计算当前图像的关键点 v

2015-08-21 10:16:00 5348 2

原创计算机视觉CV 之 CMT跟踪算法分析二

1 前言在上一篇文章中，我对CMT算法做了初步的介绍，并且初步分析了一下CppMT的代码，在本篇文章中，我将结合作者的论文更全面细致的分析CMT算法。这里先说明一下，作者关于CMT算法写了两篇文章： Consensus-based Matching and Tracking of Keypoints for Object Tracking （wacv2014 best paper reward）

2015-08-19 08:32:43 9356 1

原创计算机视觉CV 之 CMT跟踪算法分析一

1 简介这个算法的全称是Clustering of Static-Adaptive Correspondences for Deformable Object Tracking，文章发表在CVPR2015上，官方的网址为： http://www.gnebehay.com/cmt/这个作者就是OpenTLD的C++版本的作者，包括ROS版的OpenTLD也是基于他的代码改的。对于CMT这个跟踪算

2015-08-14 15:31:46 17471 23

原创 AR Drone系列之：使用ROS catkin创建package并使用cv_bridge实现对ar drone摄像头数据的处理

1 开发环境Ubuntu 12.04ROS Hydro2 前提可参考这篇blog：http://blog.csdn.net/yake827/article/details/44564057 blog：http://blog.csdn.net/celesius/article/details/39188119已安装adrone_autonomy package 并且可以运行https://githu

2015-08-12 09:42:13 6496 4

原创计算机视觉之在iOS上测试跟踪算法Visual Object Tracking Algorithm

前言在计算机视觉CV领域，视觉跟踪是其中一个重要的子问题。从我的角度看，视觉跟踪就是用在机器人上，用在移动设备上，因此，何不把一些跟踪算法放在iPhone上看看实际的跟踪效果。这才是最真实的对比，使用一些视频毕竟不实际，而且关键是不能很好的对比实时性。对于移动设备而已，实时性是最重要的吧。之所以有跟踪问题的出现，也是因为绝大多数的物体检测Object Detection算法实在是太慢了，根本无法用在

2015-08-11 16:33:25 5972 7

原创深度学习之Matlab 转C++在iOS上测试CNN手型识别

1 前言在上一篇Blog，我介绍了在iOS上运行CNN的一些方法。但是，一般来说，我们需要一个性能强劲的机器来跑CNN，我们只不过需要将得到的结果用于移动端。之前在Matlab使用UFLDL的代码修改后跑了手型识别的3层CNN，这里我们就考虑将Matlab转C之后移植到xcode中。Step 1：Matlab 转c首先要保证代码可以跑，可以运行，比如我这边，如下测试cnn识别手型： >> para

2015-07-20 11:11:06 6523 9

原创深度学习之在iOS上运行CNN

1 引言作为曾经的iOS开发者，在研究深度学习的时候，总有一个想法就是在iPhone上运行深度学习，不管是在手机上训练还是利用训练好的数据进行测试。因为iOS的开发环境支持C++，因此，只要你的代码是C/C++，本质上就可以在iOS上运行。怎么才能更快更好地在iOS上运行CNN呢？2 方法1：通过Matlab转码Matlab自带转成c的工具，如果你研究过UFLDL的深度学习教程，就知道如何在

2015-07-14 21:34:53 12446 3

转载 Python 学习之三：NumPy，SciPy，Matplotlib教程

转自：http://cs231n.github.io/python-numpy-tutorial/NumpyNumpy is the core library for scientific computing in Python. It provides a high-performance multidimensional array object, and tools for working w

2015-06-11 21:23:05 11940 1

翻译 Python 学习之二：Python超短教程

前言本教程综合Stanford CS231N和UC Berkerley CS188的Python教程。教程很短，但适合有一定编程基础，学过其他语言的童鞋。Python启动Python 解释器Python可以有两种使用方式，一种就是使用解释器interpreter，类似Matlab，输入一行代码，运行一行；另一种就是编写一个py后缀的文档，称为脚本，然后python xxx.py运行脚本scrip

2015-06-11 21:05:10 3487

原创在Mac OS X下搭建Latex编辑环境

在这里分享一下如何在Mac下搭建Latex编辑环境的方法首先当然是Google Mac Latex寻找已有的Blog教程，然后发现Mac上常用Sublime Text来编辑，因此搜索Mac sublime Latex，就找到了以下两个网页： http://www.readern.com/sublime-text-latex-chinese-under-mac.htmlhttp://econom

2015-06-11 14:47:28 44654 1

原创 Deep Learning for Robotics 资源汇总

Deep Learning for Robotics 各种资源汇总包含Deep Learning，Computer Vision，Robotics，Reinforcement Learning

2015-06-11 09:29:58 3858

原创 Python 学习之一：在Mac OS X下基于Sublime Text搭建开发平台包含numpy，scipy

1 前言Python有很多IDE可以用，官方自己也带了一个，Eclipse也可以。但我在使用各种IDE之后，发现用Sublime Text是最好用的一个。因此，我都是用Sublime Text来编写Python程序。那么整个搭建其实非常简单。考虑到接下来要做的是科学研究，我们也同时安装numpy，scipy,matplotlib等插件。2 开发环境Macbook Pro Mac OS X 10

2015-06-11 08:42:53 45049 2

原创 iOS开发之可穿戴设备蓝牙4.0 BLE 开发

1 前言当前有越来越多的可穿戴设备使用了蓝牙4.0 BLE（Bluetooth Low Energy)。对于iOS开发而言，Apple之前专门推出CoreBluetooth的Framework来支持BLE的开发。对于硬件开发有了解的朋友应该知道，在之前使用低版本的蓝牙的设备，要连接到iOS设备上，需要注册MFI，拥有MFI协议才能进行相应的开发。如果大家关注我之前对LEGO EV3的研究，就可以发现

2015-06-10 16:55:09 33527 14

原创 DJI IOS 开发之四：不得不的结束

一开始如果大家看我的第一篇关于DJI的SDK的Blog，我是非常兴奋的。很可惜，在我深入的研究这个SDK之后，发现了以下几个不可饶恕的限制：1）没有足够GPS就用不了地面站和飞行控制功能；2）DJI直接没有提供接口可以用于控制phantom2的油门大小。phantom3和inspire 1貌似可以控制油门，但起飞降落依然是受限制。比较可恶的是Phantom3 SDK竟然只支持Phantom3 Pr

2015-05-14 17:12:48 2632 4

空空如也

空空如也