Mr丶Caleb-CSDN博客

转载 Mpi4py实践

1.概述MPI(Message Passing Interface)，消息传递接口，是一个标准化和轻便的能够运行在各种各样并行计算机上的消息传递系统。消息传递指的是并行执行的各个进程拥有自己独立的堆栈和代码段，作为互不相关的多个程序独立执行，进程之间的信息交互完全通过显示地调用通信函数来完成。mpi4py是构建在MPI之上的Python非官方库，使得Python的数据可以在进程之间

2017-11-01 16:55:55 1735

转载 Conjugate Gradient

Conjugate GradientBefore diving in to Haskell, let’s go over exactly what the conjugate gradient method is and why it works. The “normal” conjugate gradient method is a method for solving systems of

2017-10-23 19:28:52 685

原创 PR10.21:Trust Region Policy Optimization

What’s problem?根据策略梯度方法，参数更新方程式为： θnew=θold+α▽θJ\theta _{new}=\theta _{old}+\alpha \triangledown _{\theta }J 策略梯度算法的硬伤就在更新步长 \alpha ，当步长不合适时，更新的参数所对应的策略是一个更不好的策略，当利用这个更不好的策略进行采样学习时，再次更新的参数会更差，因此很容易

2017-10-21 12:12:20 695

转载使用 screen 管理远程会话

你是不是经常需要 SSH 或者 telent 远程登录到 Linux 服务器？你是不是经常为一些长时间运行的任务而头疼，比如系统备份、ftp 传输等等。通常情况下我们都是为每一个这样的任务开一个远程终端窗口，因为他们执行的时间太长了。必须等待它执行完毕，在此期间可不能关掉窗口或者断开连接，否则这个任务就会被杀掉，一切半途而废了。元凶：SIGHUP 信号让我们来看看为什么关掉窗口/断

2017-10-16 09:07:37 387

原创 PR10.10:#Exploration: A Study of Count-Based Exploration for Deep Reinforcement Learning

What’s problem?Count-based exploration algorithms are known to perform near-optimally when used in conjunction with tabular reinforcement learning (RL) methods for solving small discrete Markov decisio

2017-10-12 10:51:04 1213

原创 PR17.10.4:Q-Prop: Sample-Efficient Policy Gradient with An Off-Policy Critic

What’s problem?A major obstacle facing deep RL in the real world is their high sample complexity. Batch policy gradient methods offer stable learning, but at the cost of high variance, which often req

2017-10-06 16:23:24 692

原创 PR17.10.2:Reproducibility of Benchmarked Deep Reinforcement Learning Tasks for Continuous Control

What’s problem and challenges?There are many sources of possible instability and variance that can lead to difficulties with reproducing deep policy gradient methods such as DDPG and TRPO.What’s the pr

2017-10-03 13:41:28 532

转载 SIFT特征提取分析

SIFT（Scale-invariant feature transform）是一种检测局部特征的算法，该算法通过求一幅图中的特征点（interest points,or corner points）及其有关scale 和 orientation 的描述子得到特征并进行图像特征点匹配，获得了良好效果，详细解析如下：算法描述SIFT特征不只具有尺度不变性，即使改变旋转角度

2017-09-20 18:33:18 372

转载 Ubuntu 14.04 64bit caffe安装

本篇博客主要用于记录Ubuntu 14.04 64bit操作系统搭建caffe环境，目前针对的的是CPU版本；1.安装依赖库sudo apt-get install libprotobuf-dev libleveldb-dev libsnappy-dev libopencv-dev libhdf5-serial-dev protobuf-compilersudo apt-get in

2017-08-15 16:22:01 459

转载 Ubuntu 14.04 64bit 安装Caffe（GPU版本）

0.检查配置1. VMWare上运行的Ubuntu，并不能支持真实的GPU（除了特定版本的VMWare和特定的GPU，要求条件严格，所以我在VMWare上搭建好了Caffe环境后，又重新在Windows 7 64bit系统上安装了Ubuntu 14.04 64bit系统，链接在此，以此来搭建Caffe GPU版本）；2. 确定GPU支持CUDA输入：lspci |

2017-08-15 16:21:06 1262

转载强化学习——A3C,GA3C

一、问题与贡献存在的问题不同类型的深度神经网络为 DRL 中策略优化任务提供了高效运行的表征形式。为了缓解传统策略梯度方法与神经网络结合时出现的不稳定性，各类深度策略梯度方法（如 DDPG、 SVG 等）都采用了经验回放机制来消除训练数据间的相关性。然而经验回放机制存在两个问题：agent 与环境的每次实时交互都需要耗费很多的内存和计算力；经验回放机制要求 agen

2017-08-11 21:00:02 6580

转载 Python 学习笔记多进程 multiprocessing

Python 解释器有一个全局解释器锁(PIL)，导致每个 python 进程中最多同时运行一个线程，因此 Python 多线程程序并不能改善程序性能，不能发挥多核系统的优势，可以通过这篇文章了解。但是多进程程序不受此影响， Python 2.6 引入了 multiprocessing 来解决这个问题。这里介绍 multiprocessing 模块下的进程，进程同步，进程间通信和进程管

2017-08-07 15:39:19 465

转载深度增强学习前沿算法思想【DQN、A3C、UNREAL，简介】

作者：Flood Sung，CSDN博主，人工智能方向研究生，专注于深度学习，增强学习与机器人的研究。责编：何永灿，欢迎人工智能领域技术投稿、约稿、给文章纠错，请发送邮件至[email protected]本文为《程序员》原创文章，未经允许不得转载，更多精彩文章请订阅2017年《程序员》2016年AlphaGo计算机围棋系统战胜顶尖职业棋手李世石，引起了全世界的广泛关注，人工智

2017-08-04 23:33:23 1642

转载 Jacobian矩阵和Hessian矩阵

Jacobian在向量分析中, 雅可比矩阵是一阶偏导数以一定方式排列成的矩阵, 其行列式称为雅可比行列式. 还有, 在代数几何中, 代数曲线的雅可比量表示雅可比簇：伴随该曲线的一个代数群, 曲线可以嵌入其中. 它们全部都以数学家卡尔·雅可比(Carl Jacob, 1804年10月4日－1851年2月18日)命名；英文雅可比量”Jacobian”可以发音为[ja ˈko bi ən]或者[ʤə ˈ

2017-07-23 22:45:28 499

转载深度强化学习（Deep Reinforcement Learning）入门：RL base & DQN-DDPG-A3C introduction

过去的一段时间在深度强化学习领域投入了不少精力，工作中也在应用DRL解决业务问题。子曰：温故而知新，在进一步深入研究和应用DRL前，阶段性的整理下相关知识点。本文集中在DRL的model-free方法的Value-based和Policy-base方法，详细介绍下RL的基本概念和Value-based DQN，Policy-based DDPG两个主要算法，对目前state-of-art的算法（A

2017-06-25 21:28:27 15317 2

原创蒙特卡洛方法

什么时候使用蒙特卡洛方法：蒙特卡洛方法适用于免模型的强化学习任务。（“免模型学习”对应于一类现实的强化学习任务，在该类任务中，环境的转移概率、奖赏函数往往很难得知，甚至很难知道环境中一共有多少状态，因此，在该类学习任务中，学习算法不依赖于环境建模。）为什么使用蒙特卡洛方法：在免模型情形下，由于模型未知而导致无法做全概率展开，策略迭代酸中的策略无法评估，此时，只能通过在环境中

2017-06-07 09:21:12 8209

原创时序差分学习(Temporal-Difference Learning)

时序差分学习(Temporal-Difference Learning)结合了动态规划和蒙特卡洛方法，是强化学习的核心思想。蒙特卡洛的方法是模拟（或者经历）一段序列，在序列结束后，根据序列上各个状态的价值，来估计状态价值。时序差分学习是模拟（或者经历）一段序列，每行动一步（或者几步），根据新状态的价值，然后估计执行前的状态价值。可以认为蒙特卡洛的方法是最大步数的时序差分学习。

2017-06-07 09:20:07 15076

原创强化学习笔记04——动态规划

动态规划（DP）是指，当给出一个具体的环境模型已知的马尔科夫决定过程（MDP），可以用于计算其最佳策略的算法集合。经典DP算法在强化学习中的实用性有限，因为他们假定了一个具体的模型，并且还受限于它们的计算cost很高，但它在理论上仍然很重要。策略迭代通用策略迭代是： 1. 先从一个策略π0\pi _{0}开始， 2. 策略评估(Policy Evaluation) - 得到策略π0\pi _{0

2017-05-29 10:34:41 2351 1

转载 Linux系统下安装matlab2016b

步骤：1、下载：http://pan.baidu.com/s/1bpigeHx passwd:gl8e下载后的Linux文件夹会有三个文件分别是R2016b_glnxa64_dvd1.iso、R2016b_glnxa64_dvd2.iso和Matlab 2016b Linux64 Crack文件夹。rar文件解压，首先安装rar解压工具，再进行Crack文件解压

2017-05-23 15:48:52 3596

原创强化学习笔记03——有限马尔科夫过程

代理环境交互在强化学习中，将学习器和决策器称为代理，而与代理交互的事物称为环境。可将问题认为代理与环境的交互。代理会产生一个与环境对应的策略，用πt\pi_{t}表示，πt(a|s)\pi_{t}(a|s)表示在状态为s的情况下采取动作a的概率。目标与报酬强化学习的目标就是最大化获得的报酬总和。我们将代理与环境的一次完整交互过程称为一个episode.在一次episode中t时刻获得的期

2017-05-21 09:49:35 1597

原创强化学习笔记01，02——强化学习问题和Multi-arm Bandits

人之所以能适应环境的变化并不断提高解决问题的能力，其原因是人能通过学习积累经验，总结规律，以增长知识和才能，从而更好地改善自己的决策和行为。强化学习的思想来源于人类对动物学习过程的长期观察。在机器学习范畴，依据从系统中获得的反馈不同，机器学习可以分为监督学习，无监督学习和强化学习。强化学习概念强化学习要解决的问题：一个能够感知环境的自治智能体（Agent），如何通过学习选择能够达到目标的最优动作

2017-05-20 16:11:09 1721

转载 ubuntu安装opencv3

1、安装依赖的库sudo apt-get install build-essential // 必须的，gcc编译环境sudo apt-get install cmake git libgtk2.0-dev pkg-config libavcodec-dev libavformat-dev libswscale-dev // 必须的,包括cmake等工具sudo apt-get i

2017-03-31 15:43:46 1026

转载 ubuntu安装之后的几件事

首先建议到科大镜像下载安装包http://mirrors.ustc.edu.cn/安装结束后需要卸载一下不用的软件：删除libreoffice libreoffice虽然是开源的，但是Java写出来的office执行效率实在不敢恭维，装完系统后果断删掉sudo apt-get remove libreoffice-common删除Amazon的链接sudo apt-get remove u

2017-03-31 15:36:06 587

转载蒙特卡罗方法(Monte Carlo Methods)

转自：http://www.cnblogs.com/jinxulin/p/3560737.html1. 蒙特卡罗方法的基本思想蒙特卡罗方法又叫统计模拟方法，它使用随机数（或伪随机数）来解决计算的问题，是一类重要的数值计算方法。该方法的名字来源于世界著名的赌城蒙特卡罗，而蒙特卡罗方法正是以概率为基础的方法。一个简单的例子可以解释蒙特卡罗方法，假设我们需要计算一个不规则图形的面

2017-03-23 11:04:19 5356

转载马尔可夫决策过程MDP

1. 马尔可夫模型的几类子模型大家应该还记得马尔科夫链(Markov Chain)，了解机器学习的也都知道隐马尔可夫模型(Hidden Markov Model，HMM)。它们具有的一个共同性质就是马尔可夫性(无后效性)，也就是指系统的下个状态只与当前状态信息有关，而与更早之前的状态无关。马尔可夫决策过程(Markov Decision Process, MDP)也具有马尔可夫性，

2017-03-17 09:23:44 712

转载 caffe源码阅读1：caffe.proto解析

看caffe源码先从这里开始吧。它位于…\src\caffe\proto目录下，在这个文件夹下还有一个.pb.cc和一个.pb.h文件，这两个文件都是由caffe.proto编译而来的。在caffe.proto中定义了很多结构化数据，包括：BlobProtoDatumFillerParameterNetParameterSolverParameterSolverStateLaye

2016-12-26 22:23:26 1484

转载 OpenCV滤波之copyMakeBorder和borderInterpolate

在OpenCV滤波算法中，有两个非常重要的基本工具函数，copyMakeBorder和borderInterpolatecopyMakeBorder函数原型void copyMakeBorder( const Mat& src, Mat& dst,int top, int bottom, int left, int right,int borderTyp

2016-12-26 11:13:04 891

转载 caffe笔记6——自定义layer

每一种层都对应一个同名cpp和hpp文件描述一下本次要实现层的功能：正向直接copy传播，反向时将梯度放缩指定倍。这个层对一些特定的网络结构有很重要的辅助作用，比如有时我们的网络存在分支，但我们不希望某一分支影响之前层的更新，那么我们就将梯度放缩0倍。（1）创建HPP头文件diff_cutoff_layer.hpp不同功能类型的层所引的头文件也不同，

2016-12-23 15:44:49 488

转载在caffe中添加自定义的layer

在处理某些问题时，可能会需要自己去定义特定的layer来实现某些特殊功能，现将添加新的caffe layer的具体步骤进行整理，便于以后复习。（一）具体步骤如下：1. 修改{caffe_dir}/src/caffe/proto/caffe.proto 文件，在 V1LayerParameter的LayerType enum中添加新的layer的名称及ID(如：MYLAYER 38)

2016-12-23 15:20:37 953

转载 1*1的卷积核与Inception

本文介绍1*1的卷积核与googlenet里面的Inception。正式介绍之前，首先回顾卷积网络的基本概念。 1. 卷积核：可以看作对某个局部的加权求和；它是对应局部感知，它的原理是在观察某个物体时我们既不能观察每个像素也不能一次观察整体，而是先从局部开始认识，这就对应了卷积。卷积核的大小一般有1x1,3x3和5x5的尺寸。卷积核的个数就对应输出的通道数，这里需要说明的是对于输入的每个通道，

2016-12-22 23:20:29 1068

转载 caffe学习笔记5——solver文件解析

solver算是caffe的核心的核心，它协调着整个模型的运作。caffe程序运行必带的一个参数就是solver配置文件。在Deep Learning中，往往loss function是非凸的，没有解析解，我们需要通过优化方法来求解。solver的主要作用就是交替调用前向（forward)算法和后向（backward)算法来更新参数，从而最小化loss，实际上就是一种迭代的优化算法。到

2016-12-19 22:39:40 462

转载 caffe笔记4——c++接口

本文主要解释官方提高的C++程序，通过这个程序来认识caffe的C++调用方式。#include <caffe/caffe.hpp>#ifdef USE_OPENCV#include <opencv2/core/core.hpp>#include <opencv2/highgui/highgui.hpp>#include <opencv2/imgproc/imgproc.hpp>#endi

2016-12-17 20:36:49 1143

原创 Two-Stream Convolutional Networks for Action Recognition in Videos

下载地址：http://www.datascienceassn.org/sites/default/files/Two-Stream%20Convolutional%20Networks%20for%20Action%20Recognition%20in%20Videos.pdfWhat’s problem?这篇论文主要是介绍了一种新的视频卷积的方法，并且将其应用于UCF-101和HMDB-51数据

2016-12-16 15:07:26 2552

原创 caffe笔记3——用python实现mnist

官网教程：http://nbviewer.jupyter.org/github/BVLC/caffe/blob/master/examples/01-learning-lenet.ipynb１. 改变工作目录：import os caffe_root = '/home/adam/caffe-master/' os.chdir(caffe_root) 2 导入相应的包import sys

2016-12-16 14:00:00 1674

原创 caffe笔记2——mnist例子

官网地址：http://caffe.berkeleyvision.org/gathered/examples/mnist.html一.准备数据首先，我们需要从网上下载数据，在caffe根目录下运行一下命令./data/mnist/get_mnist.sh ./examples/mnist/create_mnist.sh 运行完后，会出现如下两个文件：mnist_train_lmdb, and m

2016-12-15 21:08:00 521

原创 caffe笔记1——文件结构

caffe文件夹下的文件目录结构如下图：最重要的三个文件夹就是include, tools, src。读源码也就是主要读这三个文件夹，src文件的结构如下：在caffe教程中，介绍了caffe的三级结构(http://caffe.berkeleyvision.org/tutorial/net_layer_blob.html )：Blobs, Layers,Nets.如下图所示：（更多内容

2016-12-15 20:34:14 379

原创 3D Convolutional Neural Networks for Human Action Recognition

转载自 http://blog.csdn.net/zouxy09一、概述在现实的环境中，不同的场景存在杂乱背景、阻挡和视角变化等等情况，对于人来说，很容易就可以辨识出来，但对于计算机，就不是一件简单的事了。而以前的Human Action Recognition方法都是基于一些对应用场景苛刻的假设上的，例如目标小的尺度变化和小的视觉改变等。但这在现实世界中是很难满足的。目前，在这方面，大部分

2016-12-14 16:24:42 4791 4

转载光流法简单介绍

光流的概念是Gibson在1950年首先提出来的。它是空间运动物体在观察成像平面上的像素运动的瞬时速度，是利用图像序列中像素在时间域上的变化以及相邻帧之间的相关性来找到上一帧跟当前帧之间存在的对应关系，从而计算出相邻帧之间物体的运动信息的一种方法。一般而言，光流是由于场景中前景目标本身的移动、相机的运动，或者两者的共同运动所产生的。其计算方法可以分为三类：（1）基于区域或者基于特征的匹配方法；

2016-12-13 23:12:50 540

原创 Leetcode 27 Remove Element(移除数组中的指定元素)

Given an array and a value, remove all instances of that value in place and return the new length.Do not allocate extra space for another array, you must do this in place with constant memory.The order

2016-12-05 20:02:36 561

原创 Leetcode 80. Remove Duplicates from Sorted Array II（从已排序数组中移除重复元素）

跟26一样给定一个已排序的数组，删除重复的元素，这样每个元素最多只出现两次，并且返回新的数组长度。不允许为另一个数组使用额外的空间，你必须就地以常量空间执行这个操作。例如，给定[1,1,1,2,2,3]你的函数应该返回length = 5，其数组元素分别是1，1，2，2，3。它不关心你离开后的新长度。class Solution {public: int removeDuplic

2016-12-05 19:25:03 338

PRML中文版_模式识别与机器学习

matlab初级教程

opencv python教程

机器学习基础教程

caffe官方教程中文译本

空空如也