自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 收藏
  • 关注

转载 强化学习基础

马尔科夫决策过程(Markov Decision Processes,MDPs)  MDPs简单来说就是一个智能体(Agent)采取行动(Action)从而改变自己的状态(State)来获取奖励(Reward)与环境(Environment)交互的过程。MDPs的策略完全取决于当前状态,这也是马尔科夫性质的体现。可以简单的表示为M=S,A,Ps,a,R>M=。基本概念s∈Ss \

2018-01-22 19:59:54 226

原创 多臂老虎机(Multi-armed bandit problem)

我们会遇到很多选择的场景,如:上哪所大学,学什么专业,去哪家公司,等等。这些选择问题都会让选择困难症患者头大。那么,有什么科学的办法来解决这些问题呢?答案是:有!而且是非常科学的办法,那就是多臂老虎机(bandit)算法。bandit算法最早来源于劳苦大众喜闻乐见的娱乐活动:赌博学,它要解决的问题是这样的:一个赌徒要去摇老虎机,走进赌场一看,妈呀,一排老虎机,外表一毛一样,没啥区别。但是每

2018-01-17 10:37:34 5695

转载 强化学习初级阶段-1

本文转自 马尔科夫决策过程:基于马尔科夫过程理论的随机动态系统的最优决策过程。它是马尔科夫过程与确定性动态规划相结合的产物,故又称为马尔科夫型随机动态规划。具备马尔科夫链属性: 一个事件/物体可视为无数(状态,动作)的切片积分而成,而下一个状态s′s'仅与当前状态ss有关,与历史状态无关。例如:下棋的时候,每一步的决策都仅与当前棋局的状态有关,而下棋者是基于最终收益作为动作的策略依据。

2018-01-09 09:40:09 203

转载 动态规划-初级

上一章动态规划入门给了一个非常简单的例子。现在我们讨论更加复杂的问题,如何找到状态之间的转移方程。还是举一个直观的例子:   一个序列有NN个数,分别为A[1],A[2],⋯,A[N]A[1],A[2],\cdots,A[N],求出最长非降子序列的长度。根据第一章我们讲的,我们首先要定义一个“状态”来代表它的子问题,并且找到它的解。正常情况下,某个状态只与它之前的状态有关,而与其后来的状态无关。我

2017-12-28 18:07:41 122

转载 动态规划-入门

什么是动态规划,我们需要如何描述它?  动态规划算法通常基于一个递推公式以及一个或多个初始状态。当前子问题的解将依赖上一子问题的解。使用动态规划来解决问题只需要多项式复杂度,因此它比回溯法,暴力法等要快许多。 首先,我们要招到某个状态的最优解,然后在它的帮助下,找到下一个状态的最优解。“状态”代表什么以及如何找到它?  “状态”用来描述该问题的子问题的解。如果我们有面值为11元、33元和55元的硬

2017-12-28 10:59:30 187

翻译 The differences between processes and threads?

Why threads over processes?(1) Creating a new process can be expensive.             1)Time                         A call into the operating system is needed                         Context-sw

2014-12-18 11:52:13 326

原创 TCP/IP端口

端口是指接口电路

2014-06-02 13:21:04 499

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除