7 Joe-Han

尚未进行身份认证

我要认证

暂无相关简介

等级
TA的排名 1w+

强化学习笔记(2):Sarsa 与 Sarsa(lambda)

上篇文章中介绍了Q-Learning算法,而Sarsa和Q-Learning是非常类似的。在决策环节,二者是一样的,都是基于Q表,挑选值较大的动作值施加在环境中来换取回报.但是不同的地方在于Sarsa的更新方式是不一样的。...

2018-05-31 13:24:30

强化学习笔记(1):Q-Learning

考虑下面这个例子:假如我们想让一只老鼠学会走迷宫,往往会在迷宫的几个关键地点放上奶酪,老鼠每次走到关键点就会获得奖励,久而久之,老鼠就能学会快速找到迷宫出口,这就是强化学习的一个例子。 强化学习的关键要素包括:环境(environment),回报(reward),动作(action ),状态(state) 。在上述例子中,environment就是老鼠所处的迷宫,迷宫中的奶酪代表reward...

2018-05-30 19:01:24

遗传算法 (Genetic Algorithm)

1. 求最值问题常用方法爬山法:从搜索空间中随机产生邻近的点,从中选择对应解最优的个体,替换原来的个体,不断 重复上述过程。因为只对“邻近”的点作比较,所以目光比较“短浅”,常常只能收敛到离开初始位置比较近的局部最优解上面。对于存在很多局部最优点的问题,通过一个简单的迭代找出全局最优解的机会非常渺茫。(在爬山法中不能保证该山顶是一个非常 高的山峰。因为一路上它只顾上坡,没有下坡)模拟退火:...

2018-04-24 16:39:02

pandas基础教程

首先引入相关模块:import numpy as npimport pandas as pd1. DataFrame1.1 创建Seriesindex不指定则从0开始编号s = pd.Series([1, 2, 3, np.nan], index=['A', 'B', 'C', 'D'])print s 输出 A 1.0 B 2...

2018-04-15 23:33:47

Numpy基础教程

引入numpy 模块:import numpy as np1. 创建array1.1 列表转换为数组,查看属性:array = np.array([[1,2,3],[4,5,6]], dtype = np.float)print(array)print(array.dtype)print('number of dim:',array.ndim) print...

2018-04-02 23:57:42

【35-40】LeetCode:Python解题

41. First Missing Positive【Hard】Given an unsorted integer array, find the first missing positive integer.For example, Given [1,2,0] return 3, and [3,4,-1,1] return 2.Your algorithm should run ...

2018-03-19 17:47:09

【26-30】LeetCode:Python解题

26. Remove Duplicates from Sorted Array【Easy】Given a sorted array, remove the duplicates in place such that each element appear only once and return the new length.Do not allocate extra space for

2018-01-27 23:08:24

Tensorflow - Tutorial (9) : GAN生成图片

1. 介绍 本文利用Tensorflow实现生成式对抗网络GAN,关于GAN的详细介绍可参考:生成式对抗网络(Generative Adversarial Networks,GANs)。训练所使用的MNIST数据集包含了各种手写数字图片,图片的格式与数据预处理代码input_data.py的介绍详见:Tutorial (2)。本文在GAN中使用的生成模型GG和判别模型DD均为多层感知机。生成模

2018-01-08 16:35:29

生成式对抗网络(Generative Adversarial Networks,GANs)

1. 简介首先简要介绍一下生成模型(Generative model)与判别模型(Discriminative mode)的概念:生成模型:对联合概率进行建模,从统计的角度表示数据的分布情况,刻画数据是如何生成的,收敛速度快,例如朴素贝叶斯,GDA,HMM等。判别模型:对条件概率P(Y|X)P(Y|X)进行建模,不关心数据如何生成,主要是寻找不同类别之间的最优分类面,例如LR,SVM等

2018-01-04 15:40:00

【21-25】LeetCode:Python解题

21. Merge Two Sorted Lists【Easy】Merge two sorted linked lists and return it as a new list. The new list should be made by splicing together the nodes of the first two lists.Solution 1:# Defini

2017-12-16 11:46:14

【16-20】LeetCode:Python解题

16. 3Sum Closest【Medium】Given an array S of n integers, find three integers in S such that the sum is closest to a given number, target. Return the sum of the three integers. You may assume that each i

2017-12-09 12:00:01

【11-15】LeetCode:Python解题

11. Container With Most Water【Medium】Given n non-negative integers a1, a2, …, an, where each represents a point at coordinate (i, ai). n vertical lines are drawn such that the two endpoints of line i i

2017-12-09 11:52:57

【6-10】LeetCode:Python解题

6. ZigZag Conversion【Medium】The string “PAYPALISHIRING” is written in a zigzag pattern on a given number of rows like this: (you may want to display this pattern in a fixed font for better legibility)P

2017-12-09 11:47:01

【1-5】LeetCode:Python解题

1. Two Sum【Easy】Given an array of integers, return indices of the two numbers such that they add up to a specific target.You may assume that each input would have exactly one solution, and you may not

2017-12-09 11:42:04

判断有向图是否有环及环中元素

主要思路: dfs+栈。具体来说,遍历图中每个节点,若该节点还未被访问,则调用dfs。在访问节点n时,若该节点不在栈中,则将其入栈,否则说明存在环,并且环中元素为栈中从节点n到栈顶的所有点。# 输入:第一行为图中的边数,余下行为两个节点组成的边,以空格划分例:81 22 33 13 45 45 66 77 5代码:import sysdef dfs(no

2017-08-17 13:04:40

优化方法总结:SGD,Momentum,AdaGrad,RMSProp,Adam

1. SGDBatch Gradient Descent在每一轮的训练过程中,Batch Gradient Descent算法用整个训练集的数据计算cost fuction的梯度,并用该梯度对模型参数进行更新:Θ=Θ−α⋅▽ΘJ(Θ)\Theta = \Theta -\alpha \cdot \triangledown_\Theta J(\Theta )优点:cost fuction若为凸函数,能

2017-08-06 10:55:40

分支限界法

分支限界法(branchandboundmethod)是求解纯整数规划或混合整数规划问题的经典方法,在上世纪六十年代由LandDoig和Dakin等人提出。这种方法灵活且便于用计算机求解,目前已经成功运用于求解生产进度问题、旅行推销员问题、工厂选址问题、背包问题及分配问题等。1.基本思想:以广度优先或以最小耗费(最大效益)优先的方式搜索问题的解空间树分支限界法中,每一个活结点只有一次机

2017-07-04 16:57:55

Tensorflow - Tutorial (8) : Variables的保存与恢复

1. 主要方法我们在训练一个模型时,常希望保存训练过程中的variables,这些variables通常指的是模型的参数。通过保存这些参数以便下次可以继续进行训练或者基于已有的参数进行测试。Tensorflow针对这一需求提供了Saver类,通过Saver类提供的相关方法可以保存和恢复训练过程中的变量,该文件称为检查点文件(checkpoints)。检查点文件是一个二进制文件主要包含从变量名到ten

2017-06-06 19:30:00

隐马尔可夫模型(HMM)

1. 背景知识1.1随机过程随机过程是随机变量的集合,其在随机变量的基础上引入时间的概念(可简单理解为随机变量关于时间的函数)。例如,x1(t),x2(t),x3(t),x4(t)x_1(t),x_2(t),x_3(t),x_4(t) 都是时间的函数,我们将其称为样本函数,样本函数的集合便是一个随即过程。其定义如下:设:(Ω,F,P)(Ω, F , P )为一概率空间,集合TT 为一指标集合。如果对

2017-06-01 15:08:40

算法时间复杂度

1. 算法度量标准算法设计的标准包括以下四个方面正确性(correctness) 算法应满足用户的具体需求可读性(readability) 算法应好读,利于读者对算法的理解健壮性(robustness) 算法有好的容错能力,当输入异常或非法数据时,能够正确应对适当处理,不会产生莫名其妙的输出结果时间和空间效率(time and space efficiency) 时间效率指的是算法的

2017-05-09 19:56:21

查看更多

勋章 我的勋章
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!