自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(30)
  • 收藏
  • 关注

原创 request

imort requestsif 0: postData = {'username': 'admin', 'password': '123456'} url = 'http://220.249.52.133:42725/check.php' r = requests.post(url=url, data=postData) r.encoding = 'utf-8' print(r.text)#get postif 1: getData={"a":.

2020-12-13 13:24:07 131

原创 时序差分学习

第六章 时序差分学习如果非要说一个强化学习中最核心并且新奇的方法,那么时序差分学习毫无疑问就是那种方法。TD方法是蒙特卡洛方法和动态规划思想的结合。所以TD方法有两个特点:一是可以直接从经验中学习,不需要环境模型;二是TD方法根据其他的估计来更新估计,也就是自举。时序差分学习,蒙特卡洛方法和动态规划三者之间关系的比较是强化学习中贯穿始终的主题。6.1 TD预测(1)Constant-α...

2018-08-16 10:21:58 1738

原创 蒙特卡洛方法

蒙特卡洛方法在本章中,我们介绍了估计值函数的学习方法,并用此来寻找最优策略。不像前几章有对环境的完全的认识,蒙特卡洛方法只需要经验。总结来说,蒙特卡罗方法是从经验中学习值函数和策略的方法。蒙特卡洛方法能被用于两种方法:一是直接从从实际经验中学习,并不需要模型;二是能从模拟中学习,不需要概率分布。蒙特卡洛方法是基于平均样本报酬的解决强化学习的方法。本书中蒙特卡洛方法被用于情节式的任务。蒙特卡洛...

2018-08-16 10:21:18 4797 1

原创 基于表方法的规划和学习方法读书笔记

基于表方法的规划和学习方法读书笔记在这一章中我们从一种统一的视角结合了强化学习中有模型的方法和无模型的方法。基于模型的方法的主要部分是规划,无模型的方法主要依赖学习。这两类方法有共同的基础,首先都是依靠值函数的计算,再者这些方法都是基于未来状态然后靠反向传播来更新当前值函数。8.1 模型和规划agent可以根据环境的模型来预计某一动作的反应。有些模型是随机性的,这种情况下每一种反馈都有...

2018-08-16 10:11:54 395

原创 第七章 n步自举读书笔记

第七章 n步自举在本章中,我们结合了前两章讲的蒙特卡洛方法和一步时序差分方法,拓展出n步TD方法。N步方法使我们从TD(0)的一步时间限制中跳出,可以根据问题合理的选择n的大小。和往常一样,我们先介绍n步自举的预测问题,然后在考虑它的控制问题。7.1 n步TD预测一步TD方法是等一个时间步数后根据下一个状态的估计值自举计算,而蒙特卡洛方法是等所有的时间步数完成后进行计算,n步自举是中间...

2018-08-16 10:11:04 405

原创 py os库

os库是Python标准库,包含几百个函数OS库提供通用的、基本的操作系统交互功能,包括路径操作、进程管理、环境参数等几类路径操作函数功能os.path.abspath(path)返回path在当前系统(idle安装路径)的绝对路径os.path.normpath(path)归一化path的表示形式,统一用\\分割路径os.path.relpath(path)返回当前程序与文件之间的相对路径,pa...

2018-05-16 16:05:39 683

原创 Python编程小知识

(1)a b互换顺序a,b = b, a

2018-05-13 11:09:53 156 1

原创 什么是好的程序

1.简单易懂被人一看就懂2.拓展性强

2018-05-13 10:09:45 416

转载 字符编码

今天中午,我突然想搞清楚Unicode和UTF-8之间的关系,于是就开始在网上查资料。结果,这个问题比我想象的复杂,从午饭后一直看到晚上9点,才算初步搞清楚。下面就是我的笔记,主要用来整理自己的思路。但是,我尽量试图写得通俗易懂,希望能对其他朋友有用。毕竟,字符编码是计算机技术的基石,想要熟练使用计算机,就必须懂得一点字符编码的知识。1. ASCII码我们知道,在计算机内部,所有的信息最终都表示为...

2018-05-10 21:14:30 98

原创 python文件

打开和关闭<文件句柄>.open(<路径及文件名>,<打开模式>)<文件句柄>.close()文件的打开模式描述‘r’只读模式,默认值,如果文件不存在则返回FileNotFoundError'w'覆盖写模式,文件不存在则创建,存在则完全覆盖'x'创建写模式,文件不存在则创建,存在则返回FileExistError'a'追加写模式,文件不存在则创建,存...

2018-05-10 16:58:28 130

原创 jieba分词

jieba是优秀的中文分词第三方库,需要额外安装提供三种分词模式原理:利用一个中文词库,确定汉字之间的关联概率汉字之间概率大的组成词语,形成分析结果除了分词,用户还可以添加自定义的词组函数 jieba.lcut(s)j精确模式,返回一个列表类型的分词结果,没有冗余>>>jieba.lcut("我喜欢学习")>>>['我','喜欢','学习']jieba.lcut...

2018-05-09 22:03:00 425

原创 Python字典类型

字典类型是一种映射,是一种键(索引)和值(数据)的对应。字典是键值对的集合,其中键值对之间无序。创建用{}或者dict()创建 如 <字典名称> = {<键1>:<值1>,<键2>:<值2>,<键3>:<值3>……}type(x)    用来返回x的类型函数描述del d[k]删除字典d中键k对应的键值对k in

2018-05-09 21:16:10 364

翻译 Python列表

列表是序列中最常用的一种类型,创建后可以随意被修改使用【】或者list()创建列表中各元素类型可以不同,无长度限制。【】和list()真正创建一个列表,赋值仅传递引用函数或者方法描述ls[i]=x略ls[i:j:k]=lt用列表lt替换ls切片对应元素的子列表del ls[i]略del ls[i:j:k]删除i到j中步长为k的子序列,不包括kls+=lt略ls*=n略ls.append(x)在列表...

2018-05-09 20:14:14 1150

原创 Python元组

元组继承了序列的全部通用操作因为元组创建后不能修改,因此没有特殊操作可以使用或者不使用小括号

2018-05-09 19:53:05 105

原创 Python序列

序列定义序列是一维元素向量,元素类型可以不同序列有序号引导,通过下标访问特定元素序列是一个基类类型

2018-05-09 19:49:27 361

原创 Python集合

定义集合和数学上的概念是一致的,集合内数据无序,而且没有重复。创建1.通过{}2.通过set(),其中建立空集合必须用set()>>> set('hello'){'e', 'l', 'o', 'h'}集合操作符集合处理方法函数或方法功能s.copy()返回集合S的一个副本len(s)返回集合S的元素个数x in s在,则True,不在则Falses not in s反之set(...

2018-05-09 19:39:23 157

原创 py 函数

函数的理解及定义定义函数是具有特定功能的,可重用的代码块作用:1降低编程难度2重用def 函数名 (<0个或多个参数>)    函数体    return <返回值>函数的参数传递(1)函数定义时可以为函数设置默认参数值,构成可选参数def 函数名 (<必选参数><可选参数>)    函数体    return <返回值>其中可选参数一定...

2018-05-07 17:06:08 132

原创 数据类型及基本操作

整数类型可正可负,没有取值范围限制进制 十进制 二进制:以0b或者0B开头,如0b011,-0B111八进制:以0o或者0O开头十六进制:以0x或者0X开头浮点数类型浮点数存在取值范围和精度存在限制,但常规计算可以忽略,取值范围约为+-10^308,精度数量级10^-16浮点数运算存在不确定尾数,不是bug,>>> 0.1+0.20.30000000000000004      ...

2018-05-07 16:23:54 260

原创 random库介绍

常用函数函数功能seed(a)由给定种子 在梅森旋转算法下 形成随机数列(相同种子产生的随机数列相同)(如果不用seed,则默认为当前系统时间)random()产生[0.0,1.0)之间的随机小数randint(a,b)产生一个【a,b】之间的随机整数getrandbits(s)产生一个k比特长的随机数uniform(a,b)产生a,b之间的随机小数randrange(a,b,k)产生在[a,b)...

2018-05-06 21:53:19 2452

原创 Python 循环

遍历循环 for结构 for 循环结构 in 遍历结构:    语句块遍历结构可以是:字符串,range(),文件的,列表行 无限循环for 判断    语句循环保留字break continue高级用法循环与else:如果没有break就执行else 后的语句块...

2018-05-06 19:42:04 121

原创 Python 分支结构

二分支1一般形式2if else 紧凑形式             <表达式一> if 条件成立 else <表达式二>多分支关系运算符 and or not == >= <= > <异常处理重要的程序提示:1定位行数2异常类型:一场内容提示两种基本方式1try:        <语句块一> except:        <语句块二...

2018-05-06 16:49:47 2679

转载 py turtle库

 Turtle库是Python语言中一个很流行的绘制图像的函数库,想象一个小乌龟,在一个横轴为x、纵轴为y的坐标系原点,(0,0)位置开始,它根据一组函数指令的控制,在这个平面坐标系中移动,从而在它爬行的路径上绘制了图形。turtle绘图的基础知识:1. 画布(canvas)        画布就是turtle为我们展开用于绘图区域,我们可以设置它的大小和初始位置。        设置画布大小  ...

2018-05-03 22:09:49 1532

原创 turtle库介绍

#pythonDraw.py import turtle turtle.setup(650,350,200,200) turtle.penup() turtle.fd(-250) turtle.pendown() turtle.pensize(25) turtle.pencolor("purple") turtle.seth(-40) for i in rang...

2018-05-03 21:19:38 1628

原创 Reinforcement Learning:An Introduction 第三章读书笔记

有限马尔科夫决策过程(Finite Markov Decision Processes)在这一章中我们介绍了贯穿本书的马尔科夫决策过程。这类问题包括评定性的反馈和关联因素(在不同的情况下选择不同的行为)。MDPs是进行序列决策的典型的形式化,在这里行为不仅影响即时的reward还影响接下来的情况。所以MDPs包含延迟报酬并且需要权衡即时reward和延迟reward。3.1智能体环境接口(The ...

2018-04-22 21:20:47 814

原创 Python格式输出实例(小数整数输出)

源文件f = 1.6print("1.6直接整型输出是 %d"%f,end="\n")print("1.6利用浮点数的精度范围输出%.0f"%f)输出1.6直接整型输出是 11.6利用浮点数的精度范围输出2结论直接变成整数输出,尾数直接舍弃,而精度显示是四舍五入的。...

2018-04-16 10:21:14 26232

原创 Reinforcement Learning:An Introduction第二章读书笔记

Part I:Tabular Solution Methods在这一部分中我们描述了强化学习中几乎所有的核心思想。在这些问题中state和action空间足够小可以被估计值函数如队列,表来展示。在这些例子中,都能准确地找到最佳值函数和最佳策略。这与下一部分是不同的,下一部分模糊的解决,但适用范围更广。这一部分的第一章介绍了强化学习的特殊例子,它只有一种情况,被称作bandit问题。第二章介...

2018-04-14 12:10:15 1509

原创 Python time库简要介绍

time库基本介绍计算机时间的表达提供获取系统时间并格式化输出功能提供系统级精确计时功能,用于程序性能分析用法 import time时间获取函数描述time()获取当前时间戳,即计算机内部时间值,浮点数如:time.time() 返回 154564641.1566853 是从1970年计时的秒ctime()获取当前时间并以人类容易读的方式表示,返回字符串如:time.ctime() “Fri A...

2018-04-14 00:27:04 654

原创 python字符串笔记

字符串类型的表示    可以用单引号或双引号(只能表示单行)    三单引号或三双引号来表示多行数据,三单引号还可以用作注释        作用:字符串表示的冗余可以处理引号在字符串中的情况。     字符串的索引         正向0开始 逆向-1开始     字符串切片        <字符串>【M:N】从M到N-1            其中M和N可以缺失,M缺失是指从开始出,...

2018-04-11 23:41:27 338

原创 python第一课

两个最基本的python程序一·温度转化程序#TempConvert.pyTempStr = input("请输入带有符号的温度值:")if TempStr[-1] in ['F','f']: C =(eval(TempStr[0:-1])-32)/1.8 print("转化后的温度是{:.2f}C".format(C))elif TempStr[-1] in ['C','c...

2018-04-09 23:38:08 165

原创 强化学习:入门 第一章读书笔记

第一章读书笔记 引子:  自从婴儿开始,婴儿就能够从与环境的交互中学习。从与环境的交互中学习是差不多所有学习和智能的最基础的理论。书中我们以人工智能工程师和研究者的身份用计算的方法,研究不同方法的效果。强化学习与其他机器学习相比较而言更注重目标引导。1.1强化学习  强化学习主要是学习如何从既定状态中映射出最佳行动,以便最大化数值奖赏信号。强化学习中两个最明显的特点是试错搜索和延迟效应。  弄清强...

2018-04-08 21:18:27 957

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除