1 韩绘锦

学生身份

我要认证

苟有恒何必三更灯火五更鸡,最无益莫过一日曝十日寒。

等级
TA的排名 3w+

Reinforement Learning-chapter2

MDP[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-dziiSPRZ-1603465708983)(img/2.1.png)]这节课我会给大家介绍马尔可夫决策过程。在介绍马尔可夫决策过程之前,先介绍它的简化版本:马尔可夫链以及马尔可夫奖励过程,通过跟这两种过程的比较,我们可以更生动地理解马尔可夫决策过程。第二部分会介绍马尔可夫决策过程中的 policy evaluation,就是当给定一个决策过后,怎么去计算它的价值函数。第三部分会介绍马尔可夫决策过程的控制,具体

2020-10-23 23:09:14

Reinforement Learning-chapter1

Reinforement LearningReinforcement Learning[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-sG1oATCa-1603206541533)(img/1.1.png)]**强化学习讨论的问题是一个 智能体(agent) 怎么在一个复杂不确定的环境(environment)里面去极大化它能获得的奖励。**示意图由两部分组成:agent 和 environment。在强化学习过程中,agent 跟 environment 一直在交互。A

2020-10-20 23:09:38

试题 I: 超级胶水

试题 I: 超级胶水时间限制: 1.0s 内存限制: 256.0MB 本题总分:25 分【问题描述】小明有 n 颗石子,按顺序摆成一排。他准备用胶水将这些石子粘在一起。每颗石子有自己的重量,如果将两颗石子粘在一起,将合并成一颗新的石子,重量是这两颗石子的重量之和。为了保证石子粘贴牢固,粘贴两颗石子所需要的胶水与两颗石子的重量乘积成正比,本题不考虑物理单位,认为所需要的胶水在数值上等于两颗石子重量的乘积。每次合并,小明只能合并位置相邻的两颗石子,并将合并出的新石子放在原来的位置。现在,小

2020-10-16 21:24:28

试题 H: 整数小拼接

试题 H: 整数小拼接时间限制: 1.0s 内存限制: 256.0MB 本题总分:20 分【问题描述】给定义个长度为 n 的数组 A1, A2, · · · , An。你可以从中选出两个数 Ai 和 Aj(i 不等于 j),然后将 Ai 和 Aj 一前一后拼成一个新的整数。例如 12 和 345 可以拼成 12345 或 34512 。注意交换 Ai 和 Aj 的顺序总是被视为 2 种拼法,即便是 Ai = Aj 时。请你计算有多少种拼法满足拼出的整数小于等于 K。【输入格式】第一行包含

2020-10-16 21:22:45

试题 G: 走方格

试题 G: 走方格时间限制: 1.0s 内存限制: 256.0MB 本题总分:20 分【问题描述】在平面上有一些二维的点阵。这些点的编号就像二维数组的编号一样,从上到下依次为第 1 至第 n 行,从左到右依次为第 1 至第 m 列,每一个点可以用行号和列号来表示。现在有个人站在第 1 行第 1 列,要走到第 n 行第 m 列。只能向右或者向下走。注意,如果行号和列数都是偶数,不能走入这一格中。问有多少种方案。【输入格式】输入一行包含两个整数 n, m。【输出格式】输出一个整数

2020-10-16 21:21:16

试题 F: 解码

试题 F: 解码时间限制: 1.0s 内存限制: 256.0MB 本题总分:15 分【问题描述】小明有一串很长的英文字母,可能包含大写和小写。在这串字母中,有很多连续的是重复的。小明想了一个办法将这串字母表达得更短:将连续的几个相同字母写成字母 + 出现次数的形式。例如,连续的 5 个 a,即 aaaaa,小明可以简写成 a5(也可能简写成 a4a、aa3a 等)。对于这个例子:HHHellllloo,小明可以简写成 H3el5o2。为了方便表达,小明不会将连续的超过 9 个相同的字符写成简

2020-10-16 21:19:00

试题 C: 分配口罩

试题 C: 分配口罩本题总分:10 分【问题描述】某市市长获得了若干批口罩,每一批口罩的数目如下:(如果你把以下文字复制到文本文件中,请务必检查复制的内容是否与文档中的一致。在试题目录下有一个文件 mask.txt,内容与下面的文本相同)9090400849940059268008547000495820044226005751200417560063096005865200660440046350001066340080872004554000现在市长要把口罩分

2020-10-16 21:17:25

试题 B: 合并检测

试题 B: 合并检测本题总分:5 分【问题描述】新冠疫情由新冠病毒引起,最近在 A 国蔓延,为了尽快控制疫情,A 国准备给大量民众进病毒核酸检测。然而,用于检测的试剂盒紧缺。为了解决这一困难,科学家想了一个办法:合并检测。即将从多个人(k个)采集的标本放到同一个试剂盒中进行检测。如果结果为阴性,则说明这 k个人都是阴性,用一个试剂盒完成了 k 个人的检测。如果结果为阳性,则说明至少有一个人为阳性,需要将这 k 个人的样本全部重新独立检测(从理论上看,如果检测前 k − 1 个人都是阴性可以推断出第

2020-10-16 21:15:36

试题 J: 网络分析

试题 J: 网络分析时间限制: 1.0s 内存限制: 512.0MB 本题总分:25 分【问题描述】小明正在做一个网络实验。他设置了 n 台电脑,称为节点,用于收发和存储数据。初始时,所有节点都是独立的,不存在任何连接。小明可以通过网线将两个节点连接起来,连接后两个节点就可以互相通信了。两个节点如果存在网线连接,称为相邻。小明有时会测试当时的网络,他会在某个节点发送一条信息,信息会发送到每个相邻的节点,之后这些节点又会转发到自己相邻的节点,直到所有直接或间接相邻的节点都收到了信息。所有发

2020-10-14 22:48:53

试题 I: BST 插入节点问题

试题 I: BST 插入节点问题时间限制: 1.0s 内存限制: 512.0MB 本题总分:25 分【问题描述】给定一棵包含 N 个节点的二叉树,节点编号是 1 ∼ N。其中 i 号节点具有权值 Wi,并且这些节点的权值恰好形成了一棵排序二叉树 (BST)。现在给定一个节点编号 K,小明想知道,在这 N 个权值以外,有多少个整数 X (即 X 不等于任何 Wi ) 满足:给编号为 K 的节点增加一个权值为 X 的子节点,仍可以得到一棵 BST。例如在下图中,括号外的数字表示编号、括号内的数字

2020-10-14 22:45:12

试题 H: 字符串编码

试题 H: 字符串编码时间限制: 1.0s 内存限制: 512.0MB 本题总分:20 分【问题描述】小明发明了一种给由全大写字母组成的字符串编码的方法。对于每一个大写字母,小明将它转换成它在 26 个英文字母中序号,即 A → 1, B → 2, … Z →26。这样一个字符串就能被转化成一个数字序列:比如 ABCXYZ → 123242526。现在给定一个转换后的数字序列,小明想还原出原本的字符串。当然这样的还原有可能存在多个符合条件的字符串。小明希望找出其中字典序最大的字符串。【

2020-10-14 22:43:28

试题 G: 八次求和

试题 G: 八次求和时间限制: 1.0s 内存限制: 512.0MB 本题总分:20 分【问题描述】给定正整数 n, 求 18 + 28 + · · · + n8 mod 123456789 。其中 mod 表示取余。【输入格式】输入的第一行包含一个整数 n。【输出格式】输出一行,包含一个整数,表示答案。【样例输入】2【样例输出】257【样例输入】987654【样例输出】43636805【评测用例规模与约定】对于 20% 的评测用例,1 ≤ n ≤

2020-10-14 22:42:00

试题 F: 分类计数

试题 F: 分类计数时间限制: 1.0s 内存限制: 512.0MB 本题总分:15 分【问题描述】输入一个字符串,请输出这个字符串包含多少个大写字母,多少个小写字母,多少个数字。【输入格式】输入一行包含一个字符串。【输出格式】输出三行,每行一个整数,分别表示大写字母、小写字母和数字的个数。【样例输入】1+a=Aab【样例输出】131【评测用例规模与约定】对于所有评测用例,字符串由可见字符组成,长度不超过 100。string=input()num_set=s

2020-10-14 22:40:09

试题 D: 矩阵

试题 D: 矩阵本题总分:10 分【问题描述】把 1 ∼ 2020 放在 2 × 1010 的矩阵里。要求同一行中右边的比左边大,同一列中下边的比上边的大。一共有多少种方案?答案很大,你只需要给出方案数除以 2020 的余数即可。【答案提交】这是一道结果填空题,你只需要算出结果后提交即可。本题的结果为一个整数,在提交答案时只填写这个整数,填写多余的内容将无法得分。f=[[ 0 for i in range(1011)]for i in range(1011)]f[0][0]=1for

2020-10-14 22:37:39

试题 C: REPEAT 程序

试题 C: REPEAT 程序本题总分:10 分【问题描述】附件 prog.txt 中是一个用某种语言写的程序。其中 REPEAT k 表示一个次数为 k 的循环。循环控制的范围由缩进表达,从次行开始连续的缩进比该行多的(前面的空白更长的)为循环包含的内容。例如如下片段:该片段中从 A = A + 4 所在的行到 A = A + 8 所在的行都在第一行的循环两次中。 REPEAT 6: 所在的行到 A = A + 7 所在的行都在 REPEAT 5: 循环中。 A = A + 5 实际

2020-10-14 22:36:45

试题 B: 纪念日

试题 B: 纪念日本题总分:5 分【问题描述】2020 年 7 月 1 日是中国共产党成立 99 周年纪念日。中国共产党成立于 1921 年 7 月 23 日。请问从 1921 年 7 月 23 日中午 12 时到 2020 年 7 月 1 日中午 12 时一共包含多少分钟?【答案提交】这是一道结果填空题,你只需要算出结果后提交即可。本题的结果为一个整数,在提交答案时只填写这个整数,填写多余的内容将无法得分。import datetimeend=datetime.datetime(ye

2020-10-14 22:33:57

试题 A: 解密

试题 A: 解密本题总分:5 分【问题描述】小明设计了一种文章加密的方法:对于每个字母 c,将它变成某个另外的字符 Tc。下表给出了字符变换的规则:例如,将字符串 YeRi 加密可得字符串 EaFn。小明有一个随机的字符串,加密后为EaFnjISplhFviDhwFbEjRjfIBBkRyY(由 30 个大小写英文字母组成,不包含换行符),请问原字符串是多少?(如果你把以上字符串和表格复制到文本文件中,请务必检查复制的内容是否与文档中的一致。在试题目录下有一个文件 str.txt,第一

2020-10-14 22:31:58

试题 F: 完全二叉树的权值

试题 F: 完全二叉树的权值时间限制: 1.0s 内存限制: 256.0MB 本题总分:15 分【问题描述】给定一棵包含 N 个节点的完全二叉树,树上每个节点都有一个权值,按从上到下、从左到右的顺序依次是 A1, A2, · · · AN,如下图所示:现在小明要把相同深度的节点的权值加在一起,他想知道哪个深度的节点权值之和最大?如果有多个深度的权值和同为最大,请你输出其中最小的深度。注:根的深度是 1。【输入格式】第一行包含一个整数 N。第二行包含 N 个整数 A1, A2, · ·

2020-10-11 17:48:03

试题 D: 迷宫

试题 D: 迷宫本题总分:10 分【问题描述】下图给出了一个迷宫的平面图,其中标记为 1 的为障碍,标记为 0 的为可以通行的地方。010000000100001001110000迷宫的入口为左上角,出口为右下角,在迷宫中,只能从一个位置走到这个它的上、下、左、右四个方向之一。对于上面的迷宫,从入口开始,可以按DRRURRDDDR 的顺序通过迷宫,一共 10 步。其中 D、U、L、R 分别表示向下、向上、向左、向右走。对于下面这个更复杂的迷宫(30 行 50 列),请找出一种通过迷宫

2020-10-11 17:46:24

试题 B: 数列求值

试题 B: 数列求值本题总分:5 分【问题描述】给定数列 1, 1, 1, 3, 5, 9, 17, …,从第 4 项开始,每项都是前 3 项的和。求第 20190324 项的最后 4 位数字。【答案提交】这是一道结果填空的题,你只需要算出结果后提交即可。本题的结果为一个 4 位整数(提示:答案的千位不为 0),在提交答案时只填写这个整数,填写多余的内容将无法得分。n=20190324#int(input())re=[1,1,1]next_num=3for i in range(4,

2020-10-11 17:40:35

查看更多

勋章 我的勋章
  • 签到王者
    签到王者
    累计签到获取,不积跬步,无以至千里,继续坚持!
  • 技术圈认证
    技术圈认证
    用户完成年度认证,即可获得
  • 新人勋章
    新人勋章
    用户发布第一条blink获赞超过3个即可获得
  • 阅读者勋章Lv3
    阅读者勋章Lv3
    授予在CSDN APP累计阅读博文达到30天的你,是你的坚持与努力,使你超越了昨天的自己。
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 1024勋章
    1024勋章
    #1024程序员节#活动勋章,当日发布原创博客即可获得
  • 勤写标兵Lv4
    勤写标兵Lv4
    授予每个自然周发布9篇以上(包括9篇)原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。
  • 学习力
    学习力
    《原力计划【第二季】》第一期主题勋章 ,第一期活动已经结束啦,小伙伴们可以去参加第二期打卡挑战活动获取更多勋章哦。
  • 原力新人
    原力新人
    在《原力计划【第二季】》打卡挑战活动中,成功参与本活动并发布一篇原创文章的博主,即可获得此勋章。
  • 原力探索 · S
    原力探索 · S
    在《原力计划【第二季】》打卡挑战活动中,发布 12 篇原创文章参与活动的博主,即可获得此勋章。(本次活动结束后统一统计发放)