自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

彩虹糖的博客

A penny for my thoughts, oh no I’ll sell for a dollar. They're worth so much more after I’m a goner.

  • 博客(102)
  • 资源 (1)
  • 收藏
  • 关注

原创 写在2021年的尾巴

忙忙碌碌又是一年,去年今日的焦虑和迷茫依然历历在目,而转眼之间,2021年又要过去了。2021年是“平稳”的一年,不同于我在2020年面对的动荡,2021年的生活很是“稳定”,我渐渐适应了研究生的生活,适应了实习生活,适应了常态疫情防控下的生活。按照惯例,首先记录下2021年的时间线。2021年的1到3月,依然是迷茫与探索期,在实验室刷着一篇又一篇的paper,寻找科研的思路,做着一道又一道的算法题,寻求一份实习机会。年初的时候这两个方向都特别不顺利...

2021-12-29 11:02:03 729 1

原创 Variational Auto-Encoder 变分自编码器详解

在我最近研读各种文献的过程中,变分自编码器(VAE)经常出现在各种方法中,往往紧接着VAE之后,就是一串我看不懂的公式。后来,我找到了VAE的原始文献,Auto-Encoding Variational Bayes,直接被劝退,实在是太难以理解了。直到最近,又看了几篇讲解VAE的文章,看了几个视频,请教了几位同学,感觉对VAE的理解深入了那么一点点,所以决定把这些理解永久地保存在博客上。下一步的目标是读懂Representation Learning with Contrastive Predictive

2021-01-14 15:44:39 1132

原创 1722. 执行交换操作后的最小汉明距离(并查集求解连通分量)

题目给你两个整数数组 source 和 target ,长度都是 n 。还有一个数组 allowedSwaps ,其中每个 allowedSwaps[i] = [ai, bi] 表示你可以交换数组 source 中下标为 ai 和 bi(下标从 0 开始)的两个元素。注意,你可以按 任意 顺序 多次 交换一对特定下标指向的元素。相同长度的两个数组source 和 target 间的 汉明距离 是元素不同的下标数量。形式上,其值等于满足source[i] != target[i] (下标从 0 开..

2021-01-12 20:54:25 386

原创 error: failed to push some refs to ‘https://github.com/xxxxx/xxxx.git‘

记录一个很傻的错误。今天想往github上提交一份代码,在git add . 和 git commit -m "first commit" 和 git push origin master之后,出现报错error: failed to push some refs to 'https://github.com/xxxxx/xxxx.git'亏我还在网上去百度答案,原因其实很简单,我们需要将最后一条命令改为git push origin main根据这篇新闻中的说法,由于美国的BLM运动吧,自去年

2021-01-03 19:15:18 375

原创 写在2020年的尾巴

这篇博文动手很早,十二月初就开始写了,主要是怕到了十二月底可能会有各种事情,导致这篇博文像去年一样鸽了,这一年说实话,过的比较失败,进步不明显,犯了很多错误,但是想来想去,这一年的心路历程还是要记录一下。照惯例,年终总结的第一部分应该是总结一下过去一年,我经历了怎样的艰难困苦,取得了怎样的成绩,获得了怎样的收获,但是面对2020年,我只想说,2020年真的是糟糕的一年,我再也不想经历这样的一年了。2020年,从结束了考试,欢天喜地从武汉大学回家开始,看我去年跨年时候的朋友圈,我从来没有想过,2020

2020-12-28 12:10:52 459 2

原创 强化学习:DDPG到MADDPG

本文主要关注于强化学习中基于策略梯度的方法。首先会简要介绍什么是策略梯度,什么是Actor-Critic算法,之后会重点讲述DDPG(Deep Deterministic Policy Gradient)算法,以及DDPG的多智能体版本:MADDG(Multi-agent Deep Deterministic Policy Gradient)。策略梯度(Policy Gradient)与基于策略梯度(Policy Based)的方法相对应的,是基于动作价值函数(Value Based)的方法。我们熟

2020-12-10 10:52:54 9386 8

原创 无监督机器翻译

0. 导言本博客源自本学期研究生的课程作业,需要针对某个指定的领域做Presentation,在写此博客之前,我对机器翻译一无所知,如后续出现任何错误,欢迎各位大佬不吝指正。本文大概分为三大部分,第一部分简单介绍机器翻译和无监督机器翻译。第二部分介绍最先取得良好效果的无监督机器翻译模型。第三部分会介绍近两年无监督机器翻译发表在顶会的进展。1. 概述1.1 机器翻译所谓机器翻译,就是利用机器的力量来做从一种自然语言(源语言)到另一种自然语言(目标语言)的自动翻译。传统的机器翻译算法依赖于对齐的

2020-11-09 19:41:47 1834

原创 机器学习课程笔记(一)导论

符号与名词定义有监督学习的输入被称作input variables, features, attributes,有监督学习的输出被称作output,variables,targets,输入+输出被称作training example,instance。所有的输入输出对的集合被称作training data set。 我们用代表输入,代表输出。有监督学习的过程为了找到一个函数。在这里是的一个good predicator。h被称为hypothesis。 有监督学习问题是按照输出进行分类的 输出是实.

2020-10-03 17:24:28 322

原创 迁移学习在多智能体强化学习领域的应用综述

本文主要对A Survey on Transfer Learning for Multiagent Reinforcement Learning Systems中的内容进行翻译,重组和摘要。预计两周的时间内完成。背景多智能体强化学习算法致力于解决,在环境中,智能体需要和其他智能体协作等复杂问题。因为强化学习算法取样的复杂度相当高,因此从零开始,去训练一个复杂的多智能体系统是十分消耗计算资源的,甚至是不可能完成的任务。迁移学习,为我们提供了可以从过往经验,或者其他智能体中学习知识的方法。在这篇综.

2020-07-22 23:09:33 2857 3

原创 Leetcode第185场周赛

1417. 重新格式化字符串签到题,没什么好说的,比赛的时候写的复杂了一些。class Solution { public String reformat(String s) { char [] arr = s.toCharArray(); ArrayList<Character> cs1 = new ArrayList<C...

2020-04-21 11:48:37 264 3

原创 leetcode第181场周赛题解

1389. 按照既定顺序创建目标数组给你两个整数数组 nums 和 index。你需要按照以下规则创建目标数组:目标数组 target 最初为空。按从左到右的顺序依次读取 nums[i] 和 index[i],在 target 数组中的下标 index[i] 处插入值 nums[i] 。重复上一步,直到在 nums 和 index 中都没有要读取的元素。请你返回目标数组。题目保证...

2020-03-31 11:46:39 398 3

原创 编程题:青蛙过河

某家公司的笔试题~题目链接:http://cpp.zjut.edu.cn/ShowProblem.aspx?ShowID=1313Description:池塘中有一条由荷叶拼凑而成的、长为N*2+1(1<=N<=30)的独木桥。如下所示(N=3):F F F空格G G G其中,中间的那片空格荷叶(即第N+1片)一开始是没有青蛙的。左边有N只青蛙,这些青蛙只...

2020-02-13 21:10:56 1869

原创 强化学习:Actor-Critic如何指导蒙特卡洛搜索

最近自己写这个五子棋的强化学习AI遇到了很多困难,而且在如何使用训练结果来指导蒙特卡洛搜索方面遇到了障碍。又重新回看了这个AlphaZero-Gomuku项目的源码,从中学到了很多东西,以及许多遇到的问题的具体解决方案。啊啊啊,好后悔,应该早点回去看的。(当然,源码还是有一些地方没有看明白)在之前写过的博文面向初学者的蒙特卡洛树搜索MCTS详解及其实现中,我们已经讲了如何基于UCB进行探...

2020-02-09 09:58:03 414

原创 Leetcode 第174场周赛题解

这两天在央视上看了很多关于武汉医生的报道,颇受触动。每个人都有每个人的职责,对于赋闲在家的我们,除了老老实实自我隔离,为武汉加油鼓劲外,唯一能做的,可能就是不让每一天的时光荒废了。武汉加油!!!昨天进行的Leetcode第174场周赛颇有纪念意义,这是我第一次四道题全部在竞赛时间内做出,虽然几乎是最后一刻才AC。1341. 方阵中战斗力最弱的k行给你一个大小为m* n...

2020-02-03 10:18:21 1827 2

原创 Leetcode 第173场周赛题解

5319. 删除回文子序列题目描述给你一个字符串s,它仅由字母'a' 和 'b'组成。每一次删除操作都可以从 s 中删除一个回文 子序列。返回删除给定字符串中所有字符(字符串为空)的最小删除次数。「子序列」定义:如果一个字符串可以通过删除原字符串某些字符而不改变原字符顺序得到,那么这个字符串就是原字符串的一个子序列。「回文」定义:如果一个字符串向后和向前读是一致的,那么这...

2020-01-26 16:35:01 521 1

原创 leetcode 1326. 灌溉花园的最少水龙头数目

新的一年,从重拾Leetcode开始!题目内容在 x 轴上有一个一维的花园。花园长度为n,从点0开始,到点n结束。花园里总共有n + 1个水龙头,分别位于[0, 1, ..., n]。给你一个整数n和一个长度为n + 1的整数数组ranges,其中ranges[i](下标从 0 开始)表示:如果打开点i处的水龙头,可以灌溉的区域为[i - ...

2020-01-25 17:09:20 1766

原创 论文笔记:Generative Adversarial Imitation Learning

继续我们上篇博文模仿学习概述中的内容,上文中我们讲到,模仿学习中的逆向强化学习和对抗神经网络如出一辙,在本文中,我们就继续分析将对抗神经网络和逆向强化学习结合遇到的困难和所提出的解决方法。背景在上文模仿学习概述中讲过,模仿学习目前分为两个大类,一类是“行为克隆”,一类是“逆向强化学习”,前者可以看作是一种有监督的学习,根据输入的State,输出的Action,通过神经网络进行训练,这...

2020-01-15 11:13:39 1159 1

翻译 提升对抗神经网络GAN的表现的方法(GAN — Ways to improve GAN performance)

最近一直在琢磨Generative Adversarial Imitation Learning这篇文章的内容和实现,也自己实现了几个GAN,但是效果都不是很理想,因此找到了一篇专门讲提升GAN表现的文章,用几个小时的时间把这篇文章翻译一下。原文链接:GAN — Ways to improve GAN performance相较于其他的神经网络,GAN在下面几个方面遇到的问题更为严重...

2020-01-15 11:02:23 1994

原创 模仿学习(Imitation Learning)概述

本篇文章是基于台大李宏毅老师的课程写的,如有疏漏,请看原课程。https://www.youtube.com/watch?v=rl_ozvqQUU81. 什么是模仿学习?模仿学习(Imitation Learning)也被称为基于演示的学习(Learning By Demonstration)或者学徒学习(Apprenticeship Learning)。机器是可以与环境进行交互的,但...

2019-12-30 16:02:55 20385 1

原创 未来两个月要完成的博文

1. 蒙特卡洛搜索算法2. 有限马尔可夫决策过程3. Dynamic Programming4.Temporal-Difference Learning5. Boot-strapping6.Tabular Methods7. DQN

2019-11-26 17:20:23 267

原创 面向初学者的蒙特卡洛树搜索MCTS详解及其实现

蒙特卡洛搜索算法是棋类博弈中常用的算法,本文介绍了蒙特卡洛搜索算法的原理,实现以及示例等内容,让读者对这一经典算法能有更加透彻的认识。

2019-11-24 20:48:44 20473 5

原创 算法笔记: 最小生成树

最小生成树,是一个十分重要的知识点。最早学它的时候,觉得它的算法思想很朴素,实现起来也很简单,但是伴随着后来的学习,我发现,最小生成树算法确实十分常用,算法题中也常常会手撸一个最小生成树,在这里,在把最小生成树相关知识点整理一下。定义最小生成树,首先,它是一棵基于图生成的树。它符合树的定义,并且包含了原图中的所有节点。同时我们要求,这棵树,其边相连的权重和是所有生成树中最小的,这...

2019-10-24 10:26:09 337

原创 算法笔记:使用A*算法解决八数码问题

coursera上普林斯顿大学算法课中第四周的作业,使用A*算法解决八数码问题。作业的具体要求如下:https://coursera.cs.princeton.edu/algs4/assignments/8puzzle/specification.php我提交的作业(90分):https://github.com/caozixuan/AlgorithmLearning/tree/maste...

2019-10-22 19:42:54 3857

原创 南大lamda实验室失败面经分享

2019年保研基本上尘埃落定,博主最后去了北大信科读研。关于北大的夏令营,把北大往年的夏令营真题刷一刷https://blog.csdn.net/caozixuan98724/article/details/93521208,面试就个凭造化了。值得说的内容不多,反而是最早开始的南大一行,值得说的地方很多,非常有趣,作为我参加的第一个保研面试,跪的一塌糊涂。初审首先先讲lamda实验室的初审...

2019-09-28 16:50:45 23047 14

原创 论文笔记:Dueling Network Architectures for Deep Reinforcement Learning

题目:Dueling Network Architectures for Deep Reinforcement Learning来源:ICML 2016 Best Paper摘要在最近几年中,在强化学习中使用深度学习的表示取得了很大的成功。这些应用依然使用了比较传统的架构。比如卷积网络,LSTM或者自动编码器。在本文中,作者提出了一个新的用于model free强化学习的神经网络...

2019-09-17 16:19:19 782

原创 算法笔记:动态规划(Dynamic programming)

动态规划问题一直是我心中永远的痛,说起来它的思想不复杂,就是把原问题分解成一个一个的子问题,逐渐分解下去。再详细一点说,对于某个问题,我们划分不同的状态和确定状态的表示方法,构建状态与状态之间的转移方程(问题与问题间的联系),最后确定问题的边界,解决问题。话是这么说,但是动态规划的问题实在是太灵活了,一方面很多题目难以确定是不是用动态规划做(说不定是贪心呢),另一方面状态转移方程很难确定,很容...

2019-09-07 15:26:25 309

原创 论文笔记:A Survey of Research on Cloud Robotics and Automation

A Survey of Research on Cloud Robotics and Automation摘要云是一种基础设施和广泛的互联网接入资源,有潜力为机器人和自动化系统提供巨大的好处。本次调查围绕四大潜在效益展开:1)大数据:图像、地图、轨迹和对象数据的访问存储库;2)云计算:根据统计分析、学习和运动规划的需要访问并行网格计算;3)集体机器人学习:机器人共享轨迹、控制策略和...

2019-08-22 10:03:25 483

原创 算法笔记:Playing Atari with Deep Reinforcement Learning

Playing Atari with Deep Reinforcement Learning比较尴尬,上篇文章不是DQN的来源,这篇才是。上篇Nature文章对于DQN做出的改进上次没读明白,查看其他资料,做实践的时候才明白。关于Nature的改进下面会提到。基本信息作者:VolodymyrMnih KorayKavukcuoglu DavidSilver AlexGrav...

2019-08-11 21:49:07 7189

原创 1145. 二叉树着色游戏

题目描述有两位极客玩家参与了一场「二叉树着色」的游戏。游戏中,给出二叉树的根节点root,树上总共有n个节点,且n为奇数,其中每个节点上的值从1到n各不相同。游戏从「一号」玩家开始(「一号」玩家为红色,「二号」玩家为蓝色),最开始时,「一号」玩家从[1, n]中取一个值x(1 <= x <= n);「二号」玩家也从[1, n]中取一个值...

2019-08-07 22:11:52 519

原创 leetcode 1144. 递减元素使数组呈锯齿状

1144.递减元素使数组呈锯齿状坚持刷leetcode,巩固算法基础。 这个题目刚看的时候感觉稍微有点复杂,想了一下其实没有什么优化问题,分下面两种情况讨论,数组元素一个一个的看,遇到不符合要求的就直接改掉,相当于一个贪心。给你一个整数数组nums,每次操作会从中选择一个元素并将该元素的值减少1。如果符合下列情况之一,则数组A就是锯齿数组:每个偶数索引对应的...

2019-08-07 21:30:20 795

原创 论文笔记:Domain Randomization for Transferring Deep Neural Networks from Simulation to the Real World

Domain Randomization for Transferring Deep Neural Networks from Simulation to the Real World文章概况作者:Josh Tobin, Rachel Fong, Alex Ray, Jonas Schneider, Wojciech Zaremba, Pieter Abbeel来源:2017 I...

2019-08-05 16:40:01 5238

原创 论文笔记:Human-level control through deep reinforcement learning

Human-level control through deep reinforcement learning论文链接:https://courses.cs.washington.edu/courses/cse571/16au/slides/dqn_nature.pdf论文来源:Nature(还是第一次读nature上的论文)论文摘要强化学习的理论根植于心理学和行为学在...

2019-08-05 11:28:25 3728

原创 论文笔记:Dyna, an Integrated Architecture for Learning, Planning, and Reacting

文章基本概况标题:Dyna, an Integrated Architecture for Learning, Planning, and Reacting作者:Richard S. Sutton,强化学习教父,被认为是现代计算的强化学习创立者之一。他为该领域做出了许多重大贡献,包括:时间差分学习(temporal difference learning)、策略梯度方法(policy gr...

2019-07-30 11:01:16 870

原创 论文笔记:Software-Defined Networks with Mobile Edge Computing and Caching for Smart Cities

Software-Defined Networks with Mobile Edge Computing and Caching for Smart Cities: A Big Data Deep Reinforcement Learning Approach文章基本概况作者:Ying He, F. Richard Yu, Nan Zhao, Victor C.M. Leung, a...

2019-07-29 11:22:25 797

原创 北大信科夏令营机考题分类汇总

巧妙的方法1. 护林员盖房子(2019信科研究生上机测试)这个题目与leetcode85题为一题。利用了一个很玄妙的栈。#include <iostream>#include<string>#include <algorithm>#include <vector>#include<math.h>#include&...

2019-07-14 20:20:35 3933 3

原创 matlab simulink入门:搭建一个简单的电路

我也不知道,我为什么还要去掌握点simulink的东西,小小年级承受了生活不该承受的重担。这年头,程序员真是要啥都会啊,不然应付不了快速变化的需求。Matlab版本:R2017 a1. 创建环境点击主页中的"simulink"按钮,我们创建一个空白的环境。2. 构建电路(1)在matlab命令行中输入"powerlib",将电源,电阻,电压表啥的从弹出的窗口中拷...

2019-06-21 14:20:48 43202 8

原创 算法笔记:从极端情况到目标情况的优化求解

最近心情是非常沉郁啊,南大面试真是搞我心态。哎,也没啥好抱怨的,写篇博客舒缓一下心情,总结总结经验之后继续面吧。这篇博客的灵感是来自于在论文中实际应用的一个算法,最开始面对我要求解的问题的时候,算法的时间复杂度令我非常的绝望,是一个指数的算法复杂度。后来在做启发式的算法的时候,偶然发现,这个问题竟然可以在线性时间内求解,感觉非常的惊喜,算法确实是一个很奇妙的东西。在这篇博客中,我首先会通过...

2019-06-12 20:21:58 342

原创 理解Java Runtime.exec方法的使用——exec调用docker

好久没有写博客,今天在这里简单介绍一下我在做软件工程项目时使用Java Runtime.exec方法遇到的一些问题,希望加深大家对Runtime.exec方法的理解。首先,大家都知道,Runtime.exec(String command)函数是用来执行命令行命令的,那么是不是我把写在命令行中的命令直接复制粘贴成参数就可以了呢?事实并非如此,我们要理解这个函数的使用,要从它的源码说起。p...

2019-05-21 10:28:17 4989 6

原创 算法笔记:桶排序

今天做leetcode 164最大间距的时候,看到这种具有线性时间复杂度的排序方法。第一次看这个算法,真是惊掉了下巴,排序算法还真是博大精深啊,之前我的博客也总结了不少排序算法,自认为对排序也算是略懂一点,没想到还是不断有经典常用的排序算法刷新我对排序算法的认识。桶排序,简单来说,就是一种用空间换时间的排序的方法,我们通过多放置“桶”,扫描需要排序的数组的时候把元素放到对应的桶中,之后对于每个...

2019-05-07 22:04:51 227

原创 算法笔记:优先权队列

优先权队列Stack. Remove the item most recently added.Queue. Remove the item least recently added.Randomized queue. Remove a random item.Priority queue. Remove the largest (or smallest) item优先权队列,...

2019-04-17 19:01:25 1366

Dyna, an Integrated Architecture for Learning, Planning, and Reacting

Dyna, an Integrated Architecture for Learning, Planning, and Reacting

2019-07-29

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除