12 wilbertzhou

尚未进行身份认证

人生是一系列的逗号,不是句号。

等级
TA的排名 4w+

世界模型【论文】

Agent可以在自己的梦境中学习吗?概述我们探索建立支撑流行强化学习环境的生成型神经网络模型,我们的世界模型可以以无监督的方式快速训练,以学习针对环境的压缩时空表示。通过使用从世界模型中提取的特征作为agent的输入,我们可以训练一个非常紧凑和简单的策略,可以解决所要求的任务,甚至可以完全在其世界模型生成的梦境中训练agent,并将此策略迁移到实际环境。介绍世界模特,来自斯科特麦...

2019-04-07 21:35:48

剖析强化学习 - 第八部分

作者:Massimiliano Patacchiola在上一篇文章中,我介绍了函数逼近作为在强化学习设置中表示效用函数的方法。我们使用的简单逼近器基于特征的线性组合,并且它非常有限,因为它无法模拟复杂的状态空间(如XOR网格世界)。在这篇文章中,我将介绍人工神经网络作为非线性函数逼近器,向您展示如何使用神经网络来模拟效用函数。我将从名为Perceptron 的基本架构开始,然后转向称为多层感知...

2019-02-01 20:13:10

Neural Networks for Machine Learning Lecture 6 Quiz

Neural Networks for Machine Learning Lecture 6 Quiz每个人的题目可能有略微不同。

2018-10-28 19:31:18

分布式TensorFlow

通过使用多个GPU服务器,减少神经网络的实验时间和训练时间。作者:Jim Dowling说明:可以在这里找到示例的完整源代码。2017年6月8日,分布式深度学习的时代开始了。在那一天,Facebook发表了一篇paper,展示了他们将卷积神经网络(ImageNet上的RESNET-50)的训练时间从两周减少到一小时的方法,该方法使用32个服务器的256个GPU。在软件中,他们引入了一种具有非常大的...

2018-06-18 10:27:01

解决几乎任何机器学习问题的方法

作者:Abhishek Thakur 一位数据科学家平均每天处理大量数据,有人说,超过60-70%的时间花在了数据采集、数据清理、数据整理上,使得机器学习模型可以应用于这些数据。本文重点介绍第二部分,即应用机器学习模型,包括预处理步骤。这篇文章中讨论的流水线是我参与过的一百多次机器学习竞赛的结果。必须指出,这里的讨论虽然普通,但非常有用,也存在非常复杂的方法,可供专业人员练习。我们将在这里使用py...

2018-06-03 19:10:04

剖析强化学习 - 第七部分

作者:Massimiliano Patacchiola到目前为止,我们已经通过查找表(或者矩阵)表示效用函数。这种方法有一个问题,当潜在的马尔可夫决策过程很大时,有太多的状态和动作存储在内存中。此外,在这种情况下,访问所有可能的状态是非常困难的,这意味着我们无法估计这些状态的效用值。关键问题是泛化:如何产生一个只有很小子集的大状态空间的良好近似。在这篇文章中,我将向您展示如何使用特性的线性组合...

2018-05-09 22:08:30

剖析强化学习 - 第六部分

作者:Massimiliano Patacchiola你好!欢迎来到“解剖强化学习”系列的第六部分。到现在我们已经了解了强化学习如何工作。然而,我们将大部分技术应用于机器人清洁示例,我决定采用这种方法的原因,是因为我认为应用于不同技术的同一个例子,可以帮助读者更好地理解从一种场景到另一种场景的变化。现在是将这些知识应用于其他问题的时候了。在下面的每一节中,我将介绍一个强化学习问题,并且将向您展...

2018-05-03 22:08:32

剖析强化学习 - 第五部分

作者:Massimiliano Patacchiola正如我在上一篇中承诺的那样,我将在第五部分介绍进化算法,特别是遗传算法(GA)。如果你阅读完第四篇文章,你应该知道GA可以被认为是Actor-only的算法,这意味着他们直接在策略空间中搜索而不需要效用函数。GAs通常被认为是与强化学习分开的,实际上,GA不关注潜在的马尔可夫决策过程以及Agent在其生命周期中选择的动作。使用这些信息可以实...

2018-04-27 22:06:01

剖析强化学习 - 第四部分

作者:Massimiliano Patacchiola这是“解剖强化学习”系列的第四篇。在这篇文章中,我将介绍另一组广泛用于强化学习的技术:Actor-Critic(AC)方法。我经常将AC定义为一种元技术,它使用以前的帖子中介绍的方法来学习。基于AC的算法是强化学习中最流行的方法之一。例如,Google DeepMind的一些研究人员最近推出的Deep Determinist Policy ...

2018-04-22 19:08:31

剖析强化学习 - 第三部分

作者:Massimiliano Patacchiola欢迎来到“剖析强化学习”系列的第三部分。在第一篇和第二篇文章中,我们分析了动态规划和蒙特卡罗(MC)方法。第三部分要讲的强化学习技术称为时间差分(TD)方法。TD学习解决了MC学习中出现的一些问题,在第二部分的结论中我描述了这个问题之一,使用MC方法,需要等到episode结束才更新效用函数,这是一个严重的问题,因为一些应用程序可能会有很长...

2018-04-16 20:40:58

剖析强化学习 - 第二部分

作者:Massimiliano Patacchiola欢迎来到剖析强化学习系列的第二部分。如果您顺利完成了第一部分,那么恭喜!您学会了强化学习的基础,即动态编程方法。正如我在第一部分中所承诺的那样,第二部分将深入进行无模型强化学习(用于预测和控制),对Monte Carlo(MC)方法进行概述。这篇文章与第一部分(弱)相关,我将使用相同的术语,例子和数学符号。在这篇文章中,我将结合Russel...

2018-04-07 22:18:20

剖析强化学习 - 第一部分

作者:Massimiliano Patacchiola前言 [本文是对强化学习的介绍,适合已经有一些机器学习背景,并且懂一些数学和Python的读者。当我研究一种新算法时,我总是希望了解底层机制,从这个意义上讲,使用一种编程语言从头开始实现算法对理解算法是有帮助的。我在这篇文章中采用了这种方法,虽然需要花更长时间阅读但值得这样。我不是以英语为母语的人,所以如果你发现一些难以理解的错误句子,请在...

2018-04-05 11:36:49

数据库优化-基准测试(五)

基准测试工具:DBT2DBT2是一个OLTP事务性能测试工具。它模拟一个批发供应商,多个职员访问数据库,更新客户信息和检查库存。 DBT2是一个TPC’s TPC-C基准测试规范的不错的实现,它是MySQL的最流行的基准测试工具之一,但它的文档很缺乏。DBT2:安装Perl模块DBT2需要的Perl模块:Statistics::DescriptiveTest::ParserTest::Repo

2015-08-01 19:10:44

数据库优化-基准测试(四)

基准测试工具:sysbench简述sysbench多线程基准测试工具,可以测试:文件I/O性能Scheduler性能内存分配和转换速度POSIX线程实现性能数据库服务器性能(OLTP)工具初始开发用于MySQL的性能测试,现在已经扩展到其它数据库。 获取工具的网址: https://code.launchpad.net/~sysbench-developers/sysbench/0.

2015-07-26 16:52:03

数据库优化-基准测试(三)

基准测试工具基准测试工具:mysqlslap是MySQL官方提供的性能基准测试工具,通过客户端模拟工作负载。 其执行包括三个阶段: 1. 创建表结构和加载数据 2. 运行测试 3. 清理数据#例子1:--only-print 只输出SQL语句并打印 --auto-generate-sql 代表用系统自己生成的SQL脚本来测试$ mysqlslap --only-print --aut

2015-07-10 22:02:53

数据库优化-基准测试(二)

如何执行基准测试测试条件–如何避免常见的错误?需要在一个真实的环境中运行基准测试。相似或相同的硬件 包括CPU、内存、网络、IO系统相同的软件配置相似的数据集大小相似的数据分布相似的访问模式 –避免查询和数据缓存 –重新构建访问的分布相当的线程数量 –多用户和多服务器记录所有信息宁可记录无用的信息也不错过重要的信息文档化所有的步骤以便于重新执行基准测试配置:硬件、软件版本

2015-07-08 21:47:54

数据库优化-基准测试(一)

基准测试的目的基准测试是为了找出系统的瓶颈,包括:硬件 磁盘、内存、网络等。 操作系统 文件系统、内存管理、驱动、调度等。RDBMS SQL层、存储引擎层。Schema设计 索引、表结构、数据类型。Query Query写的不好、逻辑错误。应用程序问题系统各部分之间的交互 磁盘IO、RAM、RDBMS等。测量值 如何测量?哪里最花时间?哪个组件最忙?找出造成瓶颈的原因

2015-06-22 18:26:18

Redis的冗余方案(keepalived, HAProxy, Redis Sentinel)

Redis的冗余方案(keepalived, HAProxy, Redis Sentinel)如果你在寻找Redis的冗余方案,我找到了下面的方案,我想可以来尝试一下这个方案。 「Highly Available Redis Cluster | Simplicity is the keynote of all true elegance」 首先我们来尝试下面的配置,因为这是Pacemaker作者

2015-05-02 22:47:18

在Redis-Sentinel的client-reconfig-script脚本中设置VIP

在Redis-Sentinel的client-reconfig-script脚本中设置VIP当使用Redis-Sentinel做冗余时,如何以不同方式使用VIP,我认为使用client-reconfig-script脚本是一种可行方法,让我们试试。环境CentOS 6.5 x86_64redis-2.8.9-1.el6.remi.x86_64三台机器构成一个可用的Redis集群。 端口默认63

2015-05-01 09:15:27

产品架构重构与优化

大规模软件系统的产品周期随着产品的不断发展,复杂度不断增加,生产率(Features数量)下降,质量(Bugs)不受控制,稳定性(Fluctuation)变差,架构变得腐化。原则、模式、最佳实践和工具集架构优化原则1.单一职责2.领域内聚3.抽象接口隔离4.重用5.管理架构资产模块解耦模式1.模块重新划分表现:一个模块在领域中内聚性不强,

2014-09-23 20:48:36

查看更多

勋章 我的勋章
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!