Edward Tivrusky IV-CSDN博客

原创多智能体强化学习博弈系列（4）- 模糊Q(lambda)-learning

基于模糊输入的Q(λ)Q(\lambda)Q(λ)-learning（QLFIS）是一个由控制器和模拟器两个部分组成的模糊系统，结构类似于actor-critic learning，但由于对于action的选取仍然基于max(Q)，即唯一的最优行为，所以是Q-learning的一种。在模拟器中采用了eligibilty trace更新多个time steps中的reward，根据更新时间距离当前时...

2019-03-01 15:09:49 3475 3

原创用开源求解器和Pyomo实现灵活的班次安排

前段时间讲课时发现简单的优化问题求解还是有些业务需求的，但是无论使用商用还是开源求解器，手工建模仍然需要一定工作量。所以这几天写了个基于pyomo和开源求解器glpk的小排程程序，可以实现多人、自定义班次和排程规则的最优化班次排程(shift assignment)，优化目标包含最低成本和员工最大偏好，并且支持自定义的目标权重。程序支持excel或txt表格形式的标准化输入和输出。业务需求示例...

2019-02-20 18:23:13 3209 2

原创用开源求解器和Pyomo实现灵活的项目计划

一个可以实现多人、自定义项目活动和资源的最优化job shop排程程序。优化目标简化为最大化满足用户排程优先级和时间窗要求，并且支持自定义的目标权重，而不是直接最小化计划总用时。程序使用开源求解器和建模工具，支持excel或txt表格形式的标准化输入和输出。业务需求示例业务需要同时计划多个项目多个站点的共M个活动。站点共有K种场景，每种场景对应一种活动流。每种活动流可以包含不同数目的活动，并...

2019-02-20 18:09:00 3894

原创多智能体强化学习博弈系列（3）- 模糊actor-critic learning

Q-learning和policy-gradient是两种常见的强化学习方法，两者的区别主要在如何选择下一步行为。Q-learning的目标是为每一种状态s找到唯一的最优行为a，使状态-行为对Q(s,a)的值最大化。而policy-gradient的目标是找到状态到所有行为的映射，使expected reward最大化。所以policy-gradient更适用于连续的行为空间——尤其是行为空间很大...

2019-02-20 17:52:36 1506

原创多智能体强化学习博弈系列（2）- 模糊Q-Learning

关于模糊系统见上一篇。游戏描述：以多人领土保卫游戏（guarding territory）为例：进攻者采取最佳策略（提前计算出的纳什均衡点），防卫者通过强化学习，不断优化截击位置。目标是成功截击进攻者，且截击位置距离领土范围最远。这一章节采用的RL算法是Q-learning。防卫者作为智能体，输入和输出分别经过模糊化和去模糊化处理。模糊系统nnn个输入变量的连续输入空间被离散化为MMM个...

2019-02-19 13:14:12 4997

原创多智能体强化学习博弈系列（1）- 差分博弈和模糊系统

几点说明：这个系列重点关注多智能体和强化学习在差分博弈中的应用，文章中有尝试复现的主要是双人/多人混合策略多阶段随机差分零和游戏的模拟。关于智能体、关于强化学习、关于博弈论基础的介绍，在这个系列基本不涉及。强化学习简简简介见我之前的文章。多智能体简简简介见我之前的文章。有关博弈论基础的内容，e.g. 双人/多人游戏、零和/变和游戏、单一/混合策略、单一/多阶段博弈等概念，本文不涉及，有...

2019-02-19 13:01:45 4379

原创 pytorch多GPU数据并行模式踩坑指南

之前用pytorch尝试写了个文本生成对抗模型seqGAN，相关博文在这里。在部署的时候惊喜地发现有多块GPU可供训练用，于是很天真地决定把之前写的单GPU版本改写成DataParallel的方式（内心os：介有嘛呀）。于是开始了从入门到（几乎）放弃的踩坑之路。为了和大家共同进步，我把自己的经验分享一下，欢迎一起来踩坑。首先说明，我用的pytorch版本虽然不是嘎嘣新的1.0，但是是稳定版本...

2019-02-17 21:55:44 23674 11

原创 SeqGAN：用pytorch实现用于文本生成的对抗神经网络

GAN简介生成对抗网络 Generative Adversarial Networks (GAN)的概念来自于2014年Ian Goodfellow et.al. 的论文。GAN属于无监督学习，由两个神经网络组成。生成器（generator）从潜在空间中随机获取样本，并与真实数据一起作为判别器（discriminator）的输入。判别器是一个经典分类器，作用是把真实数据和生成数据尽量分开。判别...

2019-02-17 21:49:58 11794 39

原创 Elasticsearch实战——结合文本分析，推荐算法和元启发式算法实现资源自动分配

工作中有很多工作调度和资源匹配的场景，比如客服，技术支持或工单分派：带有文本描述的工单被录入系统，模糊匹配资源库中的人力资源，然后被分配给最适合的人处理。在一些场景中，工单的执行结果和评价也会被记录，作为工单分派信息的一部分被保留。由于场景复杂而且缺少标准化的问题描述，很多这类匹配问题仍然依赖人工，造成匹配时间延迟，匹配资源基于个人喜好和习惯而非基于可量化的标准。另外由于工单和资源的数据量巨大，...

2019-02-17 21:36:37 2134

原创 RNN求解优化问题——日程安排和资源分配

递归神经网络：神经网络可以分为前馈神经网络和递归神经网络。前馈神经网络和递归神经网络的最大区别是，神经元的连接是否形成了闭环。前馈神经网络的信息流向只有从输入层到输出层一个方向。相反，递归神经网络依靠神经元之间的有向环实现记忆功能。优化问题和时间序列问题一般来说采用递归神经网络解决。最常用的递归神经网络结构是1997年由德国人Hochreiter和Schmidhuber提出的Long-Sh...

2019-02-17 19:48:14 1229

原创启发式算法求解混合整数线性优化问题—— 生产计划安排和资源分配

问题描述和范围限定：生产计划安排分为两种：静态和动态计划。静态计划生成的时间距离实际生产时间较长，以假设所有预设条件都满足为前提，在给定优化目标下（比如最小延迟，最低库存金额，etc.）寻找最优计划。静态计划一般采用优化算法实现。动态计划基于静态计划，是在实际排产出现异常时（比如原材料供应不足，设备突然故障造成停线，上游产品突发质量问题，产线工人罢工，etc.）这篇文章主要关注生成静态计划...

2019-02-17 16:24:41 7766

原创傅里叶变换和小波变换：时间序列异常检测

时间序列的聚类是高维度聚类（每个时间点作为一个维度出现）。所以很少使用经典聚类方法比如KMEANS。最简单的时间序列特征是时域上以不同时间单位聚合作为特征。比如30天数据以日为单位，生成30维特征。最简单的聚类方法是直接以每个零售商各维度的特征为vector，用Euclidean distance为距离聚类。这种方法的缺点是不考虑时域信号的位移信息：比如两家零售商在不同日期出现异常激活信号，用...

2019-02-17 15:56:41 10355 1

原创用Google OR-Tools搭建简单车辆路线规划问题

一个用开源google orTools实现的有时间窗、容量限制、可设置接送对（pickup and delivery pair）、支持多路径和灵活起始地点的路径优化问题(CVRPTW: constraint vehicle routing problem with time windows)。程序使用开源求解器和建模工具，支持excel或txt表格形式的标准化输入和输出。Google optim...

2019-02-17 15:35:41 7478 9

原创季节性ARIMA：时间序列预测

SARIMAX (seasonal autoregressive integrated moving average with exogenous regressor)是一种常见的时间序列预测方法，可以分为趋势部分和周期性部分；每个部分又可以分为自回归、差分和平滑部分。趋势稳定性检测：Kwiatkowski–Phillips–Schmidt–Shin (KPSS) testnull-hypot...

2019-02-17 15:22:36 17102

原创贝叶斯方法应用：检测时间序列拐点

随着时间推移，制造设备比如贴片机的位置由于各种原因会产生小的偏差。这些偏差可能是阶跃，也有可能是渐变的形式。由于偏差值很小，产线的自动光学检测设备并不会报警；然而小的偏差如果不经处理，经过一定时间累积会产生较大偏差，影响产品质量。为了能够提前发现设备偏差并在产生质量问题以前及时调整，产线工程师需要有工具能够持续监测设备各个部件的性能，在出现平均值或标准偏差的拐点时提醒工程师及时做设备调整。这是...

2019-02-17 14:49:58 11797 6

yuuyuhaksho的博客