自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)
  • 收藏
  • 关注

原创 多智能体强化学习博弈系列(4)- 模糊Q(lambda)-learning

基于模糊输入的Q(λ)Q(\lambda)Q(λ)-learning(QLFIS)是一个由控制器和模拟器两个部分组成的模糊系统,结构类似于actor-critic learning,但由于对于action的选取仍然基于max(Q),即唯一的最优行为,所以是Q-learning的一种。在模拟器中采用了eligibilty trace更新多个time steps中的reward,根据更新时间距离当前时...

2019-03-01 15:09:49 3475 3

原创 用开源求解器和Pyomo实现灵活的班次安排

前段时间讲课时发现简单的优化问题求解还是有些业务需求的,但是无论使用商用还是开源求解器,手工建模仍然需要一定工作量。所以这几天写了个基于pyomo和开源求解器glpk的小排程程序,可以实现多人、自定义班次和排程规则的最优化班次排程(shift assignment),优化目标包含最低成本和员工最大偏好,并且支持自定义的目标权重。程序支持excel或txt表格形式的标准化输入和输出。业务需求示例...

2019-02-20 18:23:13 3209 2

原创 用开源求解器和Pyomo实现灵活的项目计划

一个可以实现多人、自定义项目活动和资源的最优化job shop排程程序。优化目标简化为最大化满足用户排程优先级和时间窗要求,并且支持自定义的目标权重,而不是直接最小化计划总用时。程序使用开源求解器和建模工具,支持excel或txt表格形式的标准化输入和输出。业务需求示例业务需要同时计划多个项目多个站点的共M个活动。站点共有K种场景,每种场景对应一种活动流。每种活动流可以包含不同数目的活动,并...

2019-02-20 18:09:00 3894

原创 多智能体强化学习博弈系列(3)- 模糊actor-critic learning

Q-learning和policy-gradient是两种常见的强化学习方法,两者的区别主要在如何选择下一步行为。Q-learning的目标是为每一种状态s找到唯一的最优行为a,使状态-行为对Q(s,a)的值最大化。而policy-gradient的目标是找到状态到所有行为的映射,使expected reward最大化。所以policy-gradient更适用于连续的行为空间——尤其是行为空间很大...

2019-02-20 17:52:36 1506

原创 多智能体强化学习博弈系列(2)- 模糊Q-Learning

关于模糊系统见上一篇。游戏描述:以多人领土保卫游戏(guarding territory)为例:进攻者采取最佳策略(提前计算出的纳什均衡点),防卫者通过强化学习,不断优化截击位置。目标是成功截击进攻者,且截击位置距离领土范围最远。这一章节采用的RL算法是Q-learning。防卫者作为智能体,输入和输出分别经过模糊化和去模糊化处理。模糊系统nnn个输入变量的连续输入空间被离散化为MMM个...

2019-02-19 13:14:12 4997

原创 多智能体强化学习博弈系列(1)- 差分博弈和模糊系统

几点说明:这个系列重点关注多智能体和强化学习在差分博弈中的应用,文章中有尝试复现的主要是双人/多人混合策略多阶段随机差分零和游戏的模拟。关于智能体、关于强化学习、关于博弈论基础的介绍,在这个系列基本不涉及。强化学习简简简介见我之前的文章。多智能体简简简介见我之前的文章。有关博弈论基础的内容,e.g. 双人/多人游戏、零和/变和游戏、单一/混合策略、单一/多阶段博弈等概念,本文不涉及,有...

2019-02-19 13:01:45 4379

原创 pytorch多GPU数据并行模式 踩坑指南

之前用pytorch尝试写了个文本生成对抗模型seqGAN,相关博文在这里。在部署的时候惊喜地发现有多块GPU可供训练用,于是很天真地决定把之前写的单GPU版本改写成DataParallel的方式(内心os:介有嘛呀)。于是开始了从入门到(几乎)放弃的踩坑之路。为了和大家共同进步,我把自己的经验分享一下,欢迎一起来踩坑。首先说明,我用的pytorch版本虽然不是嘎嘣新的1.0,但是是稳定版本...

2019-02-17 21:55:44 23674 11

原创 SeqGAN:用pytorch实现用于文本生成的对抗神经网络

GAN简介生成对抗网络 Generative Adversarial Networks (GAN)的概念来自于2014年Ian Goodfellow et.al. 的论文。GAN属于无监督学习,由两个神经网络组成。生成器(generator)从潜在空间中随机获取样本,并与真实数据一起作为判别器(discriminator)的输入。判别器是一个经典分类器,作用是把真实数据和生成数据尽量分开。判别...

2019-02-17 21:49:58 11794 39

原创 Elasticsearch实战——结合文本分析,推荐算法和元启发式算法实现资源自动分配

工作中有很多工作调度和资源匹配的场景,比如客服,技术支持或工单分派:带有文本描述的工单被录入系统,模糊匹配资源库中的人力资源,然后被分配给最适合的人处理。在一些场景中,工单的执行结果和评价也会被记录,作为工单分派信息的一部分被保留。由于场景复杂而且缺少标准化的问题描述,很多这类匹配问题仍然依赖人工,造成匹配时间延迟,匹配资源基于个人喜好和习惯而非基于可量化的标准。另外由于工单和资源的数据量巨大,...

2019-02-17 21:36:37 2134

原创 RNN求解优化问题——日程安排和资源分配

递归神经网络:神经网络可以分为前馈神经网络和递归神经网络。前馈神经网络和递归神经网络的最大区别是,神经元的连接是否形成了闭环。前馈神经网络的信息流向只有从输入层到输出层一个方向。相反,递归神经网络依靠神经元之间的有向环实现记忆功能。优化问题和时间序列问题一般来说采用递归神经网络解决。最常用的递归神经网络结构是1997年由德国人Hochreiter和Schmidhuber提出的Long-Sh...

2019-02-17 19:48:14 1229

原创 启发式算法求解混合整数线性优化问题—— 生产计划安排和资源分配

问题描述和范围限定:生产计划安排分为两种:静态和动态计划。静态计划生成的时间距离实际生产时间较长,以假设所有预设条件都满足为前提,在给定优化目标下(比如最小延迟,最低库存金额,etc.)寻找最优计划。静态计划一般采用优化算法实现。动态计划基于静态计划,是在实际排产出现异常时(比如原材料供应不足,设备突然故障造成停线,上游产品突发质量问题,产线工人罢工,etc.)这篇文章主要关注生成静态计划...

2019-02-17 16:24:41 7766

原创 傅里叶变换和小波变换:时间序列异常检测

时间序列的聚类是高维度聚类(每个时间点作为一个维度出现)。所以很少使用经典聚类方法比如KMEANS。最简单的时间序列特征是时域上以不同时间单位聚合作为特征。比如30天数据以日为单位,生成30维特征。最简单的聚类方法是直接以每个零售商各维度的特征为vector,用Euclidean distance为距离聚类。这种方法的缺点是不考虑时域信号的位移信息:比如两家零售商在不同日期出现异常激活信号,用...

2019-02-17 15:56:41 10355 1

原创 用Google OR-Tools搭建简单车辆路线规划问题

一个用开源google orTools实现的有时间窗、容量限制、可设置接送对(pickup and delivery pair)、支持多路径和灵活起始地点的路径优化问题(CVRPTW: constraint vehicle routing problem with time windows)。程序使用开源求解器和建模工具,支持excel或txt表格形式的标准化输入和输出。Google optim...

2019-02-17 15:35:41 7478 9

原创 季节性ARIMA:时间序列预测

SARIMAX (seasonal autoregressive integrated moving average with exogenous regressor)是一种常见的时间序列预测方法,可以分为趋势部分和周期性部分;每个部分又可以分为自回归、差分和平滑部分。趋势稳定性检测:Kwiatkowski–Phillips–Schmidt–Shin (KPSS) testnull-hypot...

2019-02-17 15:22:36 17102

原创 贝叶斯方法应用:检测时间序列拐点

随着时间推移,制造设备比如贴片机的位置由于各种原因会产生小的偏差。这些偏差可能是阶跃,也有可能是渐变的形式。由于偏差值很小,产线的自动光学检测设备并不会报警;然而小的偏差如果不经处理,经过一定时间累积会产生较大偏差,影响产品质量。为了能够提前发现设备偏差并在产生质量问题以前及时调整,产线工程师需要有工具能够持续监测设备各个部件的性能,在出现平均值或标准偏差的拐点时提醒工程师及时做设备调整。这是...

2019-02-17 14:49:58 11797 6

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除