强殖装甲凯普-CSDN博客

原创使用Pytorch在StarCraft II 星际争霸2上实现多智能体强化学习算法

文章目录前言正文torchMARLCorresponding PapersInstallationUsageResults3m5m_vs_6m前言之前因为一直没有实现Weighted QMIX，感觉公开的意义不大，所以就没写博客介绍。现在已基本复现了效果，受制于计算资源，没有完整运行论文中的实验。仓库链接：https://github.com/jingranburangyongzhongwen/torchMARL正文torchMARL主要是一些MARL算法的pytorch实现，目前包括：VDN

2020-11-14 14:37:32 5032 24

原创 seaborn柱状图显示数值

画柱状图希望显示每个柱的具体数值。

2023-06-29 19:27:47 662

原创 centos解决Error: rpmdb open failed

我在装docker的时候卡住了，时间太久我就把进程kill掉，然后yum clean all就有问题。这种应该是本地的库损坏了，清理一下本地的数据库就行。另外yum安装htop时需要配第三方库。然后就没问题了，可以把之前的删掉。首先移走原来的，然后清理。

2023-03-10 11:23:31 357 1

原创 tmux随笔

tmux解绑会话与终端

2022-07-27 20:04:07 475

原创 Ubuntu运行多个命令

管道，第一个命令的输出是第一个命令的输入，比如。第一个成功后才会执行第二个，比如。第一个失败后才会执行第二个，比如。

2022-07-15 14:26:57 1475

原创 numpy 数组运算机制浅探

numpy 数组直接与一个标量运算就能实现按元素运算，很简洁，但是如果这个标量也是用函数求的，怎么写更高效呢？比如做归一化，数组 / 数组和，是直接/np.sum(数组)还是先得到数组和再运算呢？方式a就是/np.sum(数组)，方式b是先得到数组和再运算，由于数组大小有限制，这里为了拉大差距进行了多次迭代：输出：可以看出先求和再运算是要快一点。由于我没搜到numpy的实现机制，所以通过实验来观察，有朋友懂其中机制的话请不吝赐教。...

2022-06-23 16:30:20 350

原创 python label 与 one-hot 之间的互相转换

有时候需要label，比如强化学习的离散动作空间，输出动作索引；有时候需要one-hot，比如训练数据或者输入上一个状态的动作，简单的互相转换还是重要的。通过快速生成：one-hot 转labelnumpy可以通过实现，pytorch 可以通过实现：...

2022-06-23 15:48:07 2654 2

原创 AttributeError: module ‘enum‘ has no attribute ‘IntFlag‘ 解决

AttributeError: module 'enum' has no attribute 'IntFlag' 解决

2022-06-02 21:22:40 139

原创 TypeError: Descriptors cannot not be created directly解决

文章目录问题解决问题跑代码的时候遇到了这个问题：TypeError: Descriptors cannot not be created directly.If this call came from a _pb2.py file, your generated code is out of date and must be regenerated with protoc >= 3.19.0.If you cannot immediately regenerate your protos,

2022-05-31 18:29:19 20967 13

原创 attention与其在RL中的应用

文章目录attention介绍建模观察Deep Attention Recurrent Q-NetworkControl of Memory, Active Perception, and Action in MinecraftRelational Deep Reinforcement LearningRelational recurrent neural networksNeuroevolution of Self-Interpretable Agents建模关系attention介绍attentio

2022-05-29 14:32:38 1120 2

原创《计算广告》第三部分计算广告关键技术——笔记（下）

文章目录第14章程序化交易核心技术广告交易平台ADXcookie映射询价优化需求方平台定制化用户标签DSP中的点击率预测点击价值估计出价策略供给方平台SSP第15章其他广告相关技术创意优化程序化创意点击热力图实验框架流量保护和效果监测反作弊广告监测广告安全隐私保护和数据安全隐私保护问题程序化交易中的数据安全第14章程序化交易核心技术广告交易平台ADX优化目标为：max⁡a1,⋯ ,T∑i=1TbidCPM(ai)\max_{a_{1,\cdots,T}}\sum_{i=1}^T bid_{CP

2022-05-12 19:18:58 327

原创《计算广告》第三部分计算广告关键技术——笔记（中下）

文章目录前言第13章竞价广告核心技术竞价广告计价算法搜索广告系统查询扩展基于推荐的方法。基于主题模型的方法基于历史效果的方法广告放置广告网络广告检索布尔表达式的检索相关性检索点击率预测点击率预测模型点击率模型的校正点击率模型的特征点击率模型评测智能频次控制探索与利用UCB方法考虑上下文的bandit前言篇幅较长，所以独立出来。可惜的是对重要的点击率预测没有涉及最近的深度学习，也没有涉及RTB算法。第13章竞价广告核心技术竞价交易是整个在线广告市场最关键的一次产品进化，同时也带来了广告技术的迅速发

2022-05-07 22:27:59 476

原创《计算广告》第三部分计算广告关键技术——笔记（中上）

文章目录第11章合约广告核心技术广告排期系统担保式投送系统流量预测频次控制在线分配在线分配问题极限性能研究实用优化算法第12章受众定向核心技术第11章合约广告核心技术最初是CPT广告，需要排期系统。在实际的媒体广告投放中，经常会遇到CPT广告与其他服务器决策的动态广告混合的情形，并需要处理动态广告返回失败时的防天窗问题。重点形式是按指定受众购买的、按CPM计费的展示量合约广告，需要担保式投送系统，依赖于受众定向、流量预测、点击率预测这三项基本技术，并采用在线分配的方式完成实时决策。还有频次预测，

2022-05-07 22:25:53 698

原创《计算广告》第三部分计算广告关键技术——笔记（上）

文章目录前言第9章计算广告技术概览前言本部分主要面向系统工程师、算法工程师和架构师，重点阐释实现各种广告产品的关键技术挑战，并提供基础的解决方案。第9章计算广告技术概览

2022-05-07 22:25:09 906

原创《计算广告》第二部分在线广告产品逻辑——笔记（下）

文章目录第6章程序化交易广告实时竞价其他程序化交易方式优选私有市场广告交易方式谱系广告交易平台需求方平台需求方平台产品策略出价策略重定向新客推荐供给方平台供给方平台产品策略数据加工与交易有价值的数据来源三方数据划分数据管理平台数据交易平台在线广告产品交互关系第7章移动互联与原生广告原生广告相关产品信息流广告搜索广告软文广告联盟移动广告的现状与挑战移动广告的特点移动广告的创意形式移动广告的挑战原生广告平台表现原生与意图原生植入式原生广告原生广告与程序化交易第8章在线广告产品实践媒体实战广告主实战数据提供

2022-05-07 22:24:30 411

原创《计算广告》第二部分在线广告产品逻辑——笔记（上）

文章目录前言第3章在线广告产品逻辑商业产品的设计原则需求方层级组织与接口供给方管理接口第4章合约广告广告位合约展示量合约受众定向受众定向方法概览受众定向标签体系流量预测流量塑形在线分配第5章搜索与竞价广告搜索广告搜索广告产品形态搜索广告产品新形式搜索广告产品策略位置拍卖与机制设计定价问题市场保留价价格挤压广告网络广告网络产品形态广告网络产品策略竞价广告需求方产品搜索引擎营销媒体购买平台竞价广告与合约广告的比较前言主要面向产品、运营、销售等人员，以及互联网产品的宏观决策者，其内容重点在于介绍计算广告

2022-05-03 15:53:39 3468

原创《计算广告》第一部分计算广告关键技术——笔记

文章目录前言第1章在线广告综述大数据与广告的关系广告的定义与目的在线广告简史计算广告基础广告有效性原理互联网广告的技术特点计算广告的核心问题广告收入的分解结算方式与eCPM 估计的关系前言互联网很多服务是免费的，为了获得流量和数据，广告业务实现后向变现。这同样催生了新的组织形式，不再是各个事业部自负盈亏，而是设置专门的商业产品部门创造营收，面向用户的免费产品部门只负责优化产品体验。互联网广告的灵魂就在于数据与计算，机器和算法取代了人员与服务，成为其最鲜明的特色。作者的核心目的，是让读者在清晰地了解互

2022-05-01 19:45:51 633

原创 [NIPS2020] Pipeline PSRO A Scalable Approach for Finding Approximate Nash Equilibria in Large Games

文章目录前言Background and Related WorkPipeline Policy Space Response Oracles (P2SRO)AnalysisResultsRandom Symmetric Normal Form GamesLeduc PokerBarrage Stratego前言人工智能和算法博弈论的一个长期目标是开发一种通用算法，该算法能够在大型不完美信息两人零和游戏中找到近似纳什均衡。 AlphaStar和OpenAI Five这些自博弈强化学习的变体虽然在大型游戏

2022-03-30 19:50:41 253

原创 Latex问题：Package Listings Error: lstinline ended by EOL 或 You can‘t use `\eqno‘ in math mode

文章目录问题解决问题使用带编号的公式时出现了错误 Package Listings Error: lstinline ended by EOL 或 Error ! You can't use \eqno in math mode，反正就是公式不能正常显示，大概率是一部分正常显示，另一部分是源码。解决首先检查一下大括号什么的是不是都配对https://tex.stackexchange.com/questions/182950/you-cant-use-eqno-in-math-mode其次

2022-01-19 15:41:35 2830 2

原创配置MALib遇到的问题

文章目录前言AttributeError: module 'aioredis' has no attribute 'create_redis'ModuleNotFoundError: No module named 'aiohttp.signals'TypeError: load() missing 1 required positional argument: 'Loader'前言MALib用到了很多依赖，这些依赖不同版本之间有一些区别，可能他们开发时候比较早了，我最近按照指导配置的时候遇到了一些问题

2022-01-11 20:14:56 1583

原创 [2015.5.21] Real-Time Bidding Benchmarking with iPinYou Dataset 笔记

文章目录前言The iPinYou RTB DatasetData FormatBasic StatisticsUser FeedbackBidding BehavioureCPC任务和协议Task DescriptionTraining Framework前言RTB似乎没有什么公开的数据集或环境，有一些相关问题，好多论文都不开源，比如阿里的，他们大多都是基于淘宝的数据、或是他们自己的仿真系统做实验。当然可以理解，但是也希望有一些开源项目，特别是RL做RTB的，CTR预测的倒是有DeepCTR这种。我看

2022-01-07 19:49:53 470

原创 make-ipinyou-data 的 Python3更改

文章目录前言使用Step 0Step 1Step 2Step 3Step 4数据形式可能遇到的问题前言iPinyou数据集是做CTR预估和竞价策略的比较早的Benchmark，Weinan Zhang老师也给出了标准化的工具，但是似乎是基于Python2写的。我一方面对其进行了适应Python3的改动，另一方面也会介绍一下可能会遇到的问题。开源地址：https://github.com/jingranburangyongzhongwen/make-ipinyou-data_py3顺便一提，Typor

2021-12-26 21:36:47 676 2

原创 git clone出错

文章目录问题解决问题都不知道什么鬼，奇奇怪怪的毛病，今天通过xshell在服务器上git clone项目的时候出现了问题：fatal: unable to access 'https://github.com/xxx.git/': gnutls_handshake() failed: The TLS connection was non-properly terminated.解决原因是代理的问题，重置代理可解决：git config --global --unset http.proxyg

2021-12-26 16:41:28 206

原创 Real-Time Bidding with Multi-Agent Reinforcement Learning in Display Advertising 笔记

文章目录前言淘宝展示广告系统相关工作多智能体广告竞价RTB as a Stochastic GameAgent ClustersStateActionReward and TransitionBidding by Multi-Agent RLImplementation & Distributed ArchitectureBalance Computing Efficiency and Bid GranularityHandle Impression-Level Information Summar

2021-12-17 17:05:59 239

原创强化学习在阿里广告排序和竞价中的应用

文章目录业务背景竞价机制业务背景搜索⼴告业务不论是在阿⾥巴巴还是京东的电商体系下，都是最为重要的⼀个业务，在创造整个集团⼤部分营收的同时，也承担着重要的⽣态调节功能，是帮助商家成长的“快车道”和“名校”。搜索⼴告的竞价和排序遵循下⾯的业务流程：⼴告上在竞价词上定义⾃⼰的出价，对于每个⼴告位，搜索⼴告引擎根据⼴告质量（包括⼴告的点击率、转化率等）和⼴告主的出价对候选⼴告集合进⾏排序，排名第⼀位的⼴告获得当前⼴告位的展⽰机会。从整个业务流程来看，每⼀次搜索⼴告的展⽰都牵扯到了⼴告商、⽤户和平台三方的利益

2021-12-11 20:35:31 1650

原创广告系统初探

文章目录竞价机制GFPGSPVCG预算控制竞价机制作为一种重复博弈，很多拍卖上的策略用在这里在结果上会有一些变化。在线广告拍卖有一些特点：在线广告主可能很多并不愿意公开自己的出价，因此公开竞价就变得不适合在线广告是多次重复博弈，即这个广告位被抢了，广告主还可以抢下个广告位，广告主可以不断调整自己的出价在线广告存在多个标的物（每一次广告请求可能都是多个竞价标的物）、海量实时计算的特征GFP广义第一价格（Generalized First Price,GFP)按照出价去计费，价格高者排在前面，

2021-12-09 19:21:43 258

原创 [NIPS2017] A Unified Game-Theoretic Approach to Multiagent Reinforcement Learning 笔记

文章目录前言前言为了实现通用智能，agent需要学会在共享的环境中与彼此交互，这就是MARL的挑战。最简单的形式是independent reinforcement learning (InRL)，但在训练时往往会过拟合到其他人的策略，导致执行时不能有效泛化。...

2021-11-29 22:11:22 1253

原创 [ICML2019] Open-ended Learning in Symmetric Zero-sum Games

文章目录前言Functional-form games (FFGs)前言国际象棋和扑克等零和博弈抽象地是评估agent对的函数，例如将它们标记为“赢家”和“输家”。如果博弈是近似传递的，那么self-play会生成强度增加的agent序列。然而，非传递博弈，如石头剪刀布，会表现出策略循环，并且不再有明确的目标——我们希望agent增加实力，但针对谁是不清楚的。作者引入了一个几何框架，用于在零和博弈中制定agent目标，以构建产生开放式学习的自适应目标序列。该框架允许我们对非传递博弈中的群体表现进行推理，

2021-11-10 17:12:43 563

原创扁平化多级双向链表

文章目录问题解决问题https://leetcode-cn.com/problems/flatten-a-multilevel-doubly-linked-list/多级双向链表中，除了指向下一个节点和前一个节点指针之外，它还有一个子链表指针，可能指向单独的双向链表。这些子列表也可能会有一个或多个自己的子项，依此类推，生成多级数据结构，如下面的示例所示。给你位于列表第一级的头节点，请你扁平化列表，使所有结点出现在单级双链表中。给定输出解决很明显是个递归问题，主要就是这个深度优先遍历怎么写

2021-09-28 01:12:49 100

原创一米长的绳子，随机剪两刀，最长的一段有多长？

文章目录问题解决问题如题目解决绳子题变体太多了，常见的就是随机分三段组成三角形的概率，这个通过画图可解，答案14\frac{1}{4}41，就不多介绍了，主要介绍最长一段的期望。假设三段长度从小到大依次为：a,a+b,a+b+ca,a+b,a+b+ca,a+b,a+b+c，绳子总长为：a+a+b+a+b+c=3a+2b+ca+a+b+a+b+c=3a+2b+ca+a+b+a+b+c=3a+2b+c由于 a,b,ca,b,ca,b,c 都是不小于0的数，他们的最大值是相同的，所以上界就是3、2、

2021-09-26 21:45:59 778

原创字符串计数

文章目录问题解决问题https://www.nowcoder.com/questionTerminal/7615ed51b7b94b9eadf0776146b4e23c给定一个仅由小写字母组成且长度不超过 10610^6106 的字符串，将首字符移到末尾并记录所得的字符串，不断重复该操作，虽然记录了无限个字符串，但其中不同字符串的数目却是有限的，那么一共记录了多少个不同的字符串？输入样例：abab输入样例：2解决kmp找循环节，首先构造next数组，然后判断有没有循环节，有循环节则输出循

2021-09-22 16:04:49 172

原创图与排列、图的存在性

文章目录问题解决问题给定一个1到N的排列P1到PN，请判断是否存在一个由N个点，N-1条边组成的无向连通图，满足对于任意两个整数i和j（1≤i,j≤N且i≠j），若第i个点和第j个点之间有边相连，则第Pi个点和第Pj个点之间同样有边相连。样例输入：244 3 2 133 1 2样例输出：YesNo解决满足条件的图，要么有一个 Pi=iP_i=iPi=i要么有一个最小环为2，并且其他环都是偶数长def solution(g): for i in range(len(g

2021-09-21 17:19:05 65

原创交换前缀 CodeForces 152 C.Pocket Book

文章目录问题解决问题现在有n个长度为m的字符串，编号为从1到n，每个字符串由m个大写字母组成。现在你可以完成以下操作，请你任选第 i 个字符串和第 j 个字符串，并交换长度为 k 的前缀。你可以在变换后的基础上进行任意次这样的操作。例如：ABCD 和 EFGH，令k=2则变为 EFCD 和 ABGH。此时对于新的字符串 EFCD 和 ABGH 令k=1则变为 AFCD 和 EBGH。显然变化后的字符串是不同的。现在请问你可以生成多少个不同的字符串。包含原串本身。样例输入：2 3ABCD

2021-09-21 15:37:38 105

原创疯狂队列：排序以最大化数组两两间差的绝对值之和

文章目录问题解决问题https://www.nowcoder.com/questionTerminal/306ce234874a4cb1880e2f4310d8ce13排序以最大化数组两两间差的绝对值之和，即求 max⁡(∣a1−a2∣+∣a2−a3∣+⋯ )\max(|a_1-a_2|+|a_2-a_3|+\cdots)max(∣a1−a2∣+∣a2−a3∣+⋯)解决参考：https://blog.nowcoder.net/n/aee5c4e3c14f48eeb678c6f839a636

2021-09-13 01:24:19 968

原创如何判断一个点是否在多边形内？

文章目录问题解决问题给定一个点o和平面中三个点a、b、c，判断o是否在三角形内部解决可以通过面积算，即判断o点与另外两个点构成的三角形面积之和是否等于三角形abc的面积。面积可以通过海伦公式计算，即假设三边长分别为a、b、c，s=p(p−a)(p−b)(p−c),p=a+b+c2s=\sqrt{p(p-a)(p-b)(p-c)}, p=\frac{a+b+c}{2}s=p(p−a)(p−b)(p−c),p=2a+b+c但是这种方法可能因为浮点数精度问题导致误差，所以最好使用叉乘法。有图

2021-09-06 13:57:49 394

原创从 PG 到 TRPO 到 PPO 到 IMPALA

文章目录前言PGTRPOPPO前言PPO太经典了，但是我没有完整研究过，补一下。PG这类方法都是优化问题，找到参数θ\thetaθ最大化目标函数J(θ)J(\theta)J(θ)，大多使用梯度上升的方式。优点：更好的收敛性质在高维或连续动作空间有效可以学习随机策略不会出现策略退化现象缺点：可以收敛到不动点，但往往是局部最优对策略的评估往往是低效并且高方差的数据效率和鲁棒性不行。对于目标函数的推导，这个博客写的很好。PG的目标函数有很多形式，对应不同的算法：这里vtv

2021-08-23 21:28:15 572

原创 TStarBot-X: An Open-Sourced and Comprehensive Study for Efficient League Training in StarCraft II FG

文章目录前言前言DeepMind 的 AlphaStar 是星际争霸 II 中的 grandmaster 级人工智能，可以使用同样的动作空间和操作与人类一起玩。TStarBot-X 是一个新 AI agent，它在更少的计算量级下进行训练，可以与专业的人类玩家竞争。TStarBot-X 利用了 AlphaStar 中引入的重要技术，并且还受益于大量的创新，包括新的联赛训练方法、新颖的多agent角色、规则引导的策略搜索、稳定的策略改进、轻量级神经网络架构和模仿学习中的重要性采样等。在计算规模较小的情况下

2021-08-18 17:33:27 250

原创 MALib: A Parallel Framework for Population-based Multi-agent Reinforcement Learning 论文笔记

文章目录前言前言基于群的多智能体强化学习 (PB-MARL) 是指与强化学习 (RL) 算法嵌套的一系列方法，它产生出现自耦合的群动态的自生成任务序列。通过利用自动课程来诱导一系列不同的紧急策略，PB-MARL 在处理多智能体任务方面取得了令人瞩目的成功。尽管分布式 RL 框架的现有技术非常出色，但由于涉及异构策略交互的采样、训练和评估之间的多个嵌套工作负载的额外复杂性，PB-MARL 对并行化训练框架提出了新的挑战。为了解决这些问题，我们提出了 MALib，这是一种用于 PB-MARL 的可扩展且高效

2021-07-08 14:24:06 374

原创 TLeague: A Framework for Competitive Self-Play based Distributed Multi-Agent Reinforcement Learning

文章目录前言ArchitectureMathematical SettingsDesignActorLearnerInfServerModelPoolLeagueMgrSystem-Level DesignLarge-scale Run and KubernetesCode StructureArenaTPoliciesTLeagueExtension前言只要有环境，那么数据可以说是无限的，并且复杂环境中rl训练需要的数据量往往很大，如何高效地挖掘环境中的数据是用rl解决实际问题的痛点。基于竞争性自我

2021-06-10 00:45:26 203 5

原创 Exploration Strategies in Deep Reinforcement Learning (2)

文章目录前言Intrinsic Rewards as Exploration BonusesCount-based ExplorationCounting by Density Model前言接着Exploration Strategies in Deep Reinforcement Learning (1)继续。基于Exploration Strategies in Deep Reinforcement Learning再创作。Intrinsic Rewards as Exploration Bo

2021-06-01 22:55:51 178

空空如也

空空如也