多智能体强化学习论文导读
Adaptive Value Decomposition with Greedy Marginal Contribution Computation for Cooperative Multi-Agent Reinforcement Learning
Dec-POMDP
本文的研究对象是 decentralized partially observable Markov decision process (Dec-POMDP), 我们首先来看一下它和经典的MDP有什么不同?
(1) 奖励设定不同, 这里没有给到每一个agent的奖励, 只有一个整体奖励(team reward) rtot(s,u)r_{tot}(\\bm{s}, \\bm{u})rtot(s,u).
(2) 每个agent iii 观测到的不是它自己的状态 sis_{i}si, 它的观测要根据具体的设定来确定, 为表示区分常用 oio_{i}oi 来表示.
(3) 新增了一个叫做观测范围的概念, 每个agent都有一个view range, 在这个范围里面的agent可以和它信息交互并与它合作, 超出这个范围的agent视为无法和这个agent进行信息交互和合作.
一些基本的符号: NNN: agent数量.
本文做了如下的一些假设:
reward机制
考虑agent iii的奖励, 定义agent iii视野范围内的agent集合为它所在的团队(team), 记其数量为MiM_{i}Mi, 作者认为 iii自己的奖励和当前的观测 oio_{i}oi,其它agent采取的动作 ui−u_{i}^{-}ui−, 以及它本身所采取的动作 uiu_{i}ui 有关. 所有agent获得的奖励之和是team reward rtotr_{tot}rtot.
rtot(s,u)=∑i=1Nrteami(oi,ui−,ui)r_{tot}(\\bm{s}, \\bm{u})=\\sum_{i=1}^{N}r_{team}^{i}(o_{i}, u_{i}^{-}, u_{i}) rtot(s,u)=i=1∑Nrteami(oi,ui−,ui)
价值函数
team reward 对应得到的 Q 函数: Qtot(s,u)Q_{tot}(\\bm{s}, \\bm{u})Qtot(s,u),
Qtot(s,u)=Eτ{∑t=0∞γtrtot}=Eτ{∑t=0∞γt∑i=1Nrteami(oi,t,ui,t−,ui,t)}=∑i=1NEτ{∑t=0∞γtrteami(oi,t,ui,t−,ui,t)}Q_{tot}(\\bm{s}, \\bm{u})=\\mathbb{E}_{\\bm\\tau}\\{\\sum_{t=0}^{\\infty}\\gamma^{t}r_{tot}\\}=\\mathbb{E}_{\\bm\\tau}\\{\\sum_{t=0}^{\\infty}\\gamma^{t}\\sum_{i=1}^{N}r_{team}^{i}(o_{i,t}, u_{i,t}^{-}, u_{i,t})\\}=\\sum_{i=1}^{N}\\mathbb{E}_{\\bm\\tau}\\{\\sum_{t=0}^{\\infty}\\gamma^{t}r_{team}^{i}(o_{i,t}, u_{i,t}^{-}, u_{i,t})\\} Qtot(s,u)=Eτ{t=0∑∞γtrtot}=Eτ{t=0∑∞γti=1∑Nrteami(oi,t,ui,t−,ui,t)}=i=1∑NEτ{t=0∑∞γtrteami(oi,t,ui,t−,ui,t)}
本文也采用了论文 Value-Decomposition Networks For Cooperative Multi-Agent Learning Based On Team Reward中的一个基本假设: Qtot(s,u)Q_{tot}(\\bm{s}, \\bm{u})Qtot(s,u) 可以分解成这种形式:
Qtot(s,u)=∑i=1NQi(si,ui)Q_{tot}(\\bm{s}, \\bm{u})=\\sum_{i=1}^{N}Q_{i}(s_{i}, u_{i}) Qtot(s,u)=i=1∑NQi(si,ui)
这里 Qi(si,ui)Q_{i}(s_{i}, u_{i})Qi(si,ui) 被称作agent iii 的 individual Q 函数.
策略
策略永远是greedy的:
π(si)=arg maxuiQi(si,ui)\\pi(s_{i})=\\argmax_{u_{i}} {Q_{i}(s_{i}, u_{i})} π(si)=uiargmaxQi(si,ui)