协作多智能体深度强化学习研究综述

协作多智能体深度强化学习研究综述0

摘要：多智能体系统是由多个智能体与环境交互组成的分布式决策系统，是分布式人工智能的一个重要研究方向，在复杂未知的现实社会具有广阔的应用前景，如工业、农业、军事和航空航天等群体机器人系统，以及交通控制、资源管理、商业金融和游戏AI等。多智能体强化学习（Multi-Agent Reinforcement Learning， MARL）依托强化学习在未知环境中的序贯决策能力，融合了运筹学、博弈论和群体心理学等众多学科，能够更好地发挥多个智能体的协同优势，进而低成本、高效率地完成复杂任务。本文着重针对无通信环境下的协作多智能体深度强化学习研究成果进行分析、对比和展望。首先，介绍了MARL的研究背景及其学习任务的分类。其次，根据MARL重点研究内容，将多智能体强化学习算法分为价值分解、Actor-Critic和经验回放三个类别加以剖析，并从环境非平稳性、信度分配和收敛性能等不同角度对比算法差异性。最后，分析了MARL领域未来研究所面临的一些挑战，并对MARL 的应用和前景进行展望。

关键词：多智能体；深度学习；强化学习；协作学习；价值分解；Actor-Critic；经验回放

中图分类号：TJ760; TP181

文献标识码：A

文章编号：1673-5048（2022）06-0078-11

DOI：10.12132/ISSN.1673-5048.2022.0041

0 引言

多智能体系统（Multi-Agent System， MAS）是由多个智能体与环境交互组成的分布式决策系统^［1^］。20世纪70年代以来，研究者在MAS领域展开了众多的研究，目的在于建立一个拥有特定自主等级和自主学习能力的群体智能决策系统^［2^］。MAS信息共享、分布式计算和协同执行的特点在现实生活中有着广泛的应用需求，如在军事、工业、交通运输等众多领域^［3^］，MAS可以高效地完成群体性自主决策任务^［4^］。此外，资源调度、商业竞争、金融分析、群体心理学等一些复杂的社会性问题同样可以抽象为多智能体模型，进而解决其智能优化问题。

最初的群体智能算法灵感源自仿生学，如蚁群算法、粒子群算法等启发式算法。然而，仿生集群智能方法中单个智能体智能决策水平十分有限，智能体集群执行协同任务较为单一，不能更好地适应复杂未知任务^［5^］。在决策优化问题中，强化学习（Reinforcement Learning， RL）可以有效解决序贯决策问题^［6-7^］，因此，多智能体强化学习（Multi-Agent Reinforcement Learning， MARL）成为广大MAS研究者重点关注的领域，极大推动了MARL模型不断优化^［8^］。

随着研究的不断深入，MARL一方面提升了群体智能决策水平，另一方面也丰富了多智能体执行任务的类型。目前，根据多智能体的优化目标不同，可以将MARL中智能体的学习任务分为三种类型：完全协作、完全竞争和混合环境^［9-10^］。多智能体合作往往在实际生产和作业过程中具有更广泛的应用价值，其中狭义的学习合作指智能体仅通过局部观测来学习协同，以达成共同目标。另外，尽管多智能体通信机制可以更好地促进协作策略的高效率执行，但是一方面显式通信交流是以无通信下的协作策略研究为基础，另一方面通信占据一定的计算成本和资源，使得大部分应用场景并不适用。因此，无通信环境下的协作多智能体应用前景广泛。由于MARL在无通信环境下可以通过状态-动作信息参数共享等方式获取全局信息，本文将这种智能体之间无直接通信的环境称为隐式通信环境。本文对MARL领域中隐式通信下的协作型多智能体强化学习研究成果进行归纳，侧重于学习合作场景，同时不涉及额外的显式通信。

1 多智能体强化学习

MARL是指小规模或大规模具有自主控制能力和自主决策等级的智能体集合，通过RL方法解决序贯决策问题，使得MAS达到任务需求最优均衡状态^［11^］。由于多智能体强化学习往往涉及大量的特征信息，通常采用深度学习的神经网络逼近目标函数，因此多智能体强化学习一般指多智能体深度强化学习，简称采用MARL，本文沿用此习惯。

MARL将所有智能体的动作作为联合动作，环境会将联合状态S和联合奖励R反馈给MARL，目的是学习一种最优的策略集合π*={π*₁， π*₂， …， π*_n}，如图1所示。

MARL联合值函数表示为

联合策略就是组成联合值函数的动作集合，即

在无通信的任务场景中，MARL遵循以马尔科夫决策过程（Markov Decision Process， MDP）为基础的随机博弈理论。在学习决策过程中，每个智能体仅能感知周围环境，并不能覆盖整体环境。因此，MARL问题遵循分布式部分可观测马尔科夫决策过程（Decentralized Partially Observable Markov Decision Process， Dec-POMDP）的模型，可以描述为一个七元组（S， A， P， O， Ω， γ， R）。其中，智能体：i∈I={1， 2， …， N}；状态：s∈S；动作：a_i∈A，a∈AN；转移函数：P（s’|s， a）；奖励：R（s， a）；观测：o_i∈Ω；观测函数：o_i∈Ω～O（s， i）。

2 MARL研究进展

在多智能体学习合作的研究领域，本文将深度强化学习研究方法分为三个类别：基于价值分解（Value Decomposition， VD）的方法、基于Actor-Critic （AC）的方法和基于经验回放（Experience Replay， ER）的方法，如表1所示。

2.1 基于价值分解的方法

初期的MARL方法中，智能体的学习方式主要是完全分布式学习和完全集中式学习。在完全分布式学习方法中，每个智能体学习自己的值函数，并根据局部观测o_i输出Q值。分布式学习方式面临的问题是环境对系统的联合奖励无法合理有效地分配到每个智能体，致使智能体的学习环境不稳定，收敛性也得不到保证。完全集中式学习方法则是把MAS看作统一的智能体集合进行学习，联合网络把所有智能体观测历史O作为输入，输出联合Q值，即Qtot。这将面临学习规模严重受限问题，即使采用神经网络进行值函数拟合，也无法解决随着智能体数量增多，智能体状态S和动作A空间会呈现指数级增长困难的问题，因此单纯的集中式或分布式学习无法进行智能体数量的大规模扩展。

近来，价值函数分解方法采取集中训练、分散执行（Centralized Training and Decentralized Execution， CTDE）的范式，学习一个集中但可分解的Q值函数。价值分解方法通过维护联合行为价值函数，一方面可以避免完全集中式学习过程中由智能体增加而出现的特征维数爆炸问题，以及完全分散式学习的协同性低下问题，因此价值分解的方法在扩展性方面具有结构性优势；另一方面，智能体保留各自的Q值，使得奖励可以按照Q值进行分配，从而达到有效的信度分配。因此，价值分解方法在扩展性和信度分配问题上具备天然的结构性优势。最新的价值分解方法研究进展，如图2所示。

为了保证多智能体Q学习的CTDE范式的有效性，联合贪婪动作应该等同于各智能体的个体贪婪动作的集合，被称为IGM（Individual-Global-Max）原则^［12^］，即

为保证IGM原则，将Q_i按特定规则去近似得到Q′tot，然后通过TD损失的方法更新Qtot，如价值分解网络（VDN）和QMIX等。

初期，VDN将联合动作价值函数转化为单个动作价值函数的加性分解^［13^］，其基本思想是中心化地训练一个联合的Q网络，这个联合的网络是由所有智能体局部的Q_i网络求和得到

然而，VDN可加性的约束条件必然使得其在大部分非可加性的情况下无法正常收敛。

QMIX方法是对VDN的改进，采用Mixing Network以非线性的方式将局部值进行组合，使得联合动作价值函数表示为一个单调函数的形式，如图3所示。每个智能体学习一个局部Q值函数Q_i，训练时通过Mixing Network联合生成一个网络输出Qtot。分布式执行时，智能体去除Mixing Network，仅保留自己的值函数网络，并通过值函数网络进行动作的选择，并输出到环境进行交互。

QMIX方法采用神经网络将联合行动值估算为仅根据本地观察结果而定的每个智能体Q值的复杂非线性组合，即神经网络近似Q′tot^［14^］。因此，QMIX方法要求Qtot与Q_i之间存在一个单调约束条件：

由于QMIX方法的Mixing Network是一个非线性网络，其表达能力因而超过VDN。实际上，这个约束条件使得Mixing Network关于每一个Q_i的权重必须非负，因此，单调性的限制条件使得QMIX方法无法拟合复杂收敛场景。

上述方法采用Q_i近似得到Qtot的思路，但是拟合后的Qtot仍和真实的Qtot存在偏差，因此另外一个途径是从真实的Qtot分解为局部的Q_i。

QTRAN方法是对VDN及QMIX方法的进一步改进，采取了反向思路。首先学习一个真实的Qtot，然后将局部的Q_i进行累加得到Qtot的近似值Q′tot，通过调整Q_i近似出来的全局Q′tot与真实学到的Qtot之间的差距，来保证IGM原则的个体-全局一致性^［12^］，如图4所示。

最近，QTRAN方法的研究团队对其进行改进，提出QTRAN++方法，增加优化约束条件，明确地指定了最优动作组成的Qtot，当前最大Qtot，以及得到的近似Qtot之间的大小关系^［¹⁵^］，如图5所示。改进后的QTRAN++方法深度分析了最优动作序列的关系，明确了Q函数的更新目标，减轻了Qtot和Q_i的训练压力。

Qatten方法提出了一种基于多头注意力机制（Multi-Head Attention）的Q值混合网络来近似Qtot值和分解Q_i值^［¹⁶^］，如图6所示。Qatten方法从理论上系统推导出了全局分解为局部的过程，为价值分解方法提供了充实的理论依据，弥补了QMIX和VDN等方法在理论上的不足。

ROMA方法将多智能体协同过程的智能个体的任务差异性加入MARL方法之中，通过“角色”来描述，智能体的价值函数或策略依赖于学习的“角色”，不同“角色”负责执行不同的子任务，并实现智能体之间的自适应共享学习机制^［17^］，如图7所示。

协作多智能体深度强化学习研究综述

经典小说推荐

杂志订阅