多智能体强化学习

发展历史

1 起源

多智能体系统理论起源于20世纪70年代的分布式人工智能。其研究内容主要是分布式问题求解（DPS）和多智能体系统，核心是将系统分为若干智能、自洽的子系统。多智能体系统应用环境大多为不可预测的动态环境，无法对智能体进行集中控制。对于这一问题，通常有三种解决方案：

设计有效约束多智能体系统的规则，规范智能体行为选择，避免冲突
利用通信手段，使智能体之间能进有效的交流，避免冲突并增进协作
增加学习机制，让智能体能过在动作交互中学习，并越学越“聪明”

2 发展

强化学习（RL）是一种与环境交互的学习方法，这符合上述的第三种解决方案。在一开始的过程中，许多初始方法通过表格法计算马尔可夫博弈的总体Q值。另一种方法则是在每个episode作为一个博弈，消除MARL的不平衡性。对多智能体任务而言，找到纳什均衡十分重要。1988年，WellMan等人提出了general-sum MARL马尔可夫对策论的理论框架和算法。近年来，随着DRL的成功，DDRQN模型的提出解决了状态部分可观测状态下的多智能体通信和合作的难题。