16年的MARL概览: A comprehensive survey of multiagent reinforcement learning(谷歌学术)
Model-free时学习均衡:
- Nash Q-learning:仅在强假设收敛,多个收敛点。(类似的有MADDPG、Mean-Field Q-learning)
- Stackelberg 均衡:越合作越优于Nash均衡,且仅有一个收敛点,是帕累托最优点。
Model-based时学习均衡:
- Minimax-Q method
协同(对其他agent建模)
PR2(Probabilistic Recursive Reasoning)
合作(MA共享同一个reward)
通讯 - Multiagent Bidirectionally-Coordinated Net
集中训练分布执行 - Multi-Agent Actor-Critic for Mixed Cooperative-Competitve Environments
网友评论