美文网首页
MARL 笔记

MARL 笔记

作者: AntiGravity | 来源:发表于2022-06-19 16:09 被阅读0次

    16年的MARL概览: A comprehensive survey of multiagent reinforcement learning(谷歌学术)

    Model-free时学习均衡:

    • Nash Q-learning:仅在强假设收敛,多个收敛点。(类似的有MADDPG、Mean-Field Q-learning)
    • Stackelberg 均衡:越合作越优于Nash均衡,且仅有一个收敛点,是帕累托最优点。

    Model-based时学习均衡:

    • Minimax-Q method

    协同(对其他agent建模)

    PR2(Probabilistic Recursive Reasoning)

    合作(MA共享同一个reward)

    通讯 - Multiagent Bidirectionally-Coordinated Net
    集中训练分布执行 - Multi-Agent Actor-Critic for Mixed Cooperative-Competitve Environments

    相关文章

      网友评论

          本文标题:MARL 笔记

          本文链接:https://www.haomeiwen.com/subject/vtprvrtx.html