美文网首页强化学习
多智能体强化学习简介

多智能体强化学习简介

作者: 秋冬不寒 | 来源:发表于2022-05-12 19:46 被阅读0次

一:智能体策略类型

多智能体系统下,每个智能体发出动作获得的奖励会受到其他智能体动作影响。多智能体系统的目标便是学习一种策略使系统达到均衡稳态。

1. 完全合作型

系统的最大奖励需要智能体的相互合作才能获得。
这类的应用场景有机器人足球、设备组装、并发控制和通信等。

2. 完全竞争型

一般采取最大最小化原则,即无论对方采取任何行动,智能体总是采取是自己受益最大的动作。

3. 混合类型

一般针对静态任务,直接对每个智能体应用单智能体RL算法,不需要了解其他智能体的算法。

二: 理论基础

MARL通常用马尔可夫博弈描述。马尔可夫博弈又称为随机博弈。马尔可夫指的是多智能体系统的状态符合马尔可夫性,即下一时刻的状态只与当前状态有关,与前面的时刻没有关系。博弈则描述了智能体之间的关系。
可以用如下元组描述多智能体系统:
(N,S,a_1,a_2, ···,a_N, T, \gamma, r_1, ···, r_N)
N为智能体个数,S为系统状态,一般指系统的联合状态。T为状态转移函数,即根据当前系统的状态和联合动作,给出下一状态的概率分布。r为奖励。\gamma为折扣因子。

三: 优势与挑战

  • 优势
    • 不同智能体之间可以共享经验,从而更快、更好地完成任务
    • 可以将大任务拆成子任务,不同智能体并行执行子任务
    • 某个智能体出现问题时,其他智能体可以替代其工作,提升鲁棒性
    • 系统可拓展性强
  • 挑战
    • 随状态、动作、智能体数码增加,计算复杂度呈指数级增长
    • 学习目标难以定义
    • 无法单独最大化某个智能体的奖励,难以收敛到最优解
    • 探索过程复杂。不仅需要环境信息,还需要其他智能体的信息,过度探索还可能打破系统平衡。

相关文章

网友评论

    本文标题:多智能体强化学习简介

    本文链接:https://www.haomeiwen.com/subject/kwceurtx.html