多智能体强化学习简介

作者: 秋冬不寒 | 来源:发表于2022-05-12 19:46 被阅读0次

多智能体强化学习简介
多智能体强化学习
DQN算法
MADRL怎么搭建？CentOS下多智能体强化学习实验环境搭建【
多智能体强化学习基础
强化学习笔记（1）--概述
2019年上半年收集到的人工智能强化学习干货文章
探秘多智能体强化学习-MADDPG算法原理及简单实现
这三个博弈论新趋势，正深刻影响深度强化学习
从零开始强化学习（三）——表格型方法

一：智能体策略类型

多智能体系统下，每个智能体发出动作获得的奖励会受到其他智能体动作影响。多智能体系统的目标便是学习一种策略使系统达到均衡稳态。

1. 完全合作型

系统的最大奖励需要智能体的相互合作才能获得。
这类的应用场景有机器人足球、设备组装、并发控制和通信等。

2. 完全竞争型

一般采取最大最小化原则，即无论对方采取任何行动，智能体总是采取是自己受益最大的动作。

3. 混合类型

一般针对静态任务，直接对每个智能体应用单智能体RL算法，不需要了解其他智能体的算法。

二：理论基础

MARL通常用马尔可夫博弈描述。马尔可夫博弈又称为随机博弈。马尔可夫指的是多智能体系统的状态符合马尔可夫性，即下一时刻的状态只与当前状态有关，与前面的时刻没有关系。博弈则描述了智能体之间的关系。
可以用如下元组描述多智能体系统：
$(N,S,a_1,a_2, ···,a_N, T, \gamma, r_1, ···， r_N)$
N为智能体个数，S为系统状态，一般指系统的联合状态。T为状态转移函数，即根据当前系统的状态和联合动作，给出下一状态的概率分布。r为奖励。 $\gamma$ 为折扣因子。

三：优势与挑战

优势
- 不同智能体之间可以共享经验，从而更快、更好地完成任务
- 可以将大任务拆成子任务，不同智能体并行执行子任务
- 某个智能体出现问题时，其他智能体可以替代其工作，提升鲁棒性
- 系统可拓展性强
挑战
- 随状态、动作、智能体数码增加，计算复杂度呈指数级增长
- 学习目标难以定义
- 无法单独最大化某个智能体的奖励，难以收敛到最优解
- 探索过程复杂。不仅需要环境信息，还需要其他智能体的信息，过度探索还可能打破系统平衡。

网友评论

强化学习

本文标题：多智能体强化学习简介

本文链接：https://www.haomeiwen.com/subject/kwceurtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

多智能体强化学习简介

一：智能体策略类型

1. 完全合作型

2. 完全竞争型

3. 混合类型

二：理论基础

三：优势与挑战

相关文章

多智能体强化学习简介

多智能体强化学习

DQN算法

MADRL怎么搭建？CentOS下多智能体强化学习实验环境搭建【

多智能体强化学习基础

强化学习笔记（1）--概述

2019年上半年收集到的人工智能强化学习干货文章

探秘多智能体强化学习-MADDPG算法原理及简单实现

这三个博弈论新趋势，正深刻影响深度强化学习

从零开始强化学习（三）——表格型方法

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

强化学习

多智能体强化学习简介

一：智能体策略类型

1. 完全合作型

2. 完全竞争型

3. 混合类型

二： 理论基础

三： 优势与挑战

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

二：理论基础

三：优势与挑战