multiagent 是指同时有多个 agent 更新 value 和 Q 函数,主要的算法有:q learning, friend and foe q leaning,correlated q learning,在每个训练步骤,学习器会考虑多个 agent 的联合 states,actions,reward,来更新 q 值,其中会用到函数 f 选择价值函数。
下图是单一 agent 和 多个 agent 的对比图,可以很直观地看到区别:
multiagent 是指同时有多个 agent 更新 value 和 Q 函数,主要的算法有:q learning, friend and foe q leaning,correlated q learning,在每个训练步骤,学习器会考虑多个 agent 的联合 states,actions,reward,来更新 q 值,其中会用到函数 f 选择价值函数。
下图是单一 agent 和 多个 agent 的对比图,可以很直观地看到区别:
本文标题:什么是 Multiagent Q Learning
本文链接:https://www.haomeiwen.com/subject/wlvqphtx.html
网友评论