读论文:《Correlated-Q Learning》

作者: 不会停的蜗牛 | 来源:发表于2020-03-30 23:43 被阅读0次

    今天要读一篇 Amy Greenwald 的论文《Correlated-Q Learning》,先记一下论文中的基础概念,然后再去深入解读。

    这篇论文的目标是:在 general-sum 马尔可夫博弈中学习均衡策略

    纳什均衡:

    • 不同的 action 服从独立概率分布
    • 所有的 agents 都针对另一个概率进行优化

    相关均衡:

    • agents 的概率分布之间存在依赖
    • 可以用线性规划来计算

    Correlated-Q:

    • 在 general-sum 博弈中,相关均衡包含纳什均衡
    • 在 constant-sum 博弈中,相关均衡包含极小极大

    马尔可夫博弈:

    • I,一组 players
    • S,状态
    • Ai(s),其中 s 属于S,i 属于 I,第 i 个玩家在状态 s 可用的 actions
    • P,概率转移函数
    • R(i),第 i 个玩家的奖励

    马尔可夫博弈中的Q:

    • 用 State-action 向量,而不是 State-action 对
    • Qi(s, a) = (1-gamma) * Ri(s, a) + gamma * sum(P(s' given s,a) * Vi(s'))

    Friend Q:

    • 所有 players 的奖励函数是一样的
    • Vi(s) = max Qi(s, a)

    CE-Q:

    • 功利主义:最大化所有玩家的奖励总和-argmax sum of players rewards
    • 平等主义:最大化所有玩家奖励的最小值-argmax min
    • 共和主义:最大化所有玩家奖励的最大值-argmax max
    • 自由主义:最大化每个玩家的最大奖励-argmax rewards where result is a Correlated Equlibrium

    相关文章

      网友评论

        本文标题:读论文:《Correlated-Q Learning》

        本文链接:https://www.haomeiwen.com/subject/piciuhtx.html