美文网首页强化学习
Multiagent cooperation and compe

Multiagent cooperation and compe

作者: 空空格格 | 来源:发表于2018-05-10 22:12 被阅读0次

    论文复现 :

    tensorflow_2player_pong

    论文详述

    Multiagent cooperation and competition with deep reinforcement learning

    pong game-two agents
    • 基础模型:pong game, two agents
    • 算法结构:dqn
      • reward:scoring:(-1,1) conceding(-1)
        未击中球得-1,击中球得分between (-1,1)
        双方均击中球得分0,游戏继续
    reward
    • 训练参数
      • 50 epochs, 250000 time steps each.
      • exploration rate: 1.0 to 0.05(in the 1000000 time steps) and stays fixed at that value
    parameters.png
    • 结果分析
      • 是否收敛:monitor average maximal Q-values of 500 randomly selected game situations, set aside before training begins


        Q values
      • 训练效果反馈:

        • Average paddle-bounces per point 在一方得分前球在players间来回的次数
        • Average wall-bounces per paddle-bounce 球在到达一方前撞墙的次数
        • Average serving time per point 球丢了以后players restart game的反应时间(一些rewarding scheme下players不希望重启游戏,serving time很长,如p = -1)

    结果分析

    • scoring = -1时,双方为合作状态(均不希望球掉落)
      最终双方均升至页面最上方,球水平传来传去
      合作模式video-youtube
      1.png
    • scoring = 1时,双方为竞争模式(希望自己多得分)
      竞争模式video-youtube
      2.png
    • p range from -1 to 1
    3.png
    • multiplayer dqn vs single-player
      (score表示a胜b的得分)


      4

    本文遵守知识共享协议:署名-非商业性使用-相同方式共享 (BY-NC-SA)简书协议
    转载请注明:作者空空格格,首发简书 Jianshu.com

    相关文章

      网友评论

        本文标题:Multiagent cooperation and compe

        本文链接:https://www.haomeiwen.com/subject/hdbtdftx.html