美文网首页
基于Q-learning的少数派博弈模型中的群体合作成因研究

基于Q-learning的少数派博弈模型中的群体合作成因研究

作者: dichangyan_lzu | 来源:发表于2020-05-22 17:05 被阅读0次

    摘要

    现实生活中资源调配系统随处可见,这类系统中存在大量用户竞争有限资源,由于用户之间的相互作用及系统整体的复杂性,经常出现某些资源过度拥挤,而其他资源相对闲置的问题。典型的比如医院挂号系统,股票市场,金融交易市场,交通网络等。研究这一类如何实现资源优化配置问题的一个典型模型是,D. Challet andY.-C. Zhang 提出的少数派博弈模型。本文正是基于这一模型,使用e-greedy Q-learning算法改造模型中的博弈个体(agents),探索个体在仅知道每次博弈收益,而没有相互交流的情况下,基于规则反复博弈,是否最终会实现群体的利益最大化,即系统资源配置的帕累托最优(群体合作状态)。进一步,分析了在模型仿真中,Q-learning算法中的关键参数,包括学习因子、折扣因子和探索因子对整体合作形成的影响。
    具体的,本文首先设计了博弈中个体采用的学习策略,确定策略中的关键参数,以及仿真结果的评估指标,包括();然后仿真了少数派博弈模型中两种不同系统承载量下L = 50 和L = 65 ,详细对比了两种情况下,学习参数对于博弈结果的影响。实验结果表明,使用Q-learning算法指导决策的Agent 相对环境的决策调整完全是自适应的,在不同环境承载量下同样的代码分别适应各自环境,实现了合作,达到了资源的有效利用。
    同时分析Q-learning学习方法中各参数的实际意义,可得出如下结论:个体层面上,个体对于博弈过程的历史经验总结以及对博弈未来预期的期望值对于群体合作的形成具有重要的影响;而在群体层面,少量的随机行为有助于打破僵局,为群体的策略优化提供了动力。

    关键词:强化学习;少数派博弈;资源分配问题;合作;

    一、引言

    1、 研究背景介绍

    少数派博弈模型 [2]是D. and Zhang 在1994 Arthur假设的酒吧模型的基础上改进提出的模型的具体阐述如下:
    一个具有N个人的小镇上有一个酒吧,酒吧每天固定只能承载L个人 ,每个人都可以独立做出是否去酒吧娱乐的决定,如果选择去酒吧的人数小于酒吧的承载人数,酒吧中的人就会因为玩的尽兴,而获得1分的收益,没有去酒吧的人,此时没有收益;反之如果出席酒吧的人数过多,超过L,就会因为拥挤,而一无所获,没有去酒吧的人则会获得一分的收入。博弈反复进行,玩家依据自己在每轮博弈中的收益对下一轮的决策进行调整。

    这一模型的特点在于:
    1)参与博弈的个体独立做出决策,所知信息有限,仅有每轮自身的收益值;
    2)系统没有最优解,无法像囚徒困境等模型得到纳什均衡解;
    3)整体收益依赖于每个个体的决策之合;
    4)环境承载量有限,每回合必然有一些个体无法获得收益。
    现实中,这种基于大量个体交互形成的复杂环境无处不在,如股票交易市场,每个投资者独立做出投资决策,股票价格又取决于整体的买入和卖出比例;又或者是网络拥塞的形成,大量用户同时访问某一服务器;还有商品交易市场中商品价格的涨跌。,而这些复杂系统的资源配置对于人类社会的正常运行产生又会巨大的影响,因此少数派模型一经提出,即成为研究这一问题的典型模型。
    D. and Zhang 使用计算机模拟多轮少数派博弈 [2],其中玩家策略的选择由以下方式确定:系统存在一个全局的策略表存放前 M 个获得奖励的信号与下一步信号预测的映射,每个玩家从策略表中抽取 S 条并对其打分,每一轮决策时玩家会根据抽取的策略表的规则选择分数最高的策略表项进行决策,并根据是否获得奖励调整策略的分数。 D. and Zhang的研究证明了少数派博弈在个体学习能力有限,获取信息简单的情况下依然可以趋近群体收益的最大值,这一现象更增加了这一模型的可研究性。比如可以基于这一模型的研究,解释甚或避免真实市场中大量个体从众模形成羊群行为,导致资源极大浪费。
    具体这方面的研究可见[孙康,华南理工大学硕士论文《金融物理中的少数者博弈和多数者博弈》]
    [余飞,电子科大,硕士论文《复杂网络中的少数派博弈模型的研究》][张四平的英文文章]

    2、本文拟采用的研究方法

    本文拟采用强化学习方法,仿真群体混合状态下的少数派博弈模型,讨论学习方法中不同参数对群体合作成因的影响。强化学习是一种与环境交互的学习方式、环境的奖励形式以及对环境自适应的结构都非常符合博弈模拟实验中对玩家的要求,强化学习策略在博弈模拟实验中经常出现 [5] [6] [7][8],近年来也被很多研究者用于研究少数派博弈模型 [9]。具体本文使用的是Qlearning方法。
    (这里把方法简单介绍一下,Qlearning+随机探索)


    image.png

    (像这样)
    本文的主要研究目标是通过,分析学习模型中各个学习参数对仿真结果的影响,从而在个体层面,探索可能影响整体资源配置的因素。

    3、本文写作框架介绍

    二、Q-learning方法介绍和本文设计的学习方法,(对各种参数进行说明)

    1、Qlearning学习方法介绍

    2、简述本文的学习方法设计
    这两部分参考《基于 Q 学习算法的集装箱堆场翻箱落位优选》P19-20页(见附件),重新修改
    (2.2实验特点太少了,可以和2.3合并)
    (P5页2.4“所以每轮智能体决策及学习算法需要运行的次数等于玩家数”这句话从何谈起?直接说101是一个模型仿真的经典数值,在很多文章中都采用这个数值,就可以了。)
    (此外,参数的设计,不要在第二章谈,第二章谈下你对整个环境的设计,和算法设计就可以了,具体的参数仿真,放在第三章)(2.4,2.5涉及具体参数,最好放在第三章)
    (3.1中的环境设计代码和智能体设计代码,放在第二章)

    三、实验分析

    文章开头先把仿真过程重复描述一下,像下图一样,用公式和参数表示仿真中的各个数据。


    image.png

    然后开始介绍仿真过程和结果。
    表3.1,3.2,3.3用皮尔逊相关系数,来表达参数和结果之间的相关关系。进一步用下图表示


    image.png

    通过以上分析发现,在少数派博弈模型中,从个体层面而言,个体积累的历史经验,对未来收益的预期都对最终群体合作的产生起到关键的作用。这一结论与我们的常识相一致:正是因为个体对长期共同收益的追求,群体才容易形成合作,短视的个体往往只追求自身利益的最大化,但群体的平均收益反而不如远视群体;学习的过程需要注重经验的积累,得到新的经验就立即抛弃旧的经验的行为无助于学到真正的知
    识。此外,在群体层面,同质群体中,个体的少量随机行为有助于打破僵局,为群体的优化资源配置提供动力,但是随着群体优化过程的进行,这种随机行为的频率也应适当降低,有助于避免波动,保持群体的稳定性。

    四、结论和展望

    1、结论

    少数派博弈模型是一个经典的博弈模型,也经常被用来研究群体资源配置以及群体合
    作的产生等问题,对这些问题的研究经常涉及多学科交叉,物理和经济领域都存在大量对
    少数派博弈模型的研究。而使用计算机进行博弈模拟实验的方法在少数派博弈模型提出之
    前就开始被使用,强化学习与环境交互的学习方式、环境的奖励形式以及对环境自适应的
    结构都非常符合博弈模拟实验中对玩家的要求,因此被很多研究者用于研究少数派博弈模
    型。
    本文基于Qlearning方法改造博弈个体,仿真在群体混合状态下的连续少数派博弈过程,主要内容包括
    1、当环境承载量L=50情况下,各个参数对于仿真结果的影响;
    2、作为对比,当环境承载量L=65情况下,各个参数对于仿真结果的影响;
    从以上分析中,本文得出以下结论:
    1、个体层面上,个体对于博弈过程的历史经验总结和对于博弈未来预期的期望值对于群体合作的形成具有重要的影响,这一结论也与其他博弈模型的研究结果相一致,比如在一次性囚徒困境模型中,合作无法形成,而在重复囚徒困境中,由于个体之间对于未来利益的预期可以导致群体间合作的产生。
    2、群体层面上,探索因子的作用,阐述一下。

    2、展望(不足之处)

    这里写的还可以

    相关文章

      网友评论

          本文标题:基于Q-learning的少数派博弈模型中的群体合作成因研究

          本文链接:https://www.haomeiwen.com/subject/xafcahtx.html