美文网首页
笔记——博弈论与学习经济学

笔记——博弈论与学习经济学

作者: 郭孙雅儿 | 来源:发表于2022-10-23 20:05 被阅读0次

第一章:完全信息静态博弈(纳什均衡)

:基本概念与战略性描述

1.参与人player(博弈中的决策主体):另外“自然”指虚拟参与人。

2.行动action or move:(参与人在某个节点的决策变量),根据行动的先后分静态博弈、动态博弈。

3.信息information:参与人有关博弈的知识,特别是关于‘自然’的选择,主体参与人的特征和行动。

完美信息(perfect information):指一个参与人对其他参与人(包括“自然”)的的行动选择有准确了解的情况,即每一个信息集只包含一个值。

完全信息(complete information):是指自然不首先采取行动,或自然的初始行动被所有参与人准确观察的情况,即没有事先的不确定性。(?)

(不完全信息意味着不完美信息,但是逆定理不成立)

共同知识:A知道B知道A知道...知道的知识  博弈论中非常强的概念。一致信念:都知道时常需求,但A知B知,B不知A知。

4.战略(strategy):参与人在给定信息集下的的行动规则,它规定参与人在什么时候采取什么行动。

其中Si={si} 第i个参与人所有可选择的战略集合(strategy set)

若n个参与人每人选择一个战略,n维向量s=(s1,s2,s3,,,,sn)称为战略组合(strategy profile1`),si表示第i个参与人选择的策略。

注意:1,战略和行动不同,战略是行动的规则而不是行动本身。战略是什么时候采取什么行动。在静态博弈中,战略和行动是相同的,因为同时采取行动。2,战略必须是完备的,即使这种情况实际不会发生,也要给出各种情况下的行动选择。

5.支付(payoff):指的是在一个特定的战略组合下参与人得到的确定效用水平或期望效用水平。

u=(u1,u2...un)为n个参与人的支付组合,ui为第i个参与人的支付效用水平。参与人的支付不仅取决于自己的战略选择,而且还取决于其他所有参与人的战略选择,所以ui是所有参与人战略选择的函数。即ui=ui(s1,时

...sn)

参与人,战略,支付是描述一个 博弈所需的最少要素。                                                                                                                                                                                                                                                        

6.结果(outcome):博弈分析者感兴趣的所有东西。如(均衡战略组合,均衡行动组合,均衡支付组合)

7.均衡:均衡是所有参与人的最优战略的组合,一般记为:s*=(s1*,s2*...sn*).其中si是第i个参与人的最优策略。

用S-i=(s1,...,si-1,si+1,...sn)表示除i之外的所有参与人的战略组合成的向量。si*是给定s-i情况下第i个参与人的最优战略意味着:ui(si*,si-1)大于等于ui(si',si-1),任意si'不等于si*。均衡意味着对于i=1,2,...n上式同时成立。

注:均衡与均衡结果并不是同一个概念。

博弈的描述:战略性描述(更适合静态博弈,但也可描述动态博弈),扩展式描述(更适合动态博弈)

1.博弈的参与人集合:i属于T,T=(1,2,..n)   2.每个参与人的策略空间Si,i=1,..n.   3.每个参与人的支付函数。ui

=(s1,s2,...sn),i=1,2,..n.   用 G{S1,...Sn;u1,..un}代表战略式表述函数

若:参与人个数有限,每个参与人的策略有限,则称为有限博弈。两人有限博弈的战略式表述可以用矩阵表直观给出。

博弈分析的目的是预测均衡结果。即每个参与人均是理性的情况下,什么是每个参与人的最优战略,什么是所有参与人的最优战略组合。

二:纳什均衡

1.占优战略(dominant strategy):一般来说,每个参与人的支付是所有参与人的战略的函数,但一些特殊情况下,一个参与人的最优战略可能并不依赖其他参与人的战略选择。即不论其他参与人选择什么战略,他的最优战略是唯一的。即占优策略。比如囚徒困境就是无论A选择什么策略,B的最优策略是坦白,同理A的最优策略也是坦白。(囚徒困境的例子)

若si*称为i的占优策略,若对于所有的s-i,si*是i的严格最优选择,即ui(si*,s-i)>ui(si',s-i),任意s-i,任意si'不等于si*。si'不等于si*的称为劣战略(dominanted strategy)。  s*=(s1*,...sn*)称为占优策略均衡。

囚徒困境反映了个人理性与集体理性的冲突,其中(抵赖,抵赖)并不是一个均衡,因为帕累托改进做不到,不符合个人理性,另外就算有不坦白协定,并没有积极性遵守。即这个是合作与非合作博弈的区别。

2.重复剔除占优策略:智猪博弈的例子,因为没有占优策略均衡,因为只有小猪有不按这个占优策略,但是大猪没有占优策略。大猪的最优策略要依赖小猪的战略。(大猪按,小猪等待)是这个博弈的唯一均衡解。运用重复剔除严格劣战略(dominanted strategy)。

3.纳什均衡:纳什均衡是完全信息静态博弈解的一般概念,构成纳什均衡的战略是重复剔除严格劣战略过程中不能被剔除的战略。注:许多不存在占优策略均衡的或重复剔除的占优均衡的博弈,却存在纳什均衡。

三者之间的关系:(1)每一个占优战略均衡,重复剔除的占优均衡一定是纳什均衡。反之不一定。(2)纳什均衡一定是在重复剔除严格劣战略过程中没有被剔除的。但没有被剔除的战略组合不一定是纳什均衡,除非它是唯一的。注:此句不适合弱战略剔除的情况,因为弱战略的剔除,可能剔除掉均衡结果。

举例:市场进入阻挠博弈,有两个纳什均衡。(进入,默许)强纳什均衡,(不进入,斗争)弱纳什均衡。

两人有限博弈可以利用划横线的方式找出纳什均衡。

三.纳什均衡应用举例:(这里没有仔细看)

古诺博弈(库诺特寡头竞争模型),豪泰林价格竞争模型,公共地的悲剧,公共物品的私人自愿供给,基础设施建设(中央政府与地方政府)

:混合战略纳什均衡

1,社会福利博弈(流浪汉和政府),根据之前的纳什均衡定义:一组满足所有参与人的效用最大化战略组合是一个纳什均衡,则这个博弈没有纳什均衡;

同理,按之前的定义猜谜游戏(抛硬币)这个博弈也没有纳什均衡,这个博弈实际上是一个零和博弈(一方所得即另外一方所失)。

混合策略指的是以一定概率选择某种战略。此时的效用称为期望效用。在两人博弈里,混合战略纳什均衡是两个参与人的最优混合战略的组合。

以社会福利博弈(流浪汉和政府)为例:两种方法找混合战略纳什均衡。

支付最大化方法:(假定参与人的混合战略概率——列出参与人的期望效用函数——对函数求微分(注意每个参与人的期望效用是自己的混合概率的线性函数),得到最优化一阶条件——求解——每个参与人都求解出来的概率就是均衡混合战略)

支付等值法:令参与人的各个纯策略支付相等,解得答案。均衡可以通过几何图形表示出来,交点就是纳什均衡点。

奇点定理(威尔逊:几乎所有的有限博弈都有有限奇数个纳什均衡。一般若一个博弈有两个纯策略纳什均衡,一定存在第三个混合策略纳什均衡。

均衡NE:占优战略均衡DSE(囚徒困境),重复剔除的占优均衡IEDE(智猪博弈),纯战略纳什均衡PNE,混合战略纳什均衡MNE

:纳什均衡的存在性和多重性讨论

纳什均衡的存在性

纳什均衡存在性定理1:每一个有限博弈至少存在一个纳什均衡(纯战略的或混合战略的)——角谷静夫(kakutani)不动点定理证明

纳什均衡存在性定理2:在n人战略式博弈中,如果每个参与人的纯战略空间Si是欧式空间上一个非空的、闭的、有界的凸集,支付函数ui(s)是连续的且对si是拟凹的,那么,存在一个纯战略纳什均衡。

纳什均衡存在性定理3:在n人战略式博弈中,如果每个参与人的纯战略空间Si是欧式空间上一个非空的、闭的、有界的凸集,支付函数ui(s)是连续的,那么,存在一个混合战略纳什均衡。

纳什均衡的重复性

一个博弈可能有多个均衡,当一个博弈有多个纳什均衡时,博弈论没有一般理论证明纳什均衡结果一定会出现。但参与人可以使用被博弈模型抽象掉的信息达到“聚点”。

聚点均衡:如性别战中,如果当天是女方生日,则(芭蕾,芭蕾)可能会是一个聚点均衡。

第二章:完全信息动态博弈(子博弈精炼纳什均衡)

一:博弈的扩展式表述(本节讨论博弈树的构造,尤其是信息集的概念)

战略式表述包含:参与人集合,每个参与人的战略组合,战略组合决定的支付

扩展式表述包含要素:参与人集合,参与人的行动顺序,参与人行动空间,参与人的信息集,参与人的支付函数,外生事件。

博弈树可以表示战略式表述。博弈树包含:

结(初始结,策略结(不包含终点结),终点结(支付)),<表示顺序关系,满足传递和反对称性,意味着是半序的,即有些结不可比较。P(x)是前列集,T(x)是后续集。传递性和反对称性确定了初始结到任何一个结路径书是唯一的,另外还必须保证x的前列集是全排序的。

枝(枝上有参与人的战略空间),

信息集(博弈树上所有的决策结分割成不同的信息集。是策略结集合的子空间,信息集的策略结是一个人的,属于同一个信息集的用虚线圈起来或者是连起来,只包含一个决策结的信息集叫单结信息集,如果博弈树的信息集都是单结的,则称该博弈为完美信息博弈

二:扩展式表述博弈的纳什均衡(本节讨论如何从扩展式博弈中构造出战略式博弈,从而将上一章定义的纳什均衡应用于扩展式表述章)

房地产开发的例子通过扩展式表述写出战略式的表述,通过矩阵找出纳什均衡。

行为战略是扩展式表述中的混合战略。

定理:一个有限的完美信息博弈有一个纯战略纳什均衡。

利用逆向归纳法找出博弈树的纳什均衡,此方法实际上是重复剔除战略方法在扩展式表述博弈中的应用。

三:(泽尔腾)子博弈精炼纳什均衡

子博弈精炼纳什均衡是纳什均衡概念的第一个重要改进,她的目的是把动态博弈中的合理纳什均衡与不合理纳什均衡分开。引入子博弈精炼纳什均衡的概念是将那些包含不可置信威胁战略的纳什均衡从均衡中剔除,从而给出动态博弈结果的一个合理预测。子博弈精炼纳什均衡要求均衡战略的行为规则在每一个信息集上都是最优的。

子博弈定义:一个扩展式表述的子博弈G由一个决策结G和所有该决策结的后续结T(x)表示。它需要满足:(1)x是一个单结信息集,即h(x)={x};(2)对于所有的x1属于T(x),如果x''属于h(x1),x''属于T(x)。

条件(1)说的是一个子博弈必须从一个单结信息集开始,条件(2)说的是子博弈的信息集和支付向量都直接继承原博弈。

子博弈精炼纳什均衡定义:扩展式表述战略组合s*=(s1*,...,si*,...sn*)是一个子博弈精炼纳什均衡。如果:(1)她是原博弈的纳什均衡(2)她在每一个子博弈上给出纳什均衡

均衡路径,非均衡路径。

用逆向归纳法求解子博弈精炼纳什均衡。虽然定义中子博弈精炼纳什均衡只适用于完美信息博弈,但有些非完美信息博弈可以利用逆向归纳法逻辑求解。

承诺行动与子博弈精炼纳什均衡。为改变博弈结果而采取的措施。如:要挟诉讼

逆向归纳法与子博弈精炼纳什均衡存在的问题:罗森塞尔蜈蚣博弈

四:子博弈精炼纳什均衡举例:斯坦克尔伯格寡头竞争模型。

五:重复博弈和无名氏定理

序贯博弈:从后一个决策结开始的子博弈不同于从前一个决策结开始的子博弈。即同样结构的子博弈只出现一次。

重复博弈:动态博弈的一种特殊且重要的博弈,重复博弈是指同样结构的博弈重复多次,其中每次博弈称为阶段博弈。

有限次重复博弈:连锁店悖论

无限次重复博弈和无名氏定理

第三章:非完全信息静态博弈(贝叶斯纳什均衡)

Bayesian Nash equilibrium 

一:不完全信息博弈和贝叶斯均衡

完全信息中支付函数是所有参与人的共同知识。但是在非完全信息中至少有一个参与人不知道其他参与人的支付函数。比如市场进入阻挠博弈,在位者有高成本和低成本两种情况。在位者的成本情况只有他自己知道,进入者并不知道。但是进入者知道高成本和低成本的概率。

2:海萨尼转换

如果在位者有T种可能的不同成本的函数时,进入者就似乎在与T个不同的在位者博弈。相对于参与人不知道在与谁博弈。海萨尼提出处理不完全信息博弈的方法是:引入虚拟参与人“自然”,自然首先决定参与人的特征,参与人知道自己的特征,其他参与人不知道。

我们将一个参与人所拥有的所有私人信息,即不是共同知识的信息称为他的类型。参与人的类型是其类型的一个完备描述。一般将参与人的支付函数等同于他的类型。即支付函数是依类型依存的。

3完全信息静态博弈的战略式描述和贝叶斯纳什均衡

:贝叶斯均衡的应用举例

不完全信息的古诺博弈模型,两个参与人,逆需求函数P=a-q1-q2,参与人1的成本函数c1是共同知识,参与人2有高成本和低成本两种情况,但是只有他自己知道。但是参与人1知道2是高成本还是低成本的概率。求解过程:

参与人1的q1*:求出π1=pq1-cq1,   2,求出反应函数,即求导令=0,知道q1*,   

参与人2的q2*:求出π2=pq1-cq1 , 2求出反应函数 ,求导令等于0

关键:此时参与人2知道自己的成本情况,可以表示成只含q1的情况

但是参与人1不知道参与人的成本情况,只知道概率的情况,故可以表示成期望的情况,然后将参与人2的期望情况代入前面的q1*,然后可以解出来q1*。同时也可以解出来参与人2的两种情况了。即关键点就是参与人1对于参与人2的期望情况算出来的q1*,然后算q2*。

显示原理:显示原理是经济博弈理论中的重要工具,任何贝叶斯博弈的任何贝叶斯纳什均衡,都可以重新表示为一个激励相容的直接机制。显示原理降低了机制设计问题的复杂程度,大大推动了拍卖理论的发展。

比如:国家收税,工资越高税越高,则人人都会说假话。这个是一个说假话的机制;但是也可以找到一个说真话的机制,即无论你说你的收入多少,国家都不收你的税。(此只是简单帮助理解,具体用数学语言描述更好)

第四章:非完全信息动态博弈——精炼贝叶斯纳什均衡

精炼贝叶斯纳什均衡:战略和信念的结合。满足两个条件:1,在其他参与人类型的信念条件下,参与人自身的选择是最优的;2,参与人的的信念是通过贝叶斯法则得到的。

贝叶斯法则:主要是通过先验概率来求后验概率,相对于这个后验概率就是修正先验概率。即就是执果索因。比如说:一个人认为他是好人的先验概率的1/2,那如果看见他做了一件非常非常好的事,即p(GT|GP)=1,p(GT|BP)=0, 那现在他是好人的概率是多少呢。即求Prob(GP|GT)=(1/2*1)/(1*2/1+0*1/2)=1。

信号传递博弈:有两个参与人1,和2。参与人1是信号发送者,参与人2是信号接收者。参与人1的类型只有他自己知道,其他人不知道。

1,自然首先行动,决定参与人1的类型,类型只有参与人1自己知道,参与人2不知道

2,参与人1知道自己的类型。然后发出信号。

3,参与人2可以看见发出的信号,然后根据贝叶斯法则修正先验概率,即算出后验概率然后决策。

3,分别的支付函数。

相关文章

网友评论

      本文标题:笔记——博弈论与学习经济学

      本文链接:https://www.haomeiwen.com/subject/taptzrtx.html