博弈论沉思08重复博弈

作者: 玩哲 | 来源:发表于2017-11-24 16:31 被阅读3188次

博弈论沉思08重复博弈
博弈论之重复博弈
博弈论沉思06攻防博弈
232/1000 博弈改变人
策略思维中的博弈论
博弈论初识
竞价广告中的博弈论
诚信重复博弈
《博弈论》学习心得
博弈论

40承诺行动与子博弈精练纳什均衡

有些战略之所以不是精练纳什均衡，是因为它包含了不可臵信的威胁战略，如果参与人能在博弈之前采取某种行动改变自己的行动空间或支付函数，原来不可置信威胁将变得可置信，博弈的精练纳什均衡也会随之改变。

这些改变博弈结果而采取的措施称为承诺行动。

完全承诺:承诺可以使某项行动完全没有可能(破釜沉舟)。

不完全承诺:承诺只是增加了某个行动的成本而不是使该活动完全没有可能。

经常有这样的情况，非理性-通常是自动的而不是策略性的-是一个优势。

曹操与袁绍的仓亭之战，曹操召集将领来献破袁之策，程昱献了十面埋伏之计，他让曹操退军河上，诱袁前来追击，到那时“我军无退路，必将死战，可退袁矣”。

曹操采纳此计，令许褚诱袁军军至河上，曹军无退路，操大呼曰：“前无去路，诸军何不死战！”，众军奋力回头反击，袁军大败。

如果在A决策之前，B与某客户签定了一个合同，规定B若不在特定时期内开发若干面积的写字楼，则将支付违约金3.5，这个合同就是承诺行动。

41在电影《怪爱博士》中的末日机器就是一个例子

前苏联认为不可能在一场理性的军备竞赛中超过更富有的美国，所以，他制造了一颗炸弹，如果任何人引爆了这颗炸弹，它将自动炸毁整个世界。着部电影描述了这样一个细节，你必须告诉对方你有这么一个末日机器。

据说前美国总统尼克松曾告诉他的副手哈德蔓，他对这个策略更复杂的看法：我称为疯子理论，我要让北越相信我已经到了无论付出多少都要结束战争的地步，我们只要他听到这样的传闻：“看在上帝的份上，尼克松已经被共产党搞疯了，当他生气的时候，我们没法制止他，他的手已经按在核按纽上了。”胡志明两天之后会到巴黎求和的。

美国普林斯顿大学古尔教授在1997年的《经济学透视》里发表文章，提出一个例子说明威胁的可信性问题：

两兄弟老是为玩具吵架，哥哥老是要抢弟弟的玩具，不耐烦的父亲宣布政策：好好去玩，不要吵我，不管你们谁向我告状，我都把你们两个关起来，关起来比没有玩具更可怕。

现在，哥哥又把弟弟的玩具抢去玩了，弟弟没有办法，只好说：快把玩具还我，不然我就要去告诉爸爸。各个想，你真要告诉爸爸，我是要倒霉的，可是你不告状不过没有玩具玩，而告了状却要被关禁闭，告状会使你的境遇变得更坏，所以你不会告状，因此哥哥对弟弟的警告置之不理。

的确，如果弟弟是会算计自己利益的理性人，在这样的环境下，还是不告状的好。可见，弟弟是理性人，他的告状威胁是不可置信的。

42逆向归纳法与子博弈精练纳什均衡的存在问题

逆向归纳法理论没有为当某些未预料到的事情出现时参与人如何形成他们的预期提供解释，这使得逆向归纳法的解释受到怀疑。

弗德伯格等人将偏离行为解释为是由于有关“支付函数”信息的不确定性造成的，即实际的支付函数不同于原来认为的支付函数，从而参与人在观测到未曾预料到的行为时应该修正有关支付函数的信息。

他们认为，任何一个有关博弈行为的理论应该是“完备的”，即理论应该对任何可能的行为赋予正的概率，从而当某件事情出现时，参与人对随后的博弈行为的条件预测总是很好定义的。

泽尔藤将偏离行为解释为参与人在博弈过程中犯的错误，或者说均衡的“颤抖”，即在扩展式博弈隐含了参与人犯错误的可能，如果参与人在每个信息集上犯错误的概率是独立的（因而参与人不会犯系统性的错误），那么，不论过去的行为与逆向归纳法的预测如何不同，参与人应该继续使用逆向归纳法预测从现在开始子博弈的行为。

43重复博弈

一次动态博弈也称为“序贯博弈”。

重复博弈：指同样结构的博弈重复多次，其中的每次博弈称为“阶段博弈”。如囚徒困境。重复博弈的特征：

1、阶段博弈之间没有“物质上”的联系，即前一阶段的博弈不改变后一阶段的结构；

2、所有参与人都观测到博弈过去的历史；

3、参与人的总支付是所有阶段博弈支付的贴现值之和或加权平均均值。贴现因子：

下一期的一单位支付在这一期的价值。

注意：在每个阶段，参与人可同时行动，也可不同时行动。

因为其他参与人过去的历史总是可以观测到的，因此，一个参与人可以使自己在某个阶段博弈的选择依赖于其他参与人过去的行动历史，因此，参与人在重复博弈中的战略空间远远大于和复杂于每一阶段的战略空间，这意味着，重复博弈可能带来一些“额外”的均衡结果。

影响重复博弈均衡结果的主要因素是博弈重复的次数和信息的完备性。

博弈重复的次数的重要性来源于参与人在短期利益和长远利益之间的权衡。

信息的完备性：当一个参与人的支付函数不为其他参与人知道时，该参与人可能有积极性建立一个“好”的声誉以换取长远利益。

44囚徒的救赎

好莱坞大片《肖申克的救赎》是一部很好看的电影，主要内容是一个被冤屈的囚犯如何凭着坚定的信念和聪明才智逃出牢房。

我们的“囚犯”也可以通过好的策略合作，摆脱“困境”的诅咒。

无限次重复博弈使其走出了囚徒困境，背后的原因是：

如果博弈重复无穷次而且每个人有足够的耐心，任何短期机会主义行为的所得都是微不足道的，参与人有积极性为自己建立一个乐于合作的声誉，同时也有积极性惩罚对方的机会注意的行为。

冷酷战略：（1）开始选择抵赖；（2）选择抵赖一直到有一方选择了坦白，然后永远选择坦白。

在冷酷战略下：