万维刚《博弈论15讲》笔记
01博弈论不是三十六计
中国传统谋略,比如三十六计,基本都是阴谋诡计,但轨迹有问题:
- 轨迹都有巨大风险。不仅要封锁信息,还假设对方比较愚蠢,比如空城计
- 轨迹不能长期使用。比如瞒天过海
- 轨迹说的都是零和游戏。比如围魏救赵、远交近攻,而真实世界当中除了战争,很少是你死我亡的零和游戏。
总结:计谋的本质是一厢情愿
中国可能是计谋大国,而不是战略强国。
六神磊磊说,所谓国师,不过是李师师。
博弈论研究的是理性人之间的博弈。
人在做熟悉的、重要的、涉及到钱的事情上通常还是理性的。
博弈论假设人是理性的有下面三个要求:
- 第一,你得知道你想要什么,并且对你想要的东西有一个明确的排序。
- 第二,你的行动是在一定的规则之下争取你想要的东西。
- 第三,你知道对手也是这样想的,而且对手也知道这些规则。
如果一个现象长期存在,也就是“均衡”,就是博弈论的研究对象,偶尔的非理性不是。
博弈论除了让我们理解那些表面不合理却长期存在的现象,更重要的是如何改变不好的局面。
人们之所以用不上博弈论,是因为缺少识别博弈格局的眼光和改变博弈规则的意识。
首先要理性,就像下棋考虑每一步自己和对手的反应;更深层的意识是做一个player(参与者),在规则范围内采取对自己最有利的行动,积极主动,平等对待对手。
02群鸦的盛宴
不做道德判断,哪怕所有人都不喜欢这个局面,但所有人都只能维护这个局面。
1、帕累托最优
怎样解释商家扎堆现象?这是不得不,因为要考虑竞争对手。
例子:沙滩上卖冰淇淋
帕累托改进:这个改进能在不伤害任何一个人的利益同时,使得至少一个人的境遇变得更好。
如果一个局面已经好到没有帕累托改进的余地了,这个局面就是帕累托最优。
商家均匀分散才是最优,那为什么不是呢?因为这个最优局面不稳定,后来者可以打破。理想青年喜欢帕累托最优,但是博弈论告诉我们只有稳定的局面才能长期存在。
2、压倒性策略
在“囚徒困境”当中,不管对方是否招供,囚徒甲的最好策略都是招供。
这就是压倒性策略,这种策略压倒其他一切策略。
不管别人怎么做,你这么做对自己都是不好的,这叫被压倒性策略。
3、纳什均衡
有这么一种局面,在这个策略组合里面,没有任何一方愿意单方面改变自己的策略。换句话说,不管我们是否喜欢,这个局面我们认了。
就是因为人人都不愿意先变,那这个局面就变不了。
如果一个现象能在社会中长期稳定的存在,那它对于参与各方来说就一定是个纳什均衡。
评价一个局面不能只看它对整体是否最好,它必须得让每一个参与者都不愿意单方面改变才行。
理想青年喜欢帕累托最优,理性青年寻找纳什均衡。
战国时代,必然陷入军备竞赛,因为不是纳什均衡。秦国用强权统一之后,压倒性策略就是要用武装力量镇压内部,结果弄反了。老百姓陷入的是多人囚徒困境,有人带头就必然能造反成功。
互联网上自媒体的涌现,就破除了商家扎堆现象,原因是市场门槛变低了,市场足够大,小成本也能经营,并且获利。
推荐张维迎著作《博弈与社会》
03以合为贵
合作永远是好的,能带来整体的长期的利益。
好的合作一定得是个纳什均衡。
世界上最完美的法律是交通法规。比如右侧通行就是一个纳什均衡,因为没有谁会单方面想改变此局面。
有些博弈中有多个纳什均衡,怎么选择呢?
发明了矩阵图的托马斯·谢林在《冲突的策略》中说,你可以根据约定俗成选择。
比如两个人约定明天在纽约见面,没说具体时间地点,那你最好选择中午12点在中央地铁站等。
这就是“聚焦点”。
经得起考验的概念一旦说破之后就随处可见。
聚焦点有用的前提:各方没有根本利益冲突,都想促成合作。只是要找到在哪里合作。
想要合作的人需要聚焦点,任何借口都可能是聚焦点。
只要合作的愿望大于冲突,我们就还是可以使用聚焦点。
总结:如果各方都有合作的强烈愿望,而博弈存在多个纳什均衡,我们要做的就是找到聚焦点。
04不纵容,但要宽容
凡是合作两利,背叛两伤的都是囚徒困境。但生活中存在背叛有巨大利益的时候。
防止背叛最好的方法就是把单次博弈变成重复博弈。
麦克·亚当斯在《游戏改变者》中说,一群人想要合作,至少要满足两个条件之一:
- 第一是合作对自己有好处,人们本就想合作;
- 第二是不合作就会受到惩罚。
美国黑手党就是这样。
有效的惩罚必须满足下面三个条件:
- 首先你得能发现背叛行为;
- 然后惩罚必须是可信的,而且对方要知道他一定会受到惩罚;
- 再者惩罚的力度得足够。
同样是举报免责,为什么卡特尔垄断联盟就比黑手党容易瓦解呢?可能一是卡特尔没有惩罚错失,二是黑手党主要是意大利移民,利用家庭和亲缘增加互信。
利益和惩罚只是硬条件,如果内部没有起码的信任,合作就是脆弱的。
物理学家思维,不仅考虑一个情景的可实现性,还要考虑它的稳定性。
重复博弈里,怎样的机制才是稳定的呢?——TFT(以牙还牙),
05装好人的好处
1、囚徒困境实验,居然有一半人选择宁肯对方背叛,自己也不背叛,也就是做好人。为什么呢?
- 可能是对游戏还不熟练。我们对熟悉的事情更理性,就像有人生阅历后变得成熟。
- 但另外的实验出现悖论,如果是固定跟某个人玩游戏,那也多是合作,最后才会选择背叛,即面对熟人更愿意做好人。
2、在有限次重复博弈当中,如果我们从最后一次博弈必然背叛来倒推,那么每一次都应该选择背叛,可现实生活中并非如此,这是为什么?
- 一种解释是现实中的博弈虽然是有限次的重复,但因为是随机的,所以你不知道下次什么时候博弈,什么时候不再博弈,所以愿意合作,避免未来可能的惩罚。
- 另一种解释是“四人帮模型(KMRW四位经济学家1982)”,就算我们知道未来有多少次博弈,理性选择也应该是先合作。
这是因为对方到底是不是个理性的人,这个信息是不完备的,这叫“不完全信息博弈”。如果双方都知道对方是理性的,那有限次重复博弈就不会有合作。
当你面对一个好人时,你是选择合作还是背叛呢?你应该选择合作,就像黄蓉(理性人)面对郭靖(好人)。
在不完全信息博弈中,参与者不知道对方是好人还是理性人,那么只要博弈的次数足够多,合作就能够带来足够的好处,双方都愿意维护自己是好人这个名誉,前期尽可能合作,到最后才背叛。
张维迎在《博弈与社会》中说KMRW理论可以解释大智若愚,“智”是自私理性,“愚”是宁可自己吃亏也不要背叛。选择“愚”是大智慧,可以积累声誉赢得更多人的合作。
3、那装好人要装到什么程度为止呢?
在有限次重复博弈当中,一般是倒数第二次双方才暴露出理性人的面目,选择背叛。比如领导干部的59岁现象。
博弈论专家不建议你去做真正的好人(康德式好人),因为好人经常一厢情愿,认为可能感化对方,这在险恶社会很危险。
话说回来,做真正好人是有一个重大好处——你会自我感觉很好,以至于你为了维护这种感觉而不惜金钱利益。这也是为什么在开头的实验中有一半的人选择了先合作。
文化教育的熏陶让我们活在一个好人世界的想象共同体当中,有时候我们甚至认为物质利益都是不重要的,这是幻觉,也是理性,只要你知道心中什么最重要就可以。
网友评论