博弈 | 精炼贝叶斯纳什均衡

作者: Tarksheep | 来源:发表于2019-05-05 14:46 被阅读0次

贝叶斯——纳什均衡是博弈论中的一个重要概念。为使逻辑表述方便，我们取二人博弈来讲解。在一般情况下，博弈的双方都有一套属于自己的策略集，像是剪刀石头布一样，博弈双方作为局中人，是不知道在接下来的猜拳中，对方会出哪种手势，但如果知道对方出各种手势的概率，那么自己可以针对对方出各种手势的概率来定出自出哪种手势赢的概率大，如果可以量化的话，可以认为这是使自己的期望收益最大化。

下图是本文框架：

在讲解贝叶斯纳什均衡之前，我们先来看贝叶斯公式和纳什均衡分别是啥。

【贝叶斯公式】

贝叶斯公式

在概率论中，条件概率P(A|B)表示在事件B发生的情况下事件A发生的概率，而先验概率P(A)和P(B)表示事件A、B本身发生的概率。

为了方便理解，我们回想下我们日常生活中是如何判别一个人是好人还是坏人的。

在纯理性的情况下，我们先认定，坏人做好事、好人做好事的概率各为0.5。那么现在提出一个问题：如果我们看到街上有一个人做了好事，他是好人的概率是多少？

如果按照目前的判断，这个概率应该是50%。

但是，日常生活经验告诉我们，好人自然是一定会做好事的，那么我们就有了一个条件概率：

下标B和A对应着公式中的概率P(B|A)

此时我们依然认为坏人做好事的概率为0.5

现在再设定，我们在大街上遇到好人的概率和遇到坏人的概率各为0.5

那么，一个人做了好事的概率P(B)应该为多少呢？我们可以通过把好人做好事的概率加上坏人做好事的概率来计算P(B)

即

依据贝叶斯公式，我们现在得到，如果看到一个人做好事，这人是好人的概率为：

显然2/3要大于0.5，说明，当我们加入了日常生活经验后，判定一个做了好事的人是好人的概率就增加了，这个2/3的概率也被称为后验概率。

简单而不严谨地总结下这里贝叶斯公式的作用：当被研究对象的信息点增加后，可以用贝叶斯公式去修正先验概率，从而获得更加准确的后验概率。

有一点很值得我们注意，在贝叶斯公式里，等号左边的概率P(A|B)是P(A)的后验概率，表示对P(A)这个概率的修正！这点对后面的精炼贝叶斯纳什均衡起到关键的作用。

贝叶斯公式的另一种形式

【纳什均衡】

在博弈时，对阵双方均有自己的策略集合，每个策略集合都对应着自己的利益得失，以博弈论中最常见的一个囚徒困境为例：

两名囚徒（共犯）被警察蜀黍捉住，分别被关在两件刑讯室里，如果两名囚徒均认罪，则两人都被关3年有期徒刑；如果两人不认罪，则两人都被关1年；如果一方认罪，一方不认罪，则认罪那方获得释放，而不认罪那方要被关5年。

囚徒的收益矩阵见下表：

其中的“认罪”和“不认罪”是囚犯的策略集，各个数字表示囚犯在每种策略组合下要被判刑的年数。逗号左边对应B的判刑年数，右边对应A的判刑年数。

我们通过求纳什均衡的方法来理解何为纳什均衡吧。求纳什均衡的常用办法是划线法。

首先看囚徒A，当囚徒B选择“认罪”时，A会选择“认罪”，这时A只被判3年（在A认罪的“3”处划线）；当囚徒B选择“不认罪”时，A还是会选择“认罪”，这时A会被释放（在A的认罪的“0”处划线）。

囚徒B与囚徒A的选择是一样的，不论A是“认罪”还是“不认罪”，B选“认罪”被判的年数都会少于选择“不认罪”的年数，相应的，在B认罪的“3”和“0”处划线。

我们把上面两个表合在一起：

只有策略集（认罪，认罪）是都有划线的，那么这个策略集就是纳什均衡。

我们可以发现，对囚徒A或B，不论对方选择哪种策略，划线的都是对自己最有利的那个策略，而满足使两方收益都最大的策略集，就是纳什均衡。如果任何一方改变自己的策略，这都会使自己的利益受损。

纳什均衡的定义如下：

在一场博弈中，局中每个参与者的均衡策略都是为了达到自己期望收益的最大值，且每个理性的参与者都不会有单独改变策略而增加自己收益的动机。由所有参与人的最优策略组成的策略组合，称为纳什均衡。

【贝叶斯纳什均衡】

在前面的囚徒困境中，囚徒A和囚徒B都是知道对方的策略集和收益情况的，这种博弈成为完全信息博弈，但是，在一些情况下，对方选择两个策略的可能性是不确定的，我们举个栗子

在一个寡头市场中，厂商A具有垄断市场的地位，而厂商B想进入这个市场。厂商A会有两种选择，一是阻扰，而是允许。A选择哪种，取决于A分别要为这两种方案付出的成本高低。如果阻扰成本高，则A会允许B进入市场；如果阻扰成本低，则A会阻止B进入市场。

相应的，假定当A让B进入市场，B收益为40亿元，而当A阻扰B进入市场，B会亏损10亿元。

在这种情况下，因为厂商B不知道厂商A各个方案的成本，所以B无法判定A会选择哪种方案。但现在如果加入了概率这一变量的话，厂商B就可以做出相应的决策了。

设厂商A阻扰成本高的概率为x，阻扰成本低的概率为(1-x)，那么，厂商B的收益期望为：

当E(x)=0时，x的值为0.2，显然，厂商A阻扰成本高的概率大于0.2时，厂商B的收益就为正，在不考虑其他因素的情况下，厂商B会选择进入市场。

在这个例子中，厂商B是没有足够充分的理由去考虑厂商A选择每一个方案时自己应当选择怎样的策略，其仅仅是通过分析对方的概率分布来确定自己的最佳策略，目的是让自己的期望收益最大化。不像囚徒困境，两个囚徒都知道对方的策略以及相应的收益，从而能判定不管对方选择“认罪”还是“不认罪”，自己的最佳方案也都是“认罪”。

厂商A和B的这种博弈成为不完全信息博弈。这种博弈是指参与者对其他人的特征、策略、收益信息了解得不够准确，博弈参与者对于对手的收益函数没有完全信息。

贝叶斯纳什均衡就是指在这种不完全信息博弈中，在给定自己和其他参与者类型（“阻扰”/“允许”）的概率分布下，每个参与者的期望效用达到了最大化，从而没有参与者愿意改变自己的行为或策略。

【精炼贝叶斯纳什均衡】

贝叶斯纳什均衡是不完全信息静态博弈的策略组合，对于不完全信息的动态博弈，就需要精炼贝叶斯纳什均衡了。

前面所讲的博弈均是静态博弈，是指博弈中参与者同时行动，或者参与者行动有先后，但是后行动者不知道前行动者采取了怎样的行动。

动态博弈就是这后参与者知道前参与者的行动，可以依此来做出更适合的策略选择。在这种情况下，前行动者的行动会更新后行动者的选择空间，相应的，前一轮的最优决策在这一轮可能不再是最优了。

参与者的每个行动依赖于其所属的类型，就像是前面“好人做好事”的例子，一个人做好事（行动）和其是不是好人（类型）是有关系的。后行动者希望通过前行动者的行为来推测其属于哪种类型，并由此做出利己的决策。当然，后行动者只能获得概率上的推算了。

那么，后行动者的方案选择概率是如何更新的呢？答案就是，用贝叶斯法则从前行动者的行为中获取到后验概率，得到更新后方案的概率分布。在贝叶斯公式里用符号来表示概率的更新就是