博弈论(2)—纳什均衡

作者: zidea | 来源:发表于2021-02-22 17:16 被阅读0次

博弈论——纳什均衡
二、纳什均衡
博弈论(2)—纳什均衡
纳什均衡学习心得
囚徒困境
Day359 今日白雪生词学习0106
九、警察与小偷博弈
图书行业里的“囚徒困境”
《纳什均衡与博弈论》
博弈论之纳什均衡

cover.png

如果想观看相关视频可以在西瓜视频(账号zidea)或者哔哩哔哩(账号zidea2015)找到我发布视频解说，注意头像和简书使用头像一致。

纳什均衡

003.jpeg

又称为非合作博弈均衡，是博弈论的一个重要术语，以约翰·纳什命名。在一个博弈过程中，无论对方的策略选择如何，当事人一方都会选择某个确定的策略，则该策略被称作最佳应对。如果两个博弈的局中人的策略组合分别构成各自的最佳应对，那么这个组合就被定义为纳什均衡。

在给出纳什均衡解释前，我们先得把一个概念说清楚最佳应对。

最佳应对

假设 s 是局中人 1 的选择的一个策略，t 是局中人 2 的选择的一个策略；那么 $U_1(s,t)$ 是局中人 1 从这组决策(局势)中获得的收益， $U_2(s,t)$ 是局中人 2 从这组决策中获得的收益
针对局中人 2 的策略 t，若局中人 1 用策略 s 产生的收益(效用函数的值)大于或等于任何其他策略，则称策略 s 局中人 1 对局中人 2 的策略 t 的最佳应对。 $U_1(s,t) \ge U_1(s^{\prime},t)$

纳什均衡

纳什均衡是刻画局势，如果一个局势下，每个局中人的策略都是相对其他局中人当前策略的最佳对应，则称该局势是一个纳什均衡

占优策略

如果一个局中人的某个策略对其他局中人的任何策略都是最佳对应，那么这个策略就是该局中人的占优策略

007.jpeg

在纳什均衡下，局中人没有人会想要改变改变，因为谁改变谁就可能在博弈中处于不利地位。

经典示例

首先我们来看一看在囚徒困境中纳什均衡，对于囚徒困境的问题的纳什均衡是双方都坦白，属于占优策略

	抗拒	坦白
抗拒	-1,-1	-10,0
坦白	0,-10	-3,-3

当处于 $(-1,-1)$ 局势时，如果一方改变就可能从 -1 到 0
而在 $(-3,-3)$ 的局势时，如果一方改变就可能从 -3 到 -10

其实不管局中人 2 是抗拒还是坦白，对于局中人的最佳应对都是坦白。从而可以看出纳什均衡点并不一定是整体的最优解。有人可能会说那么为什么不是对于两个人都有利的(抗拒，抗拒)呢，这里最佳应对是无论对手进行策略对自己都是最佳策略，在最后 maxmin 时候就更会了解为什么他们会做出坦白选择，这是一个规避风险的策略。

	舞蹈	足球
舞蹈	1,2	0,0
足球	0,0	2,1

这就是纯策略纳什均衡，混合策略下纳什均衡，女生看舞蹈概率 p 看足球的概率就是 1 - p，男生看舞蹈概率 q 看足球的概率就是 1 - q

丈夫选择看足球策略的期望收益
$U_1(看足球,t) = 2 (1-p) + 0 \times p =2-2p$
丈夫选择了看足球，当妻子以概率 1-p 也选择了看足球会得到收益 2
丈夫选择看舞蹈策略的期望收益
$U_1(看舞蹈,t) = 0 \times (1-p) + 1 \times p = p$

妻子随机性的目的: 使丈夫无机可乘，不管丈夫选择哪个策略，其期望收益均相同

$2-2p = p \rightarrow p=\frac{2}{3}$

妻子选择看足球策略的期望收益
$U_2(看足球,t) = 1 \times (1-q) + 0 \times q =1-p$
妻子选择了看足球，当丈夫以概率 1-q 也选择了看足球会得到收益 1
妻子选择看舞蹈策略的期望收益
$U_2(看舞蹈,t) = 2 \times q + 0 \times (1-q) = 2q$

$1-q = 2q \rightarrow q=\frac{1}{3}$

当丈夫给出概率分布不会让妻子在看足球和看，关于
以我对丈夫了解他更喜欢看足球，

2/3 的概率会选择去看足球
1/3 的概率会选择去看舞蹈

混合策略下

混合策略: 每个局中人以某个概率分布在其策略集合中选择策略
混合策略下的纳什均衡:
- 定义和纯策略纳什均衡一致：基于最佳应对定义
- 必要条件: 给定其他局中人的策略选择概率分布的情况下，当前局中人选择任意一个(纯)策略获得的期望效用相等

	剪刀	石头	布
剪刀	0,0	-1,1	1,-1
石头	1,-1	0,0	-1,1
布	-1,1	1,-1	0,0

局中人 1 的策略选择分布记为 $p = \{p_1,p_2,1-p_1-p_2\}$ , 局中人 2 的策略选择分布记为 $q = \{q_1,q_2,1-q_1-q_2\}$ 。假设局中人 1 的策略分布不变，局中人 2 策略选择的效用为

剪刀: $0 \times p_1 + (-1) \times p_2 + 1 \times (1 - p_1 - p_2) = 1 - p_1 - 2p_2$
石头: $1 \times p_1 + 0 \times p_2 + (-1) \times (1 - p_1 - p_2) = 2p_1 - p_2 - 1$
布: $-1 \times p_1 + 1 \times p_2 + 0 \times (1 - p_1 - p_2) = p_2 - p_1$
当前局中人选择任意一个混合策略获得的期望效用相等