美文网首页深度学习
博弈论(2)—纳什均衡

博弈论(2)—纳什均衡

作者: zidea | 来源:发表于2021-02-22 17:16 被阅读0次
    cover.png

    如果想观看相关视频可以在西瓜视频(账号zidea)或者哔哩哔哩(账号zidea2015)找到我发布视频解说,注意头像和简书使用头像一致。

    纳什均衡

    003.jpeg

    又称为非合作博弈均衡,是博弈论的一个重要术语,以约翰·纳什命名。 在一个博弈过程中,无论对方的策略选择如何,当事人一方都会选择某个确定的策略,则该策略被称作最佳应对。 如果两个博弈的局中人的策略组合分别构成各自的最佳应对,那么这个组合就被定义为纳什均衡。

    在给出纳什均衡解释前,我们先得把一个概念说清楚最佳应对。

    最佳应对

    • 假设 s 是局中人 1 的选择的一个策略,t 是局中人 2 的选择的一个策略;那么 U_1(s,t) 是局中人 1 从这组决策(局势)中获得的收益,U_2(s,t) 是局中人 2 从这组决策中获得的收益
    • 针对局中人 2 的策略 t,若局中人 1 用策略 s 产生的收益(效用函数的值)大于或等于任何其他策略,则称策略 s 局中人 1 对局中人 2 的策略 t 的最佳应对U_1(s,t) \ge U_1(s^{\prime},t)

    纳什均衡

    纳什均衡是刻画局势,如果一个局势下,每个局中人的策略都是相对其他局中人当前策略的最佳对应,则称该局势是一个纳什均衡

    占优策略

    如果一个局中人的某个策略对其他局中人的任何策略都是最佳对应,那么这个策略就是该局中人的占优策略

    007.jpeg

    在纳什均衡下,局中人没有人会想要改变改变,因为谁改变谁就可能在博弈中处于不利地位。

    经典示例

    首先我们来看一看在囚徒困境中纳什均衡,对于囚徒困境的问题的纳什均衡是双方都坦白,属于占优策略

    抗拒 坦白
    抗拒 -1,-1 -10,0
    坦白 0,-10 -3,-3
    • 当处于 (-1,-1) 局势时,如果一方改变就可能从 -1 到 0
    • 而在 (-3,-3) 的局势时,如果一方改变就可能从 -3 到 -10

    其实不管局中人 2 是抗拒还是坦白,对于局中人的最佳应对都是坦白。从而可以看出纳什均衡点并不一定是整体的最优解。有人可能会说那么为什么不是对于两个人都有利的(抗拒,抗拒)呢,这里最佳应对是无论对手进行策略对自己都是最佳策略,在最后 maxmin 时候就更会了解为什么他们会做出坦白选择,这是一个规避风险的策略。

    <img src="./image_003/005.jpg">

    舞蹈 足球
    舞蹈 1,2 0,0
    足球 0,0 2,1

    这就是纯策略纳什均衡,混合策略下纳什均衡,女生看舞蹈概率 p 看足球的概率就是 1 - p,男生看舞蹈概率 q 看足球的概率就是 1 - q

    • 丈夫选择看足球策略的期望收益
      U_1(看足球,t) = 2 (1-p) + 0 \times p =2-2p
      丈夫选择了看足球,当妻子以概率 1-p 也选择了看足球会得到收益 2
    • 丈夫选择看舞蹈策略的期望收益
      U_1(看舞蹈,t) = 0 \times (1-p) + 1 \times p = p

    妻子随机性的目的: 使丈夫无机可乘,不管丈夫选择哪个策略,其期望收益均相同

    2-2p = p \rightarrow p=\frac{2}{3}

    • 妻子选择看足球策略的期望收益
      U_2(看足球,t) = 1 \times (1-q) + 0 \times q =1-p
      妻子选择了看足球,当丈夫以概率 1-q 也选择了看足球会得到收益 1
    • 妻子选择看舞蹈策略的期望收益
      U_2(看舞蹈,t) = 2 \times q + 0 \times (1-q) = 2q

    1-q = 2q \rightarrow q=\frac{1}{3}

    当丈夫给出概率分布不会让妻子在看足球和看,关于
    以我对丈夫了解他更喜欢看足球,

    • 2/3 的概率会选择去看足球
    • 1/3 的概率会选择去看舞蹈

    混合策略下

    • 混合策略: 每个局中人以某个概率分布在其策略集合中选择策略
    • 混合策略下的纳什均衡:
      • 定义和纯策略纳什均衡一致:基于最佳应对定义
      • 必要条件: 给定其他局中人的策略选择概率分布的情况下,当前局中人选择任意一个(纯)策略获得的期望效用相等
    剪刀 石头
    剪刀 0,0 -1,1 1,-1
    石头 1,-1 0,0 -1,1
    -1,1 1,-1 0,0

    局中人 1 的策略选择分布记为 p = \{p_1,p_2,1-p_1-p_2\}, 局中人 2 的策略选择分布记为q = \{q_1,q_2,1-q_1-q_2\}。假设局中人 1 的策略分布不变,局中人 2 策略选择的效用为

    • 剪刀: 0 \times p_1 + (-1) \times p_2 + 1 \times (1 - p_1 - p_2) = 1 - p_1 - 2p_2

    • 石头: 1 \times p_1 + 0 \times p_2 + (-1) \times (1 - p_1 - p_2) = 2p_1 - p_2 - 1

    • : -1 \times p_1 + 1 \times p_2 + 0 \times (1 - p_1 - p_2) = p_2 - p_1

    • 当前局中人选择任意一个混合策略获得的期望效用相等

    \begin{aligned} 1 - p_1 - 2p_2 = 2p_1 - p_2 - 1\\ 1 - p_1 - 2p_2 = p_2 - p_1 \end{aligned}

    p_1 = p_2 = \frac{1}{3}

    剪刀—石头—布的混合纳什均衡态

    • 如果局中人没有遵循 1/3 的随机策略,谁就会失去有利位置
    • 每个玩家各以 1/3 的概率
    • 期望收益为 0

    纳什定理

    任何有限博弈(参与人与策略数目均为有限)都至少存在一个纳什均衡,这个均衡可能是纯策略纳什均衡(例如剪刀-石头-布),也可能是混合策略均衡,纳什均衡的多重性(例如性别之战)

    纳什均衡的存在性与多重性

    • 占优均衡:例如囚徒困境
    • 纯策略纳什均衡:性别之战
    • 混合策略纳什均衡

    相关文章

      网友评论

        本文标题:博弈论(2)—纳什均衡

        本文链接:https://www.haomeiwen.com/subject/zmjkfltx.html