美文网首页
【江湖说️学习日记162囚徒困境】

【江湖说️学习日记162囚徒困境】

作者: 栗小蒙 | 来源:发表于2019-06-11 22:39 被阅读0次

    【江湖说️学习日记  162 囚徒困境】

    [打卡宝宝]:嘿黑~

    [打卡日期]:2019/06/11

    [累计坚持]:这是我坚持学习的第162天️

    [学习内容]:博弈论 囚徒困境:向香港电影学习如何破解“囚徒困境”

    [学习笔记]:1950年,美国数学家阿尔伯特·塔克,为了向一群心理学家们解释博弈论,编了一个叫“囚徒困境”的故事:

    两名囚徒A和B被隔离审讯。如果两人彼此背叛,都坦白罪行,会都被判刑8年;但如果一人坦白,一人不坦白,坦白的人直接释放,不坦白的重判15年。如果两人合作,都不坦白呢?会因为证据不足,都只判1年

    【江湖说️学习日记162囚徒困境】

    囚徒应该怎么做?显然,“都不坦白”是最优策略,两人判得最轻。但学过第206课“纳什均衡”你就会明白,“都不坦白”是经不起考验的最优策略:我如果单方选择背叛,将立即获释,诱惑太大;而且就算我守口如瓶,万一他背叛了呢?我会被判15年,风险太高。在利益驱使下,“都不坦白”不是稳定的纳什均衡。

    “都坦白”呢?那两人都获刑8年。这时,如果一名囚徒单方决定守口如瓶,他的8年刑期将立刻变为15年,而另一人则被释放。这一点好处都没有,两名囚徒如果是理性的,都不会这么干。“都坦白”,是囚徒困境中唯一稳定的“纳什均衡”。

    “好的不均衡,坏的却稳定”的囚徒困境,成了博弈论中最经典的案例。但是,我今天的目的不是讲故事,而是深刻理解“囚徒困境”的博弈论原理,并找到破解方法。

    ️一、概念:囚徒困境

    到底什么是囚徒困境?一个典型的囚徒困境,用数学的语言表述,其实就是满足两个条件的博弈:

    第一,背叛诱惑 > 合作报酬。在这里,合作报酬是判刑1年,背叛诱惑却是立即释放。这将导致“都不坦白”不构成稳定的纳什均衡;

    第二,受骗支付 > 背叛惩罚。在这个案例中,背叛惩罚是判刑8年,受骗支付却是判刑15年。这将导致“都坦白”成为稳定的纳什均衡。

    这就是“囚徒困境”的数学原理。就这么简单?就这么简单。

    理解了这两点,破解方法也就显而易见了:让“合作报酬 > 背叛诱惑”;让“背叛惩罚 > 受骗支付”。

    二、运用场景:如何破解“囚徒困境”

    你看过香港警匪片吗,那里面的“黑社会”组织,可都是博弈论高手。下面,让我们向香港电影学习,如何破解“囚徒困境”。

    第一,让“合作报酬 > 背叛诱惑”。

    怎么才能提高“合作报酬”,也就是“不坦白”的收益?在香港电影中,如果你死不招供,坐牢时就会有人给你带话:大哥让我告诉你,家里的事情不用担心,家里老人、嫂子、孩子,我们都会照顾好。你出狱那一天,还会有一大包现金。这就是提高:合作报酬。

    怎么才能降低“背叛诱惑”?一个坦白从宽的囚徒,如果因为背叛,而被立即释放。电影中就会出现这样的场景:一个冬日的夜晚,他走向自己的汽车,汽车发动的一瞬间,轰然爆炸。从博弈论的角度看,他们其实就是用“有仇必报”的制度降低背叛诱惑。

    虽然黑社会老大也许没学过博弈论,但他在做的事情,就是努力让“合作报酬 > 背叛诱惑”,把“都不坦白”变为一个稳定的,对他来说“好的纳什均衡”。

    第二,让“背叛惩罚 > 受骗支付”。

    把“都不坦白”变为“纳什均衡”后,“囚徒困境”就有了两个“纳什均衡”:都不坦白,和都坦白。下面,就要摧毁“都坦白”这个旧的“纳什均衡”。怎么做?提高背叛惩罚,降低受骗支付。

    怎么才能提高“背叛惩罚”?除了打打杀杀的惩罚之外,你注意到没有,香港电影里的“黑社会”,都在建设一种“忠义文化”。这种文化的本质,是增加你心理上的“背叛惩罚” :你不讲义气?那整个机构,甚至整个江湖都会唾弃你,出来之后让你再也找不到工作。

    怎样才能降低“受骗支付”?你被出卖了?兄弟除了给钱,帮你赡养家人之外,你的仇人就是我们的仇人。不管他走到天涯海角,虽远必诛。你放心,这仇我帮你报了。这就是降低受骗支付。

    黑社会老大,继续努力让“背叛惩罚 > 受骗支付”,最终摧毁了“都坦白”这个对他来说“坏的纳什均衡”。于是,通过“制度设计”,“都不坦白”就变成了唯一的“纳什均衡”。

    三、小结:认识囚徒困境

    什么是“囚徒困境”?“背叛诱惑 > 合作报酬”导致大家都想招供,“受骗支付 > 背叛惩罚”导致大家不愿守口如瓶,这种困境,就叫“囚徒困境”。

    怎么破解“囚徒困境”呢?我们可以向香港电影中的“黑社会”学习:

    第一,提高合作报酬,降低背叛诱惑,把“都不坦白”变成新的纳什均衡;

    第二,提高背叛惩罚,降低受骗支付,打破“都坦白”这个原有的纳什均衡。

    [思考应用]:

    ① “好的不均衡,坏的却稳定”的囚徒困境,成了博弈论中最经典的案例。什么是“囚徒困境”?“背叛诱惑 > 合作报酬”导致大家都想招供,“受骗支付 > 背叛惩罚”导致大家不愿守口如瓶,这种困境,就叫“囚徒困境”。

    ② 并没有永远适用的均衡和困境,当其中一方的条件和环境发生变化的付候,那么原有可能在某种场景下的均衡也将被打破。因此,要想获得最优化的选择,并不是坚守着一种方法不变,而是要学会使用上帝视角,抽身在局外来看待具体的场景,从而寻找到解決困境和创造均衡的关键要素。

    ③ 囚徒困境就是一个信息不明确的局,囚徒因为没有任何第一手信息,只能用别人提供的带有信息去做判断,落入囚徒困境,任人摆布。决策最重要的就是信息的全面,不全面的信息直接決定决策的正确性。

    [坚持习惯]:

    学习+早餐+八杯水

    [今日感悟]:

    很多时候,生气解决不了问题适当的让步,然后再循循渐进的阐述自己的观点,可能会事半功倍!❤

    相关文章

      网友评论

          本文标题:【江湖说️学习日记162囚徒困境】

          本文链接:https://www.haomeiwen.com/subject/tnqhfctx.html