在写上一篇文章的时还说要把反省当作人生的修炼,而写作就是最好的方式。可实际情况是都快一个礼拜了,我也没写下一句反省自己的话。看来要做到相对的理性还是需要不断修炼的,要不然按照自己的逻辑,不可能是这样的结果啊。
这不等于是被判了自己的初衷吗?这不也是在和另外一个“自己”博弈吗?关键是多数情况下我们是不会去惩罚自己的,只会千方百计的为自己找借口。
除了和自己相处外,我们无时不刻地在和外界相处、合作、竟争等等。在长期的多次博弈中,如果有人背叛了我们,我们该如何应对?如果他重新释放善意,想要与再度合作,我们是尽释前嫌还是永远将其拒之门外呢?
密歇根大学政治学教授阿克塞尔罗德做的一项关于囚徒困境的实验研究,当时邀请了许多知名的博弈理论家、心理学家、社会学家、政治学家和经济学家为一场由计算机进行的比赛提供重复囚徒的困境博弈的策略。当然,计算机仅仅是为了方便。比赛就好像人围坐在桌旁进行赌博,根据各自预定的策略去赢得奖金。
其中由加拿大博弈论心理学家,拉波波特教授提出一个叫“一报还一报”的策略。在这次比赛中,一共有14种策略参加。其中最复杂的策略,有77行代码,而“一报还一报”的代码仅4行,非常简单。把程序代码翻译过来就是:
第一,在与对方的第一次搏弈中,不管对方善恶与否,自己总是持合作态度。
第二,在第一次较量中,我们可能会被恶人欺负了,那第二次较量时就一定要报复。
第三,如果对方又重新释放善意,选择合作,那就不计前嫌,继续跟他合作。
归总来说就是第一轮合作,以后各轮都采取上一轮中对方的策略作为本轮中自己的策略。
就是这个简单的策略,赢得了这次比赛。
由于这次比赛,仅有14中博弈策略,它们并不已代表了所有可能的策略。为此,阿克赛尔罗德又组织了第二次比赛,并且向所有参赛者通报了第一次比赛的结果,让大家知道“一报还一报”的表现。这次一共征集到了62个博弈程序。最终还是“一报还一报”策略胜出了。据说几十年过去了,还是没有找到能打“一报还一报”这个策略,它成了真正的“独孤求败”。
为什么“一报还一报”会有如此大的杀伤力呢?
这种策略其实是在告诉对方,我的本意是善良的,是个“不做恶”的人,但决不是个好欺负的人。我有自己的明确的底线和原则,人不范我,我不范人;人若犯我,我必范人。如果你背叛我一次之后,不管怎么样,在下一次的博弈中一定会选择背叛作为回应。看上去“一报还一报”很冷酷无情,其实并不是,在上一次背叛得到回应之后,只要对方重启合作,“一报还一报”还会不计前嫌继续合作。
《论语》:“以德报怨,何如?”子曰:“何以报德?以直报怨,以德报德。”所谓的一报还一报,其实孔子早就告诉了我们,就是用惩罚回报恶行,用善行回报善行。
每个参与竞争的程序,都会非常严格的执行设定的规则,是绝对的理性,即不会带有偏见,也可以按逻辑推演出结果。比如当对方背叛之后,下次还有机会以背叛给予回应。但是在实际生活中面临的情况往往比这个复杂的多。比如当你严格按照“一报还一报”策略对待你的商业伙伴的时候,可能会因为对方认为你的不近人情而选择离开,导致你短期内的业绩下滑。毕竟在乎眼前利益的人可能还是大多数,“二鸟在林不如一鸟在手”似乎是一种更好的选择。
但长期来看,其实“一报还一报”是释放出了最大的善意,因为它在恪守一个原则,就是自己先不作恶而且始终愿意与人合作。在长期的博弈中,人们可以发现与它合作是最划算的。这样,持有相同策略的人,都会此而受益。
在生活中,做个老好人,其实并不是最佳的策略,容易被“狡猾”的人利用。我们应该有自己明确的规则,当有人利用我们的善良时,我们应给予相应的惩罚。做不到惩罚,至少要远离。
当然,这种策略的适用前提是长期的多次博弈,在一次博弈中是并不适用的。在很多宗教中,都讲来生,你现在的所做所为会在来生得到相应的回应。对来生的信仰,就是把此生的有限博弈,变为无限的重复博弈。所以,信仰来生的人也更加善良。
博弈“一报还一报”的优势,尽管只是个计算机程序竞争的结果,但不妨我们在生活中运用和理解。至少,我们可以做一个有原则的人,一个“不作恶”的人,一个不惹事也不怕事的人。
20171107-29
网友评论