美文网首页
自私倾向

自私倾向

作者: zizon | 来源:发表于2017-07-01 15:44 被阅读0次

    前两天看到的一个现象.

    对于这样一张损益表:
    +---------------+---------------+---------------+
    | choice | red | black |
    +---------------+---------------+---------------+
    | 6 red 0 black | +64 | 0 |
    +---------------+---------------+---------------+
    | 5 red 1 black | -4 | +64 |
    +---------------+---------------+---------------+
    | 4 red 2 black | -8 | +32 |
    +---------------+---------------+---------------+
    | 3 red 3 black | -16 | +16 |
    +---------------+---------------+---------------+
    | 2 red 4 black | -32 | +8 |
    +---------------+---------------+---------------+
    | 1 red 5 black | -64 | +4 |
    +---------------+---------------+---------------+
    | 0 red 6 black | 0 | -64 |
    +---------------+---------------+---------------+
    给定6人决策,red/black分别为对于决策的reward.

    比如5人选择red,1人选择black的话.
    结果就是选择red的分别得到-4的reward,black的得到+64的reward.

    对应的最终winning是maximize reward并且有reward >= 0的约束.

    这个本来觉得应该是没有什么悬念的.
    选择black是相对唯一的理性选择.

    因为选择red的话,最好的结果也只是最后equally rewarded,没有一个winning存在.
    而对应的,这个是选择black的最差结果.

    尤其如果以等概率考察等话,black的 strategy期望正的.
    即使考虑到有概率偏差.
    Earning = W_164 + W_232 ....
    ->
    Earning = W_positivePositive_constant + W_negative(-64)
    ->
    Earning_black = W_positivePositive_constant + W_negative(-64)
    Earning_red = W_positive(-Positive_constant) + W_negative(64)

    要使得red dominate black的话,就需要
    Earning_red > Earning_black
    -> W_positive(-Positive_constant) + W_negative(64) > W_positivePositive_constant + W_negative(-64)
    -> W_positive(-Positive_constant) + W_negative(64) > 0
    -> Earning_red > 0
    这就是只有cooperate的时候才优于black,但此时并不存在满足winning情况(ordered reward)的可能.

    所以,这个直觉上来说应该是没有人会选择red的.

    但实际看到的结果是首轮甚至第二轮都是全员选择red的情况.

    这个就有意思了.

    补充一点就是,这里其实还有个隐藏要素.
    就是,在某几轮的reward会有penalty/amplify.
    但这个对于基本的逻辑不会有什么实质影响.

    这里大概问了下对应人员的思考思路.

    一个点就是这里的strategy的focus点在于先保障最终reward>0这点.

    也就是在给定的有限轮博弈中,先试图保障一个比较安全的正向收益,然后在择机削减对手.

    所以这个思路实际上是 对winning条件加了一个新的约束.
    至少让social reward>0.

    这点在后面的培训鸡汤解释中反馈除了这歌隐含假设.

    这样的话,对应的social损益表就变为:
    +---------------+---------------+
    | choice | social reward |
    +---------------+---------------+
    | 6 red 0 black | +384 |
    +---------------+---------------+
    | 5 red 1 black | +44 |
    +---------------+---------------+
    | 4 red 2 black | +32 |
    +---------------+---------------+
    | 3 red 3 black | 0 |
    +---------------+---------------+
    | 2 red 4 black | -32 |
    +---------------+---------------+
    | 1 red 5 black | -44 |
    +---------------+---------------+
    | 0 red 6 black | -384 |
    +---------------+---------------+
    单纯看这个的话,选择red的gradient是偏向对于reward positive的.

    也就是单纯只看social optimal的话,选择red应该是属于dominated的decision.

    考虑复合情况.

    选择红的动机在于用personal winning去tradeoff social optimal.
    放一起就是
    +---------------+---------------+---------------+---------------+
    | choice | social reward | trade off + effective |
    +---------------+---------------+---------------+---------------+
    | 6 red 0 black | +384 | +64 + +448 |
    +---------------+---------------+---------------+---------------+
    | 5 red 1 black | +44 | -4 | +40 |
    +---------------+---------------+---------------+---------------+
    | 4 red 2 black | +32 | -8 | +24 |
    +---------------+---------------+---------------+---------------+
    | 3 red 3 black | 0 | -16 | -16 |
    +---------------+---------------+---------------+---------------+
    | 2 red 4 black | -32 | -32 | -64 |
    +---------------+---------------+---------------+---------------+
    | 1 red 5 black | -44 | -64 | -108 |
    +---------------+---------------+---------------+---------------+
    | 0 red 6 black | -384 | 0 | -384 |
    +---------------+---------------+---------------+---------------+

    这样的话,对于某一轮来说的game setting情况就是.
    一个共同的social reward值,和一个差异化的 personal reward分布P.

    对于一个分布P靠后的参与者来说,是没有修复social reward的动机的.
    因为让social reward>0并不会对winning有任何帮助.

    而同时,由于选择red的gradian是趋向于正的.
    因此,这时候依然会是选择black成为一种dominated的strategy.

    这样的话,动态地考虑,只要出现了一个暂时的winer的话,其他人就会迅速地切换到black strategy.
    而在没有winner的时候,black strategy本身就是一个dominated的情况.

    因此,即便是加入了这个social constrain,最终的趋势也依然是负收益.

    也就是说,即使是加入了这个约束,理性情况下,也不会有人选择red strategy.

    但事实就是出现了不但存在并且是全员red的情况.

    即便是考虑到有轮数限制,但从上面的策略上来说,也依然不存在选择red的情况.

    所以这大概就是为什么人类社会比较复杂难以描述的原因.
    而且考虑到即便都是理性的,由于各自的模型和隐含约束不一定一致,也可能导致结果的不确定性和偏差.

    于是,从这个角度上来说,social optimal本身就算是一个伪命题.
    形式上来说,是不太存在可解性的.

    相关文章

      网友评论

          本文标题:自私倾向

          本文链接:https://www.haomeiwen.com/subject/lvxgcxtx.html