书中内容:如果正在玩一个策略博弈,就必须确定其中的互动究竟是相继发生的还是同时发生的。相继发生是指参与者轮流出招,每个参与者在轮到自己的时候,必须展望一下他的这一步行动将会给其他人以后的行动造成什么影响。而同时发生是指在参与者都知道这个博弈游戏存在其它参与者的情况下,参与者同时出招,出招前参与者必须设想一下若是自己处在其它人的位置,会做出什么反应,从而预计自己这一步会带来什么结果。
接下来,主要介绍一些有助于玩相继发生的互动的博弈的概念和规则。
相继出招的博弈的总原则是每一个参与者必须预计其他参与者接下来会有什么反应,据此盘算自己的最佳招数,概括为向前展望,倒后推理。展望你的最初决策最后可能导致什么结果,利用这个信息确定自己的最佳选择。
要想成功的运用向前展望、倒后推理的原则,需要借助一个视觉辅助工具-----“树状图”。树状图分为决策树和博弈树等。决策树描述只有一个人参加的情形,博弈树反应一场策略博弈当中的决策次序。实际在生活中,我们遇到的博弈可能更复杂,但向前展望,倒后推理原则同样适用。
·作者在这章节中,用各种实例详细的讲解了这些规则。
感受分享:
P38 “对于任何一个相继选择并且数目有限的博弈,总是存在着某种最佳策略。”
联想:阿尔法围棋。
阿尔法围棋是第一个击败人类职业围棋选手、第一个战胜围棋世界冠军的人工智能机器人。阿尔法围棋系统主要由几个部分组成:一、策略网络(Policy Network),给定当前局面,预测并采样下一步的走棋;二、快速走子(Fast rollout),目标和策略网络一样,但在适当牺牲走棋质量的条件下,速度要比策略网络快1000倍;三、价值网络(Value Network),给定当前局面,估计是白胜概率大还是黑胜概率大;四、蒙特卡洛树搜索(Monte Carlo Tree Search),把以上这四个部分连起来,形成一个完整的系统。
采样足够多,机器人击败人类,也不是不可能。
P49 “假如你不得不冒一点风险,通常都是越早越好。”
联想:人生旅程,如果冒险不可避免,那就趁早。趁年轻,去经历,去后悔,保持热爱,奔赴山河。
网友评论