AlphaGo刚出来的时候,我读过一篇介绍其机制的文章,最近又再读了一遍,很有启发。
一、AlphaGo的机制。AlphaGo拥有两个大脑:策略网络与评价网络。名字听起来挺抽象,机制其实极其简单,但非常合理。
1、策略网络,就是根据局势,判断对手最可能的落子位置。做法是大量的输入这个世界上职业棋手的棋谱,用来预测对手最有可能的落子位置。
2、评价网络,就是评估每个落子位置的胜率。
二、AlphaGo的运行流程。通俗来说就是:
1、预测对方会下在哪。
2、然后评估我下在这的胜率是多少。
3、同时评估按照这个流程再多走几步的胜率是多少。
4、将两种胜率按照5:5混合评估,最终决定下在哪里比较好。
5、在等待对手下棋的时候,返回到1再次开始运转。
感觉所有需要斗智的领域都可以参考这个流程。
网友评论