在没有人类知识的情况下掌握围棋游戏
摘要:
人工智能的一个长久以来的目标就是得到一个算法,这个算法能在具有挑战的领域,从白板状态,习得超出常人的熟练程度。最近,AlphaGo成为第一个在围棋游戏中战胜世界冠军的程序。在AlphaGo中的树搜索使用深度神经网络来评估位置以及选定的走子(走一步棋)。这些神经网络通过人类专家的走子进行监督学习,并且通过自我对弈的方式强化学习。这里我们介绍一种仅依赖于强化学习,不需要除了游戏规则之外的人类数据,指导以及领域知识的程序。AlphaGo成为它自己的老师:一个神经网络被训练用来预测AlphaGo自己的走子选择,也预测AlphaGo的游戏的胜利者。这个神经网络提升了树搜索的能力,使得其在下一次迭代中,获得了更高质量的走子选择和更强的自我对弈。从一个白板开始,我们的新程序AlphaGo Zero获得了超出常人的表现,并以100-0战胜了之前发布的,战胜世界冠军的AlphaGo
网友评论