美文网首页
它100:0大胜阿法狗的学习法宝,你用不用?

它100:0大胜阿法狗的学习法宝,你用不用?

作者: 素心人生设计 | 来源:发表于2017-10-20 20:03 被阅读72次

    2017年10月19日,《自然》杂志刊登了谷歌DeepMind团队的新成果——

    AlphaZero大胜AlphaGo

    名为AlphaZero(暂译:阿法元)的机器系统仅训练3天就战胜了AlphaGo Lee,比分100:0,后者就是战败李世石的那套。

    经过40天训练后,Alpha Zero又以89:11战胜了Alpha Master,即横扫柯洁的那套。

    轻松一刻的漫画

    那么,我们可以从阿法元的胜利中获得哪些颠覆性的学习奥秘呢?

    1、经验可能反而是束缚你的绊脚石!创造力来自于一张“白纸”!

    阿法元完全从零开始,不需要任何历史棋谱的指引,更不需要参考人类任何的先验知识,完全靠自己一个人强化学习(reinforcement learning)和参悟。

    这是最具颠覆性的一点:以前我们常常强调经验学习的重要性,所以必须从小学开始通识教育。

    阿法元的探索或许能产生这点启示:

    摒弃所有经验,人类或许天生就有超强的学习力和创造力!我们认为的通识教育,不是助力它们,反而是在扼杀它们!

    由此,人类以前的学习常识或将被颠覆

    2、左右手相搏,意味着左右脑同时开发。全脑开发促进学习可能是正确的!

    阿法元只需要在4个TPU上,花三天时间,自己左右互搏490万棋局。

    以前我看过不少文章说全脑开发是假的,如根本没有左右脑之分,右脑根本不需要开发之类的说法。

    如今阿法元的训练方法,或许能证明全脑开发的正确性。

    说起左右相搏,我一下子就想到了金庸《射雕英雄传》里的周伯通,他不正是左右互搏术的行家吗?原来今天的学习方法早就被金庸看透了,所以他能那么高产。

    好像跑题远了点,拉回来!我其实就想告诉你,全脑开发可能是正确的。

    3、掌握并训练科学的策略和价值流程同样重要!

    阿法元将“策略网络”和“价值网络”的神经网络合二为一,从而让它能得到更高效的训练和评估。

    其实,我们学了那么多的通识教育,却从未系统和科学的学习过策略和价值流程理论。

    如果人类不学习那些远古传来的历史经验,而是一开始就学习科学的策略和价值流程,并且不断训练它,会不会也能变成阿法元一样的“神”呢?

    我觉得这会是一个很有意思的学习探索。

    让我感觉最要命的是:通过相关的文章介绍,我发现:阿法元(AlphaGo Zero)的计算过程更趋近于人类的思考过程!

    我只能泪躺了

    难怪,柯洁称:“一个纯净、纯粹自我学习的alphago是最强的...对于alphago的自我进步来讲...人类太多余了。”

    古力慨叹“20年不抵3天,我们的伤感,人类的进步”。

    如果,有一天人工智能比人类更先进,根本不需要人类,你还能做什么?

    相关文章

      网友评论

          本文标题:它100:0大胜阿法狗的学习法宝,你用不用?

          本文链接:https://www.haomeiwen.com/subject/sjtbuxtx.html