美文网首页笔记侠14天知识经济实战营
阿尔法狗的学习策略给我们带来什么启发?

阿尔法狗的学习策略给我们带来什么启发?

作者: 袁茜娅 | 来源:发表于2017-04-28 11:50 被阅读67次

    前言:

    本篇文章是笔记侠14天知识经济实战营第四课作业——我们这个时代,需要什么样的学习?我平素很爱研究如何学习,自己有总结一套“学习吸星大法”。不过内容系统太过于庞大,在此摘取一小模块内容给大家分享。

    要说学习高手套路,不得提到阿尔法狗。其实阿尔法狗只能算弱人工智能,就算它能胜了李世石,它自己也并不明白自己是怎么胜利的,但它就是在“不明白自己在干什么”情况下,通过学习顶尖棋手的棋谱和自己的计算,就能下赢人类顶尖棋手李世石。

    人工智能本来就是学习借鉴了人类的学习方法,阿尔法狗帮我们找出了一个可以到达“武林霸主”地位的学习方法,我们为何不能又把人工智能的学习方法借鉴回去呢,是吧。

    来给大家解析一下阿尔法狗的学习策略:

    ①学习高手套路、背棋谱,取得在当前局面下,赢率最大的几种走法

    麦肯锡有一句著名的话叫“不要重新发明轮子”,牛顿也说过,他能成功的秘诀就是“站在巨人的肩膀上”。

    其实一开始的阿尔法狗并没有学习高手套路,当时它只能到一个高级业余选手的水平。后来学习了百万数量级别以上的世界顶尖一流高手棋谱,才能战胜李世石。

    所以想要炼成高手,非常关键的一点叫“学习高手套路”(天生的绝世天才不在讨论范围)。

    小马宋在做广告的初期就阅读了几万个世界上最好的创意广告,摸到了套路,然后在戛纳广告节拿到了奖。

    自媒体大咖咪蒙,她的电脑里,有海量的优秀素材库,她说连看到文笔好的色情短信都会记下来,把这些素材定期整理,分门别类。然后,最可怕的是,咪蒙会把这些优秀的素材,都背下来,转到脑子里。

    是的,都背到脑子里!

    正是她脑海里面有这样海量的“高手棋谱”,所以写文章的时候才能运用自如。

    ②计算走法赢率,选赢率最高的走法

    在第一步里,通过搜寻高手棋谱,找到相似局面的几种走法,那采用哪种呢?这时就需要计算了。

    按照现在的走法走下去,电脑模拟的对手也相应地跟它对弈,总有一刻会分出胜负,这时回顾胜利和失败的历史轨迹,就知道走哪一步赢的概率更加高。每一步都这么计算,使得每一步采取的都是赢率最大的走法。

    但是这样计算量还是很大怎么办,这就采取了一种叫“估值网络”的算法。“估值网络”不需要跑完整个比赛,而是直接算出这个走法可能的回报。

    比如说现在的共享单车大战,不用真的算到终局,而是反观当年的出租车大战,就能猜出大致的结果了,最后基本是靠资本靠“爸爸”获胜。

    ③自我博弈

    只学习高手套路,你还是无法超越他,那怎么办?就要靠自我博弈了。

    阿尔法狗让现有的策略网络和随机选出一个之前的策略网络进行左右互搏,然后把胜负结果回传到每一步的策略上,进行梯度训练。

    本来阿尔法狗输给了李世石,但是它回去一夜时间自己跟自己下了上百万盘棋(不记得具体数据量级了,反正很多就对了),然后就把李世石打败了。

    就拿诸葛亮来说,他也不是天生就有如此聪慧过人的智谋的。他有四位当今天下高手名师,一是沔南名士黄承彦,二是庞德公,三是司马徽(人称“水镜先生”),四是酆公玖。

    庞德公将自己花了半生时间研究兵法的成果——从八卦到八阵的推演都交给了诸葛亮,他希望诸葛亮能够据此推演出完善的八阵图本,他甚至没有将自己的成果传给亲生的儿子。

    酆公玖将自己一生所著《三才秘录》、《兵法阵图》、《孤虚相旺》、《大战奇观》等都赠与诸葛亮。

    诸葛亮也曾研读《孙子兵法》,但一开始也不得其解,后来看到了曹操新注的《孙子兵法》,认识到自己是井底之蛙。在庞德公教授兵法给他之后,他又在黄承彦的指点下研制出了八阵草图,庞德公又告诉他:“八阵通不通, 须拜司马公!”在司马公的指点之下,他又不断完善他的八阵图。

    最后他把这些高手的套路都吸食了,并且推演出了自己的独家阵法,对的,是独家的阵法,虽然他跟这么多高手学习,但是他没有只学习他们,而是推演出自我思想出来,才成为了名传千古的智囊名谋。

    只有进化和自我改进思想,才是最终战胜高手的取胜法器。

    用一句话总结,就是在巨人的肩膀上迅速试错,边描摹那三千万精英的步法,并深度总结其规律, 然后再变化自己的动作花样。(摘自混沌巡洋舰《跟着阿尔法狗理解深度强化学习框架
    》一文,此文对阿尔法狗学习策略有详细解读,具体可看https://zhuanlan.zhihu.com/p/22435550)

    我是袁茜娅,笔名汐崖子,个人公众号”第五维世界“,以后会在公众号上连载这套“学习吸星大法”(现在还在撰写和修改中),个人微信号heitanxiaoxi,欢迎你跟我交流!

    相关文章

      网友评论

        本文标题:阿尔法狗的学习策略给我们带来什么启发?

        本文链接:https://www.haomeiwen.com/subject/keuozttx.html