AI怎样学会打王者荣耀的启示

作者: 大耳朵讲故事 | 来源:发表于2022-09-06 18:52 被阅读0次

AI怎样学会打王者荣耀的启示
一起干点什么：第2季《商业参考》023-024
王者荣耀的启示
王者荣耀的启示
打架斗殴的小学生
腾讯王者荣耀AI论文首次曝光：五AI王者局开黑与人类战队打成平手
你有没有遇到这样的队友
王者荣耀给我的启示
王者荣耀
187.荣耀与王者

这里是《得到头条》，我是徐玲。

今天我们从两个话题出发，为你提供知识服务。一是人工智能公司DeepMind研发AI足球运动员，二是零售系统“多点”获得中物联科技进步一等奖。

来看今天的第一条。最近，英国人工智能公司DeepMind在最新一期的《科学·机器人》杂志上发表了一项最新研究成果，是一款AI足球运动员。你知道，之前名震天下的AlphaGo围棋程序就是由DeepMind公司开发的。这款AI足球运动员，是比AlphaGo更高级、更复杂的AI程序。为什么这么说？

从策略上，围棋是1V1，只需要考虑两个人之间的博弈；而足球是多对多，既要考虑个人技巧，又要考虑各个成员之间的协作配合。从即时性上，围棋是回合制的，一方走棋时另一方只能看；而足球是即时竞技，双方都在运动，可能反应慢一秒就错失良机。从操作上，围棋只需要考虑走棋步骤，而足球涉及带球突破、身体对抗、精准射门等多个动作，需要强大的运动策略系统。这些差异决定了，AI足球运动员的算法要比AlphaGo复杂得多。

事实上，AlphaGo作为“上一代AI网红”，它是单体智能的代表；而AI足球运动员属于多智能体，这是当下最热的人工智能研究领域之一，有可能成为“下一代AI网红”。

消息就是这样，来看看能学到什么知识。

你可能不知道，其实在2016年AlphaGo横空出世时，仅仅过了半年，腾讯的AI实验室就推出了自己的AI围棋程序，取名叫“绝艺”。他们请柯洁和“绝艺”对弈，“绝艺”在让柯洁两子的情况下还能完胜，表现不输于AlphaGo。不过，当时AlphaGo大战李世石名震天下，已经拔得头筹，“绝艺”终究是慢了半拍，再厉害也只能算是“跟随者”，引不起公众太大关注了。

而这次不同。早在DeepMind公司研发出AI足球运动员之前，腾讯AI实验室就已经搞出了很厉害的多智能体，而且你没准儿还和它对打过。对，《王者荣耀》游戏在2020年上线了一个新模块，叫“挑战绝悟”，这个“绝悟”就是多智能体AI。它和AI足球运动员一样，打法上要考虑团队配合，因为《王者荣耀》的游戏规则是5V5，也就是10个角色分成两队来打群架；操作上，也有复杂的走位和动作技巧。

为了快速提高“绝悟”的战斗力，腾讯AI团队决定把它放出来，邀请上亿游戏玩家来群殴它，帮助它进步。如果你也挑战过“绝悟”，那厉害了，世界上最先进的多智能体AI的发展有你一份功劳。“绝悟”花三年时间，从一开始连地图小怪都打不过的“弱鸡”，到后来可以完爆《王者荣耀》职业联赛冠军，成为目前世界上最先进的多智能体AI之一。

听到这儿，不知道你会不会有个疑问：BAT三巨头中，在人工智能领域投入最大的是百度，为什么这个多智能体AI是由腾讯做出来的？我看到科技记者史中在他的公众号“浅黑科技”里的报道，原来，腾讯开发“绝悟”不是一时兴起，而是为了解决一个现实问题。

你知道，《王者荣耀》游戏会不断推出新的英雄角色，这个新角色的武力值需要和原来的老角色保持平衡，既不能太强也不能太弱，胜率在50%左右最好。怎么保证这个胜率呢？

一般的做法是，在新角色发布前，找很多专业游戏测试员，用新角色跟老角色组队打上几千场，各种技能和场景都尽量测试一遍。但是，这个方法人力成本高、效率低，还有新角色被提前泄露给公众的风险。能不能干脆搞一个AI系统，由它操控各种角色来自动测试？对，这就是“绝悟”的来历。

从数学上说，想要搞清楚胜率，需要采用穷举法，也就是把每一步中所有可能出现的变数全部推演一遍，自然可以得出结果。不过，这种做法只在理论上可行，现实中它需要的算力是个天文数字，超越了计算机的极限。就连简单的围棋程序都没法采用穷举法，更别说更复杂的多智能体了。

事实上，绝悟1.0版本和AlphaGo一样，是采用“模仿学习”的办法。AlphaGo学习的是人类棋谱，而“绝悟”是学习《王者荣耀》职业联赛的比赛录像。不过，单纯把这些录像信息灌到系统里，还不够精准。因为高手也有出昏招的情况，“绝悟”在初期还无法分辨哪些是高招哪些是昏招。腾讯AI团队就找了一帮游戏高手，手动标记比赛录像中，哪些是华而不实的花架子，哪些是真正的神来之笔，把经过“提纯”后的武功秘籍输入给“绝悟”。

通过“模仿学习”，绝悟的水平相当于一个比较厉害的业余选手，可以挑战游戏主播，但是和真正的职业选手没法比。从“模仿学习”的原理来看，“绝悟”是跟在职业选手屁股后面学，最多能学到七八成功力，就像孙悟空再厉害也赶不上菩提老祖。那后来“绝悟”是怎么做到完爆职业选手的呢？

这就要说到绝悟的2.0版本，它和AlphaGo的下一代，也就是AlphaZero一样，不再是“模仿学习”，而是完全抛开人类经验，从一张白纸开始，通过自己跟自己对战、左右手互搏，自己总结战斗经验。这在人工智能领域叫做“强化学习”。

不过，前面我们提到，多智能体AI面对的情况比围棋这样的单智能体复杂得多，这意味它的模型里有海量参数，“强化学习”的结果，可能越来越强，也可能是“学废了”，模型无法收敛，表现越来越差。就好像教游泳直接把娃扔水里，会的就会了，不会的就淹死了。

事实上，绝悟2.0就遇到了这种情况：一开始学习曲线很漂亮，后来大起大落，然后突然掉头向下。“强化学习”和“模仿学习”不同，机器“强化学习”的过程是个黑匣子，人类无法理解，更无法干预和引导。怎么办？眼睁睁看着“绝悟”被“淹死”？

研究团队苦苦琢磨，最后才想到：虽然无法帮它，但是可以给它降低难度啊！他们为“绝悟”制定了一个从易到难的训练计划：不是一开始就让它进行5V5的混战，而是先从1V1练起，再做固定组队训练，最后再打乱编队训练。

在这样循序渐进的训练计划之下，“绝悟”终于又活过来了，学习曲线噌噌向上。最终，在2019年《王者荣耀》世界冠军杯上，绝悟战胜了顶尖职业选手，一战封神，成为游戏界的AlphaGo。

更重要的是，AlphaGo是专门用于下围棋的单智能体，现实应用场景有限；而“绝悟”作为多智能体代表，它的现实应用场景要多得多。比如，“把《王者荣耀》的英雄们换成汽车，把地图换成街道，就变成了一个智能驾驶问题”；还有我们在第281期节目中提到的，把《王者荣耀》的英雄变成小行星，就可以让小行星们自动组队进行天文观测。

从这个意义上说，《王者荣耀》早就超出了一款游戏的范畴，它是一个由上亿游戏玩家共同参与的多智能体AI研究平台，也是一项通往未来的基础设施。

AI是机器模仿人脑学习，设计的时候是基于一定的假设，然后设计程序让机器学习。这样看结果，不断的从结果的反馈来不断的调整之前的假设。从1.0到3.0就这样迭代。那我们也可以反过来想，机器这样学习反推人类也可能就是这样学习的。我们再根据这样的认知来作用于人类的教育。

这就是万维钢在《精英日课1》中讲到的一个15.87%难度系数。根据这个认知，我们发现中国的应试教育存在是人类自以为是的结果。现在教育改革最重要的就是要研究脑科学，而不是根据专家的臆想来做决策。

AI怎样学会打王者荣耀的启示
这里是《得到头条》，我是徐玲。今天我们从两个话题出发，为你提供知识服务。一是人工智能公司DeepMind研发AI足...
一起干点什么：第2季《商业参考》023-024
023-024 ｜《王者荣耀》怎样寻找《王者荣耀2.0》王者荣耀创造了一个场景，让所有人可以自由出入，用15分...
王者荣耀的启示
玩王者荣耀已经一段时间了。由于换了台手机，系统不同了，所以需要重新开始，从青铜重新刷起。玩了两天单排，刷到黄金2...
王者荣耀的启示
今天玩了两把“王者”。发现一个现象：当自己拼尽全力，但最终又输掉了比赛时，并不会觉得懊恼，反而有种“问心无愧”的感...
打架斗殴的小学生
这个事情要从2016年，我还木有毕业。我还是小学生，不会打王者荣耀就会打弹珠。
腾讯王者荣耀AI论文首次曝光：五AI王者局开黑与人类战队打成平手
王者峡谷可能马上要被AI支配了！腾讯刚刚发布的一篇论文显示，王者荣耀AI在不声不响间，又掌握了新的技能：组团开黑...
你有没有遇到这样的队友
自从重新下载了王者荣耀之后，我就每天都会打几局王者荣耀。但是总会碰到一些让我想说脏话的队友，我真的是服了他们了。...
王者荣耀给我的启示
近期被各种媒体刷屏王者荣耀，有腾讯赚的盆满钵满，有防沉迷系统对小孩保护的争论，也有上升到沉迷游戏和自律之间的阶层话...
王者荣耀
王者荣耀这款游戏，不管是学生还是老师还是家长，都应该知道这款游戏。每一位学生都应该会打王者荣耀。因为这款游戏是现...
187.荣耀与王者
王者并非总有荣耀荣耀也并非总属于王者没有荣耀的王者，不如不是王者的荣耀西元2021.03.23于北京作