美文网首页互联网科技大数据,机器学习,人工智能
一条命通关,这个AI算法玩超级马里奥操作秀翻天丨视频+开源代码

一条命通关,这个AI算法玩超级马里奥操作秀翻天丨视频+开源代码

作者: AI悠米精 | 来源:发表于2019-06-10 17:07 被阅读2次

超级马里奥玩成下面这样,算什么水平?

能流畅的行走在妖魔鬼怪之间

能掐准食人花出现的时机

能灵巧的躲过烧火棍

能克服各种变态的地形

从1-1到7-1,只要一条命,就能全部通过,而且操作几乎没有迟疑,如行云流水一般。

别人玩得这么溜,你是不是只能被小乌龟、喷子弹的小怪物、上上下下的地形虐?

不过,这个玩游戏的不是人,是一只通过深度强化学习算法实现的AI。

异步优势演员评论家算法

这个算法已经开源,是2016年的论文《Asynchronous Methods for Deep Reinforcement Learning》中提到的算法的实现。

异步一步Q-Learning:每个线程与自己的环境副本交互,在每一步中计算,用共享的渐变目标网络Q-Learning损失的梯度,就像DQN训练模型一样。

异步多步Q-Learning:在正视图中通过明确的计算多步返回来运行,因为基于动量的方法反向传播来训练神经网络时,用正视图更容易一些。

异步优势演员评论家算法:这是超级马里奥AI的核心。智能体中的两个部分,分别扮演演员和评论家,负责创造和监督。

和前面的异步多步Q-Learning一样,演员和评论家在正视图中运行,用相同的多步返回组合来更新策略和价值函数。

演员就像一个小孩子一样,会探索世界,做各种事情。

评论家则类似于前面小演员的爸爸妈妈,负责监督演员的举动,赞扬他做的好的地方,批评他做的不好的地方,告诉自己孩子:你和其他演员(别人家的孩子)差在哪儿了。

因此,演员希望一直能获得爸妈的赞扬,获得积极的反馈,就会根据爸妈的赞扬和批评不断修正自己的行为。

而对于异步优势演员评论家算法而言,则是为小演员提供了一所“学校”。如果小演员只在家里学习,可能学到的东西更片面,而且学习速度也比较慢。在异步优势演员评论家算法这所学校里,有“老师”和“同学”能让演员更快的学习,学到正确的知识。

游戏达人Viet Nguyen

最后,公布这个算法实现的是GitHub用户Viet Nguyen。

他是一名AI和机器人方向的硕士,毕业于慕尼黑工业大学,主要研究自然语言处理和计算机视觉。

现在,他是德国手游公司Popcore的一名数据科学家。除了超级马里奥,他还研究过用Deep-Q-Learning训练AI玩Flappy Bird。

传送门

最后,这个项目已经开源了,发布者公布了代码和模型,针对超级马里奥的每一关都单独训练了模型,在RTX 2080上大概一关费了6~10个小时。

— 完 —

想要学习好人工智能那你先去就要具备现有的学习条件:

(1)有编程基础

(2)至少本科学习(因为面试要求)

(3)对高等数学,线性代数,解析几何等数学要有学习过。

现在很多的学员都在想自学,很自信的跟你说:现在人工智能方面的人才市场就很缺乏,那么对你学习有用的资料那就更少了。收集好大半的学习资料,到头来牛头不对马嘴,反而浪费时间。

个人的建议:

(1)现在人工智能天花板低,市场人才需求量大,正是你学习的最佳时期

(2)目前很多高校开设人工智能课程,再过几年毕业了那么竞争力就大了。

(3)算法工程师是没有中年危机这一说的,反而工作越久越值钱

(4)如果你看到了人工智能的发展,真的有想法往这方面那建议你去报一个系统的人工智能班学习。

有的人就说:报班学习都是上万元了。老师教人工智能课程那肯定也是薪资高的,只要能学完让你从事这个行业,能学到东西,这万把块钱还不及你半个月薪资呢。

但是有的人不缺钱,就是没有他满意的人工智能班。

每个人的需求点不一样,所以别人给你推荐的你不一定满意。

这些项目都是我导师规划好学习路线中的项目。

这些项目我们没有源码,只有带你一步步敲出项目的实力,有意向的可以微聊

相关文章

网友评论

    本文标题:一条命通关,这个AI算法玩超级马里奥操作秀翻天丨视频+开源代码

    本文链接:https://www.haomeiwen.com/subject/fsajxctx.html