能玩Super Mario World的人工智能MarI/O
这篇文章是我尝试的记录,所以夹杂较多的废话,见谅!
在开源杂志oszine的网站上有这么一篇文章:
文章大意是介绍了一个开源的AI:MarI/O。MarI/O只有短短的一千多行代码,但是却能通过不断地试错和学习找出通关方法。
MarI/O只有几个简单的参数,它只是通过尝试一切它能做出的动作。其中有一个“Fitness”值,只有当马里奥向右移动时值才会增加。而MarI/O的设定是使得Fitness值不断增加,这就会促使它向右移动。
MarI-O - Machine Learning for Video Games-高清观看-腾讯视频
在周四(11.12)晚上,我看到了这篇文章,当时就觉得很有趣,所以就复制了源代码后开始尝试。
源代码是用脚本语言Lua写的,通过一个的模拟器the BizHawk emulator运行游戏“Super Mario World (USA)"(简称SMW)或"Super Mario Bro."并调用脚本就可以在自己的电脑上运行MarI/O。
一开始我没有留心源码上的英文注释,以为随便找个模拟器和马里奥的游戏就可以运行,事实证明我想得太简单了。
由于我前段时间有接触过Lua,电脑上也有Lua的运行环境,所以我也没想太多。谁知道模拟器和游戏下载好后,双击Lua脚本,结果就呵呵了,一闪而过,然而啥事都没有,想象中高大上的MarI/O也没有出来。
没办法,硬着头皮看那段英文注释。在注释中我得到了两个重要信息,一个是模拟器,一个是游戏版本。得到了这两个信息后,我马上打开浏览器,Ctrl + V,百度谷歌一起搜,download了BizHawk和SMW,然后就开始了第二次尝试。
然而这次尝试还是失败告终,原因之后说。
第二天我试着手打了一千多行源代码,因为我怀疑是复制的问题导致脚本运行不了。谁知道手打完了,结果还是一样。崩溃的心啊,哗啦啦碎了一地。这时候只有再次祭出百度谷歌大法了。
我在伯乐在线上搜到这篇文章,里面也贴出了源代码,当时我心想有没有可能是oszine上的源码有错呢,然后便复制了伯乐在线那篇文章里的源代码。结果真的跑起来了,当时那个兴奋劲呀!(没想到真的是源码有错,浪费了一天--!!!)
其实脚本能跑之后还有点小波折,就是一开始的SMW运行这个脚本的话会出现内存溢出的问题,所以我又重新下了一个SMW。
历经波折,我的MarI/O昨晚也开始跑起来了,我果断地让它跑个通宵,还开了四倍速。到了下午(11.14),它已经有了百分之七八十的通过概率了。
MarI/O的尝试过程超级有趣,看着它做出尝试的时候,我想到了一个名词——奖励机制。同时也想到了从图书馆借的那本《通灵芯片——计算机运作的简单原理》里面的第八章:自学习与自适应的计算机的内容。
然后我就有了一个想法,就是可以制造一个会做出简单动作的机器人,它会尝试一切自己能够做的动作,通过识别人类的语音来判断自己的行为是否正确,然后保留正确的动作,改变错误的动作。通过不断地试错与学习,是不是就会成为智能机器人呢?(笑)
其实奖励机制让我想到的还有一个人的成长过程。当一个婴孩诞生在这个世界上时,他就开始了不断地尝试探索这个世界,以及通过周围人的反馈去改变自己的行为,不断地学习,这是不是很想MarI/O的成长过程呢?
一开始婴孩脑海里也是一片空白,什么概念都没有,存在的只有本能——寻找对自己有益的。MarI/O一开始也不知道怎么去通关一个游戏,它的本能就是去是"Fitness值"增长。
婴孩通过尝试自己能够做出的动作来使得这个世界有所反应,然后他根据反馈去调整自己,通过不断地学习,他也就拥有了自我的判断能力。MarI/O也是如此,从一开始在原地上下左右望和跳,发现了向右可以增长"Fitness值",便开始了它的通关之路。
啰啰嗦嗦说了这么多也不容易呀!(笑)
附上下载链接,有兴趣的人也可以试试,看着马里奥在不断地尝试真的是很有趣的事情!(笑)
PS:NEAT的意思如下
这种学习方式称之为神经网络进化拓扑结构(NeuroEvolution of Augmenting Topologies,简称NEAT),虽然这并不是一项新技术,但是在这里,作者却将其使用的非常高效。在一千多行Lua代码下,即实现了与估值四亿美金Deepmind类似的效果,不可不谓十分之神奇。 --www.oszine.com
PPS:运行MarI/O前需要自己创建一个叫做"DP1.state"的存档文件(SMB是"SMB1-1.state"文件),并将之复制到Lua目录下和BizHawk根目录下。而且最好是进入了关卡内的存档。
最后附上一些图片:
源码
游戏界面
打开游戏ROM
Tools选项
脚本运行框(Lua Console)
一开始蠢萌蠢萌的MarI/O
学聪明的MarI/O(在经过24个遍历轮回后--!!)
四倍速
网友评论