读论文Target-driven Visual Navigati

作者: 吕鹏_hunhun | 来源:发表于2016-10-17 09:48 被阅读976次

这篇论文是飞飞出品，你知道的，imageNet的光环。论文主要是通过深度增强学习让机器人在房间里面找东西。

那么对于基于DRL的算法，确实存在论文指出的的缺点：1、对目标的泛化能力比较弱；2、数据的低效性，无法从模拟环境转移到真实世界（deepmind在今年发表了一篇论文，用transfer learning的办法实现从模拟环境到真实环境）。

论文号称有了四个方面的改进：

1、收敛更快

2、具备泛化目标和场景

3、仅仅进行finetuning就能把网络应用于实际世界

4、end to end

为了达到这些目的，他们首先是开发了一个高质量的3D效果的模拟环境 The House Of inteRactions

(AI2-THOR)：

1、有即插即用的架构，方便各种环境的组合。能够支持运动和物体在外力作用相应变化。结合了unity3D物理引擎和深度学习框架。

2、通过物理引擎渲染的图片进入深度学习框架中，而深度学习的框架可以根据视觉输入发出控制命令，把命令传递给物理引擎。物理引擎和学习框架是直接通讯的。

3、虚拟环境的物体和实际环境中要尽可能的细节一致

4、创建基于室内卧室、客厅、厨房和卫生间32个不同的场景，平均每个场景容纳了68个物体

（看起来真是不错，等开源）

算法Target-driven Visual Navigation in Indoor Scenes主要思路：

1、问题和目标

最少的步骤让机器人走到目标图片所在的场景。记住一点：算法最后建立的模型能够让agent通过2D的照片学习到3D环境中的行动。

2、问题的构想

论文认为，我们之前利用drl解决问题，都是一点点学会规则，其实从某种意义上来说，就是把目标硬编码在网络参数中，所以，论文采用的办法是把目标作为输入引人网络，而不是硬编码到网络参数中。所以，算法提出的网络是把state和target goal都当成输入，这样就泛化了目标，解决了更换目标就要重新训练网络的问题。即使即使目标没有被训练过，也能使用

3、搭建环境

动作空间：四个动作输出，前进、后退、左转、右转。在实际环境中，输出增加了高斯噪声

步长N（0，0.01），角度N（0，1.0）

观察和目标：

观察和目标都是基于agent的第一视角的RGB相机拍摄的

奖赏设置：

到达目标，10分的奖励，为了鼓励最短路径，每过一段时间给予-0.01的惩罚

4、Model：

因为增加了目标输入，策略函数就变成了这样：

g是goal。（这是整篇论文中唯一出现的公式，感觉不是在看DRL的论文，呵呵）

对于网络来说，输入是两张图片，一个是当前的state，另外一个是目标。网络的任务是搜索state和goal之间的空间联系，也就是说必须有地理空间的各个照片和空间联系，所以所有环境的的信息是要保留在网络中的。论文应用了一个深度siamese网络，来完成state到整个环境的映射，从图4中可以看出来，我没怎么看明白，于是找了论文中列出来的参考论文，Yannlecun大牛的，网络架构如下：

看这个图应该能对所谓深度siamese网络加深了解。

5、训练

采用了A3C的算法，主要是考虑异步并行。

6、网络架构：

网络的最底层是利用imagenet预先训练好的ResNet-50，基于224*224*3的输入产生2048维的输出，采用4桢连续的图像作为状态输入，额外的goal的图像也是同样处理。ResNet-50的参数在后面的训练中是freezed的。两个输出最后合并成512维的向量，然后流经场景层，（这部分算法是没有给出的，大家可以自己考虑，我理解还是图像差别比较），最后输出agent的动作。

上一张更形象的图

论文的主要算法就是这些了，后面的主要是一些测试数据，比较部分就不提了。论文还做了一个测试，就是利用真实的机器人来验证他们的想法。实验证明基于模拟环境测试的网络可以让真实的机器人收敛速度快44%。

个人感觉：论文提出的那些问题确实是最主要的问题，而且也很宏大，但是论文本身提出的解决方案，还是有一些trick的（当然我的水平还是无法企及的，不要被我的看法误导）。我觉得模拟环境值得期待，从模拟环境到真实机器人的探索也是一个亮点。

网友评论

TurboCruiser:博主请问您对深度siamese网络如何理解？这块我确实没看懂，如何建立空间联系？可以交流一下么？

本文标题：读论文Target-driven Visual Navigati

本文链接：https://www.haomeiwen.com/subject/xxvayttx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

读论文Target-driven Visual Navigati

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

深度强化学习（Deep Reinforcement Learning）

RL机器人

强化学习