美文网首页
加利福尼亚大学伯克利分校发布增强机器人模仿学习的新框架AVID

加利福尼亚大学伯克利分校发布增强机器人模仿学习的新框架AVID

作者: 图像算法 | 来源:发表于2020-01-06 10:48 被阅读0次

近年来,全球研究团队一直在使用强化学习(RL)来教机器人如何完成各种任务。但是,训练这些算法可能非常具有挑战性,因为在正确定义机器人要完成的任务时还需要大量的人力。

一种方法是通过人类演示教机器人如何完成特定任务。尽管这看起来很简单,但是很难实现,主要是因为机器人和人类的身体非常不同,因此他们能够进行不同的移动。

加利福尼亚大学伯克利分校的研究人员最近开发了一个新的框架,该框架可以帮助克服通过模仿学习(即使用人类演示)训练机器人时遇到的一些挑战。

在开发该框架的时候,团队主要建立在CycleGAN和SOLAR这两项最新算法的基础上,它们引入了解决基本局限性的方法,这些局限性使得人们无法从域转换中的人类视频中学习,也无法通过视觉输入对物理机器人进行培训。

为何使用CyclGAN?

没有使用没有考虑到机器人与人类用户的身体之间的差异的技术,而是使用了Cycle-GAN,该技术可以在像素级别上转换图像。他们使用Cycle-GAN,将人类如何完成给定任务的演示转换为完成同一任务的机器人的视频。然后,他们使用这些视频为RL算法开发了奖励功能。

由模型生成的翻译的样本静止图像(上排是真实的人类图像,下排是伪造的机器人图像)

有啥优势?

该框架的工作原理是让机器人观察人类执行某些任务,然后想象自己执行相同任务的样子。要学习如何真正实现这一想象中的成功,我们让机器人通过反复试验来学习。

借助该新框架,机器人可以一次学习一个阶段的任务,重置每个阶段并再次尝试,而无需人工干预。因此,学习过程在很大程度上变得自动化,而机器人只需最少的人工干预即可学习新技能。

他们的方法的主要优势在于,人类老师可以在学习过程中与机器人学生互动,此外将训练框架设计为适合于以最小的努力来学习长期行为。

结论

研究人员在一系列试验中评估了他们的方法,发现它可以有效地教机器人如何完成复杂的任务,例如操作咖啡机,只需处理20分钟的原始人类演示视频并练习180分钟的新技能即可。此外该框架优于所有其他技术,包括模仿消融,像素空间消融和行为克隆方法。

实验发现可以利用CycleGAN有效地使机器人进行人类演示的视频理解,而无需繁琐的数据收集过程,还可以利用时间扩展任务的多阶段性质,可以学习健壮的行为,同时使训练变得容易。作者认为他们的研究是朝着使自动驾驶机器人的实际部署触手可及的方向迈出的重要一步,因为它为我们提供了可以自然,直观地教他们。”

引入的新的学习框架实现了另一种类型的模仿学习,在这种模仿学习中,机器人一次学习一次完成一个更高层次的目标,并专注于在每个步骤中发现的最大挑战。而且,代替了在每次练习后都要求人类用户重设场景的功能,它使机器人可以自动重设场景并继续练习。将来,该框架可以增强模仿学习过程,从而使开发人员可以更快,更有效地训练机器人。

局限性

到目前为止,我们研究的主要限制之一是对于机器人可能遇到的每个新场景,我们都需要对CycleGAN进行数据收集和训练。我们希望能够将CycleGAN训练视为一次性的前期费用,例如只要对大量数据进行一次训练,就可以使机器人通过一些演示和一点练习就可以很快掌握各种技能。

论文地址或源码下载地址:关注“图像算法”微信公众号 回复"AVID"

相关文章

网友评论

      本文标题:加利福尼亚大学伯克利分校发布增强机器人模仿学习的新框架AVID

      本文链接:https://www.haomeiwen.com/subject/gqghactx.html