美文网首页
Imitation Learning

Imitation Learning

作者: Jakai | 来源:发表于2017-08-09 11:26 被阅读0次

    在传统的强化学习任务中,通常通过计算累积奖赏来学习最优策略(policy),这种方式简单直接,而且在可以获得较多训练数据的情况下有较好的表现。然而在多步决策(sequential decision)中,学习器不能频繁地得到奖励,且这种基于累积奖赏及学习方式存在非常巨大的搜索空间。而模仿学习(Imitation Learning)的方法经过多年的发展,已经能够很好地解决多步决策问题。模仿学习是指从示教者提供的范例中学习,一般提供人类专家的决策数据(状态->行动),之后就可以把状态作为特征(feature),动作作为标记(label)进行分类或回归, 从而得到策略模型。模型的训练目标是使模型生成的状态-行动轨迹分布和输入的轨迹分布相匹配。

    简单自动驾驶任务:状态就是指汽车摄像头所观测到的画面,动作即转向角度。根据人类提供的状态动作对来习得驾驶策略。这个任务也叫做行为克隆(Behavior Cloning),是监督学习。但是不是我们完成训练后模型就能够有比较好的效果?答案是否定的,这里存在复合误差(compounding errors),训练好的策略模型执行的轨迹和训练轨迹的误差会随时间的增加而越变越大。

    image.png

    1. Data Augmentation

    为了解决误差随时间越来越大的问题,可以采用数据增广(Data Augmentation)方法,如下图,这是一个端对端的自动驾驶解决方案(NVIDIA 2016),汽车装配了左右两侧的摄像头与中央摄像头来获取当前观测的环境,并且能够通过 Back propagation 使其从错误状态中恢复。它在训练模型前人为地调整了环境不好时汽车的运动动作,另外,摄像头图像的识别采用的是卷积神经网络。如果我们能够获取大量的训练数据形成一个合适的状态概率分布或者说样本空间,从而得到一个很好的策略模型同样能直接地解决这个问题(如图)。但这往往不太现实,因为需要耗费的成本太大。起初大部分研究者也几乎全在研究如何优化策略减少误差,并提出了很多方法,但都不是十分有效。

    相关文章

      网友评论

          本文标题:Imitation Learning

          本文链接:https://www.haomeiwen.com/subject/snpfrxtx.html