越来越多的无人驾驶科技公司开始相信强化学习,这背后是大量的理论研究成果证实了该技术的可行性。通过阅读本次推荐的这一篇综述文章,就能窥见人工智能技术在无人驾驶研究中遇到的难题和阶段性进展。本文是Szilard Aradi于2020年1月在arXiv预印本网站上传的关于DRL在无人驾驶运动规划领域应用的综述文章,《Survey of Deep Reinforcement Learning for Motion Planning of Autonomous Vehicles》
摘要:
近年来,无人驾驶汽车领域是热点研究方向,体现在传感器技术、V2X通信、安全防护、决策与控制、法规等方面。除了经典的控制方法,目前人工智能和机器学习技术也被用于这些领域。其中一些研究者关注于不同层次的运动规划,比如策略决策、轨迹规划和控制。这些问题可以采用多种机器学习技术得到解决,但本文重点分析深度强化学习(DRL)技术如何解决分层运动规划问题。文章涉及的主要内容如下:
1、总结当前DRL智能系统的环境建模,包括对模型抽象处理、状态空间定义、感知信息提取、奖励函数设计、网络结构设计。
2、分析汽车模型精度和模拟仿真环境对计算能力的要求;设计不同层级的决策和观察模型,这涉及到连续和离散状态表示的控制问题,当前可分为基于网格和基于视觉的方法观察智能体环境。
3、总结DRL解决不同任务和不同级别智能汽车的最佳方法,如自动跟车、车道保持、路径跟随、汇流、复杂交通下驾驶等任务。最后,讨论几个开放性问题和未来的挑战。
全文导读:
无人驾驶和强化学习是当下的两个热点研究领域,作者统计了近年来这两个研究方向的论文数据(时间截止2020.01.17),如图一所示,2019年强化学习方向的论文超过2000篇。
图一 无人驾驶和强化学习领域近年论文本文对这篇综述做了一个总结,包括以下几个方面:
(1)由于运动规划问题的复杂性,强化学习在该领域研究较多。但是神经网络是一个端对端的黑箱模型,当前的研究更倾向于把无人驾驶汽车决策系统划分为多个子系统,利用不同方法分层实现,如图二所示。
图二 无人驾驶汽车运动规划分成实现(2)强化学习理论基础是马尔科夫决策过程(MDP),对于无人驾驶汽车运动规划,这其实是一个部分可观测的MDP(POMDP),如图三所示。即使我们能够观测到当前所有的交通状态和车辆自身的状态,但我们无法知道周围其他参与者的未来状态。这篇综述论文针对这一问题做了详细的阐述。
图三 基于深度强化学习的自动驾驶汽车POMDP模型(3)自主车辆(ego vehicle),即包含感知周围环境传感器的车辆,的建模问题。对于车辆模型,需要权衡模型精确度与计算资源,采用2自由度、3自由度或9自由度模型。当前,对于交通环境的建模,已经有了类似SUMO、CARLA这样仿真环境。但是关于仿真环境和真实环境之间的差别,本文没有阐述,这是关乎到强化学习能否实际应用的关键。
(4)设计一个基于强化学习的无人驾驶运动规划系统,首先是动作空间选择,一些研究者把决策和控制分开,而一些研究合并成纵向控制和横向控制问题,对应的控制变量会有差别。然后是奖励设计,奖励的设计决定最终的学习结果,而且奖励灵活性大,需要参考更多的文献才能说明。最后是状态(观测)空间的定义,观察空间用于描述智能体学习的世界,所以需要利用多个传感器(视觉、雷达)采集的信息用于描述物理世界。包括车辆的状态;车道、标志、规则等交通拓扑信息;以及其他参与者。相比车辆动力学模型,交通模型更加复杂,难以用简单的语义信息描述。当前的思路是通过提取重要的信息并简化物理世界,主要分为两种思路。一是基于视觉的方法,二是基于格栅的方法。基于视觉的方法也就是特斯Autopilot系统的技术路线,研究者通计算机视觉技术(如CNN)提出通车道线、语义分割、以及端对端的感知控制等方法,获取重要的信息。对于格栅的方法,不只依赖视觉传感器。研究者通过可视化超网格矩阵技术(HDM)来获取行驶过程信息,包含占格栅信息以及其他重要状态,如图四所示。作者还指出深度强化学习可以结合SLAM技术,而这一方向是还处于研究空白。
图四 HDM映射过程的可视化(5)虽然本文是关注运动规划,作者也提到了强化学习在其他场景下的应用。作者强调虽然这些问题是典型的凸优化或者是控制问题,但是强化学习能智能地处理抽象任务。在自动跟车问题中,可以考虑乘客舒适性等因素,可取得类似人类驾驶员的表现。强化学习作为无模型(不需要车辆动力学模型)的方法被用于车道线保持问题中。在交通领域,研究者更多关注闸道口汇流问题,用强化学习实现闸道管控。在复杂交通环境下,DRL在仿真环境中或者用大量真实数据训练,可以学习到安全通过十字路口的驾驶技巧,这完全超越传统规则式的方法。
(6)DRL被证实能够解决无人驾驶中的部分问题,但还面临很多挑战。一是人工智能技术要真正应用在汽车上,还需要制定相关的技术标准。二是DRL在解决复杂问题需要大量的训练时间和反复模型优化。三是需要设计一个稳定的智能系统,如何解决仿真和现实之间的gap差距,这也许不是添加噪声就能解决的问题。四是模型的精度和整个智能系统的架构设计会影响DRL的可用性。
最后引用作者文末的一句话“Overall it can be said that many problems need to be solved in this field, such as the detail of the environment and sensor modeling, the computational requirements, the transferability to real applications, robustness, and validation of the agents. Because of these issues, it is hard to predict whether reinforcement learning is an appropriate tool for automotive applications.”
欢迎扫码关注汽车研微信公众号,将定期挑选一些质量高、研究内容新颖的文章作为推荐,旨在交流和分享人工智能在汽车和交通应用领域的最新研究动向。
扫码关注汽车研微信公众号
网友评论