基于深度强化学习和卷积神经网络的遥感飞机目标检测
如背景所述,遥感图像由于背景复杂、目标外观多样和方向任意等特点,现有基于深度神经网络的目标检测框架,直接定位方式会导致定位精度不高,定位框难以准确覆盖待检测物体。因此本文工作如下图所示,结合深度强化学习进行迭代地目标的定位,完成检测任务。
采用强化学习定位取代神经网络回归定位
本项研究利用深度强化学习对遥感图像中飞机目标进行定位,首次将深度强化学习与遥感目标检测结合:
将遥感目标定位转化为马尔科夫决策过程,采用先验经验训练智能体,收敛速度快且能够避免局部最优;
提出深度强化学习和分类网络结合的遥感目标检测方法(RL-CNN),具有较高检测精度。
一、 飞机定位马尔科夫决策过程
和定位智能体训练
目标定位过程从起始位置,在每个动作决策时刻,智能体基于决策策略从动作集合中选取动作,依据动作观察窗口(状态)进行变化转移,直至目标定位完成。这个序贯决策的状态转移序列,使用马尔科夫决策过程(Markov Decision Process,MDP)建模。
动作集合:包含六个动作,依据动作决策后的结果分为两类:窗口尺寸减小动作(左上、右上、左下、右下和中部)和终止整个定位过程的终止动作。
目标定位过程动作集合示意图
状态集合:目标检测过程的状态由两部分构成:定位智能体所观察到的图像当前区域和定位智能体的历史动作。
目标定位过程状态集合示意图
我们的工作中使用人类的先验知识引导定位智能体如何选择动作。采用如下的贪婪策略先验知识:在训练过程中已知真值区域,每次动作选择之前,对于6个动作计算6个IoU,使得定位智能体每次选择IoU最大的动作。
如下图所示,随着训练进行定位智能体表现也在逐渐提高,灰色和黄色折线均在上升。学徒学习指导的智能体(with knowledge agent,灰色折线)在评价指标数值和收敛速度上的表现,明显优于无学徒学习指导的智能体(without knowledge agent,黄色折线)。
学徒学习智能体、无学徒学习智能体和随机动作的得分情况
在下图所示测试图像中,贪婪策略每次都选择IoU提升最大的动作,最终取得IoU为0.73。而定位智能体虽然学习贪婪策略,但在最开始自主选择IoU较低(0.16)的动作,正是由于这样的动作选择,才使得定位智能体后续最终取得IoU0.92的结果。定位智能体不仅学会了贪婪策略所指导的动作选择方式,而且从学习中发现并修正了贪婪策略这位老师的某些经验错误,提高了定位精度。这正如AlphaGo,它不仅学会了下棋,还能在学习中很好修正人类棋谱的经验错误。
贪婪策略和定位智能体同一幅图像的不同定位过程对比
训练得到的定位智能体对于原始遥感图像中的候选区图像目标进行定位,定位结果如下图所示。对于不同位置、尺度和型号的飞机,定位智能体均有较高的定位鲁棒性。
不同图像的定位结果
在这里我们通过基于强化学习训练的智能体得到了飞机目标的定位结果,下个部分将介绍遥感飞机目标整体的检测流程。
二、遥感飞机目标检测流程设计和验证
传统基于深度学习的目标检测流程,在预测目标位置的同时得到预测区域类别概率。前面提出的强化学习定位方法完成了定位任务,而没有进行定位区域分类,无法适用于传统检测框架。因此我们重新设计如下的飞机目标检测流程,对于定位智能体定位结果,由深度卷积网络进行分类打分,完成整个遥感飞机目标检测任务。
RL-CNN遥感图像飞机目标检测框架
我们将RL-CNN和单一基于深度强化学习的检测算法在测试图像中进行对比。如下图所示,单一基于深度强化学习的检测算法只定位到了个别飞机和部分飞机的机翼机尾,并未定位到大部分飞机任何部分。而RL-CNN检测方法得益于候选框提取、学徒学习指导训练和CNN出色分类能力,无需固定动作数目,能够成功地检测出遥感图像中飞机目标。
单一基于深度强化学习检测算法(左图)和
RL-CNN(右图)检测结果对比
同时我们将RL-CNN与现阶段较好的检测算法HOG-SVM、Multi-model Fast Regions CNN (MFCNN)和Faster Regions CNN(Faster-RCNN)进行比较。
我们使用各方法的Precision Rate(PR)和Recall Rate(RR)作为评价指标。Precision Rate为准确率,即找到的正确飞机目标占所有找到的目标比例。Recall Rate为召回率,即找到的正确飞机目标占所有正确飞机目标比例。Recall Rate相同时,Precision Rate越高检测效果越好,通过下图的Precision- Recall曲线可知,RL-CNN表现优于其他的检测算法。
不同检测算法的Precision-Recall曲线
MFCNN、Faster-RCNN和RL-CNN均是基于卷积神经网络的检测框架,得益于CNN优秀的特征提取和泛化能力,它们能够高效地检测出不同尺度和位置的飞机目标。RL-CNN中基于强化学习训练的定位智能体,使用自顶向下的搜索策略迭代地定位飞机,RL-CNN产生的检测结果更贴合于真值目标。下图为RL-CNN的检测结果。
RL-CNN检测结果
后记
本文飞机目标检测框架为候选区提取+目标精细化定位/分类的流程,由于独立的预提取方法会消耗较多运行时间,整体运行效率有待提高。
我们在未来工作中将会探索如何优化目标预提取方法以减少运行时间,尝试融合深度强化学习网络和卷积分类网络简化检测框架,并将检测框架应用于舰船等横纵比较大的目标检测任务中。
网友评论