研究背景
废旧产品(end-of-life products)的拆卸是工程全生命周期管理的一个基本步骤。在减少资源消耗和温室气体排放的同时,回收可重复使用的部件可能创造相当的经济价值,同时也能推动碳中和目标的实现。
但目前EoL的拆卸仍然严重依赖人工操作,并且有毒材料可能对操作者构成潜在的安全威胁。因此人机协同拆卸(Human-Robot Collaborative Disassembly, HRCD)成为人机协同的一个典型应用场景。
目前许多研究着眼于识别人体或物体,而人手和物体的识别及并三维密集重建学界还没有得到充分关注。在HRCD中,近距离的人机协同操作会带来一个问题——手和物体之间的部分遮掩。计算机视觉的学者们最近利用生成模型来合成输入图像中被遮挡区域的内容。这种方法可以产生视觉上合理的非遮挡图像,但并不适合之后的识别任务,因为生成的图像包含许多伪迹。另一个研究方向是探索遮挡物和被遮挡物的像素级区分,这虽然是创造性的研究成果,但更多针对一般的日常物体和二维信息,不能直接应用于三维手物姿态估计研究。
模型架构
郑湃老师团队聚焦于从HRCD中部分遮掩的观测数据中实时进行手物姿态的三维密集重建。研究提出了一个用于手物姿态估计的集成模型,该模型带有二值掩膜指导,可以更好地处理人手和物体的注意力分离,同时遮掩感知机制旨在最大限度地减少由部分遮掩引起的重建误差。
模型的整体架构大致可分为三个部分(如下图):1.掩膜指导的特征提取2.手物密集姿态估计3.遮掩感知。
首先,团队使用摄像机捕捉HRC场景的单眼RGB图像Ioriginal,然后利用检测模型检测手与物体的交互区域和对应的物体类型。检测到的手与物体的交互区域 Iho 是从Ioriginal中裁剪出来的,接着将Iho输入到主网络用于提取和识别手部和物体的特征。
然后是手物姿态估计。将提取的特征向量输入到几个全连接层(fully connected, FC)层来预测姿态参数,这些参数用于物体和手部的三维模型来实现三维几何重建。将三维重建投射到二维图像平面,可以进一步生成渲染后的三值掩膜。同时,特征提取阶段的中间特征图被用来构建一个类似FPN(Feaure Pyramid Network)的子网络,以分割的方式预测掩膜。最后,计算预测掩膜和渲染掩膜间的一致性,并将其作为训练损失函数中的一个约束项Iconsist。
试验结果
为了证明上述方法的有效性和通用性,团队进行了锂离子电池模块的HRCD案例研究——将捕捉的手物交互图像组织成一个数据集,还在一个公共数据集上进行了比较试验。
Hand-object 6D pose estimation
两次试验的结果都表明,研究所提出的模型误差少,具有较明显的精度优势。
实验模型与其他模型的比较试验 不同方法在F-PHAB数据集的表现
网友评论