美文网首页
Objects as Points笔记

Objects as Points笔记

作者: 锵域 | 来源:发表于2019-11-14 16:04 被阅读0次

    Objects as Points

    作者:Xingyi Zhou、Dequan Wang、Philipp Kr¨ahenb¨uhl

    机构:UT Austin、UC Berkeley
                             
    Abstract

    很多的目标检测器是用了检测框来检测目标的,检测过程中枚举了大量的候选框,这在计算上效率不高,并且在这个过程之前还需要一定的预处理。作者们这里提出了一个新方法就是将每一个目标规定为一个点,然后根据这个点再预测出具体的 其他属性,例如尺寸、3D坐标、甚至动作等。作者提出的基于点的方法是一个端到端的模型, 比起其他的基于anchor的模型要更加的快,更加的精确,可以做到实时的,并且有很强的竞争力。

    1. Introduction

    目标检测助力了很多的视觉任务,例如实例分割,姿态评估,跟踪和动作识别等。目标检测的下游也会有很多的其他的任务例如视频问答、自动驾驶等。现在的目标检测就是将视觉中的目标用一个矩形框紧紧的将其框起来。这时再对一个一个的潜在目标候选框进行分类识别。目标检测的模型分为一阶段和二阶段,基于扫描框的模型在过去五年取得了很大的成功,但是因为要枚举出大量的框这仍然是效率不高的。

    在这篇论文中,作者提出了一个简单而且高效的另一种选择。作者将每一个目标用一个点来指代,这个点就是最后检测框的中心。而其他的属性,例如维度,大小等则直接在点中心内容上进行回归。目标检测就转化为了一个关键点检测问题。我们将一张图片传给模型,模型会返回一个热图,热图中的最高点(peaks)负责预测目标的边框高度和宽度。模型的训练是标准的有监督学习。测试推理模式就只是简单的网络前向传播就可以了,没有非极大抑制。下图中展示了将一个目标建模成用一个点来表示。这个边框的的大小和其他的属性就由中心关键点的特征来推断。

    image.png

    作者提到他的论文是具有扩展性的,而且不需要大的工作量。这里作者通过在center输出额外的信息还提供了3d目标检测和多目标人体姿态评估。由于模型的简洁,该方法在速度上和精度上的调整都能获得一个很好的效果。

    2. Related work

    。。。

    3. Preliminary

    将一张W*H的图片输入网络,作者的目标是产生一张关键点的热图,热图上的值是0到1.热图和原图相比宽和高都缩小了R倍。在目标检测中假如类别有80种,那么热图的维度是80。相对应的在姿态估计中姿态的类别有17种,那么维度就是有17种。一般R设置为4。从设计上看,热图上的点的值如果为1就表示是一个关键点,如果是0则表示是背景。backbone作者实验了多种网络,分别是hourglass network,resnet,DLA。

    训练时将ground truth分布到heatmap中。分布方法是按照高斯分布进行的:在中心点处向周边辐射。方程为:


    image.png

    。还提到如果两个高斯是叠加的,那么在交叉部分去最大值。训练的这一部分的损失是focal loss

    image.png

    。其中N是关键点的个数。α和β是超参数,作者设置的是α=2,β=4。

    又由于像素位置是离散的,作者又设置了偏移误差,此时作者使用的是L1 loss:

    image.png

    4. Objects as Points Let

    前面的热图是对中心点的预测,那么如何来确认一个完整的目标呢?作者用两个点来表示一个框,分别是左上角的点和右下角的点:


    image.png

    。那么中心点的坐标就是


    image.png

    预测框的大小是:

    image.png

    ,预测框的大小比例也是一个需要回归的值。为了减少计算量,在计算比例大小的时候作者用了一个回归器来对所有的目标进行回归。(这里应该可以有一点的改进)。比例大小的回归用的也是L1loss。

    image.png

    。那么最后总的loss就是

    image.png

    。可以看出这里加了权重,第一个权重作者设置为0.1。第二个权重作者设置为1。这样网络在每个位置就输出种类加上偏移(两个值)加上大小(两个值)总共是C+4个值。对于每种任务都是在backbone后连接一个33卷积,紧接着是一个RELU和另一个11的卷积。

    在来推理阶段就是找出前100个关键点(也就是中心点,根据中心点的值来找到top100)来回归出具体的框。多种任务的的推理如下图。推理时就不需要NMS了,至于找关键点可以实现为3*3的最大池化。文中还提到了3d检测和姿态估计以及实验,就不详细介绍了。

    image.png

    相关文章

      网友评论

          本文标题:Objects as Points笔记

          本文链接:https://www.haomeiwen.com/subject/hlbrictx.html