Improving Deep Regression with Ordinal Entropy
ICLR 2023
https://arxiv.org/abs/2301.08915
https://github.com/needylove/ordinalentropy
在计算机视觉中,经常观察到将回归问题表述为分类任务通常会产生更好的性能。我们研究了这种奇怪的现象,并提供了一个推导,以表明具有交叉熵损失的分类在学习高熵特征表示的能力方面优于具有均方误差损失的回归。基于分析,我们提出了有序熵损失,以鼓励更高熵的特征空间,同时保持有序关系,以提高回归任务的性能。对合成和真实世界回归任务的实验证明了增加回归熵的重要性和好处。
All in Tokens: Unifying Output Space of Visual Tasks via Soft Token
5 Jan 2023
https://arxiv.org/abs/2301.02229
https://github.com/swintransformer/ait
与语言任务不同,输出空间通常限于一组标记,视觉任务的输出空间更为复杂,难以为各种视觉任务构建统一的视觉模型。在本文中,我们寻求统一视觉任务的输出空间,以便我们也可以为视觉任务构建统一的模型。为此,我们演示了一个统一的模型,该模型同时处理实例分割和深度估计这两个典型的视觉任务,分别具有离散/固定长度和连续/可变长度输出。我们提出了几种考虑到视觉任务特殊性的新技术:1)软令牌。我们使用软令牌来表示任务输出。与普通VQ-VAE中的硬令牌不同,硬令牌被分配给离散码本/词汇表,软令牌被柔和地分配给码本嵌入。软令牌可以提高下一个令牌推断和任务输出解码的准确性;2) 面罩增强。许多视觉任务在标签注释中存在损坏、未定义或无效值,即深度图的遮挡区域。我们表明,掩模增强技术可以极大地帮助这些任务。通过这些新技术和其他设计,我们表明所提出的通用任务求解器可以很好地执行实例分割和深度估计。特别是,我们在NYUv2深度估计的特定任务上实现了0.279 RMSE,创下了该基准的新纪录。通用任务求解器,称为AiT,可在\url上获得{https://github.com/SwinTransformer/AiT}.
LightDepth: A Resource Efficient Depth Estimation Approach for Dealing with Ground Truth Sparsity via Curriculum Learning
Nov 2022
https://arxiv.org/abs/2211.08608
https://github.com/fatemehkarimii/lightdepth
https://paperswithcode.com/paper/lightdepth-a-resource-efficient-depth
神经网络的进步使得能够以前所未有的精度处理复杂的计算机视觉任务,例如户外场景的深度估计。对深度估计进行了有希望的研究。然而,目前的工作是计算资源密集型的,没有考虑机器人和无人机等自主设备的资源限制。在这项工作中,我们提出了一种快速且电池效率高的深度估计方法。我们的方法设计了基于模型不可知课程的学习来进行深度估计。我们的实验表明,我们的模型的准确性与最先进的模型相当,而其响应时间比其他模型高71%。
Focal-WNet: An Architecture Unifying Convolution and Attention for Depth Estimation
I2CT 2022
https://github.com/Goubeast/Focal-WNet
https://ieeexplore.ieee.org/abstract/document/9824488
https://paperswithcode.com/paper/focal-wnet-an-architecture-unifying
在具有广泛应用的计算机视觉中,从单个RGB图像中提取深度信息是一项基本且具有挑战性的任务。这项任务无法使用多视图几何等传统方法解决,只能通过深度学习解决。由于缺乏长期相关性,使用卷积神经网络的现有方法产生不一致和模糊的结果。随着Transformer网络最近在计算机视觉中的成功,它可以在局部和全局处理信息,我们利用这一思想在本文中提出了一种新的架构,名为Focal WNet。该架构由两个独立的编码器和一个解码器组成。该网络的主要目的是学习大多数单目深度线索,如相对比例、对比度差异、纹理梯度等。与焦点Transformer层一起,我们利用卷积架构来学习深度线索,这些线索不能单独通过Transformer来学习,因为一些线索(如遮挡)需要局部感受野,并且更容易被conv网络学习。大量实验表明,所提出的Focal WNet在两个具有挑战性的数据集上获得了竞争性的结果。
IronDepth: Iterative Refinement of Single-View Depth using Surface Normal and its Uncertainty
7 Oct 2022
https://arxiv.org/abs/2210.03676
https://github.com/baegwangbin/IronDepth
单图像表面法线估计和深度估计是密切相关的问题,因为前者可以从后者计算。然而,从深度估计方法的输出计算出的表面法线远不如网络直接估计的表面法线准确。为了减少这种差异,我们引入了一种新的框架,该框架使用表面法线及其不确定性来反复细化预测深度图。每个像素的深度可以传播到查询像素,使用预测的表面法线作为指导。因此,我们将深度细化公式化为选择要传播的相邻像素的分类。然后,通过传播到子像素点,我们对细化的低分辨率输出进行上采样。所提出的方法在NYUv2和iBims-1上显示了最先进的性能-无论是深度还是正常。我们的细化模块还可以附加到现有的深度估计方法,以提高其精度。我们还表明,我们的框架仅针对深度估计进行训练,也可以用于深度完成。该代码位于https://github.com/baegwangbin/IronDepth.
Depth Map Decomposition for Monocular Depth Estimation
ECCV 2022
https://arxiv.org/abs/2208.10762
https://github.com/jyjunmcl/Depth-Map-Decomposition
我们提出了一种新的单目深度估计算法,该算法将度量深度图分解为归一化深度图和尺度特征。所提出的网络由一个共享编码器和三个解码器组成,分别称为G-Net、N-Net和M-Net,它们分别估计梯度图、归一化深度图和度量深度图。M-Net学会使用G-Net和N-Net提取的相对深度特征更准确地估计度量深度。该算法的优点是可以使用没有度量深度标签的数据集来提高度量深度估计的性能。在各种数据集上的实验结果表明,所提出的算法不仅提供了与最先进的算法相比具有竞争力的性能,而且即使只有少量度量深度数据可用于其训练,也能产生可接受的结果。
Towards Comprehensive Representation Enhancement in Semantics-guided Self-supervised Monocular Depth Estimation
ECCV 2022
https://link.springer.com/chapter/10.1007/978-3-031-19769-7_18
https://www.ecva.net/papers/eccv_2022/papers_ECCV/papers/136610299.pdf
由于深度和语义的强跨任务相关性,语义引导的自监督单目深度估计已被广泛研究。然而,由于深度估计和语义分割基本上是两种类型的任务:一种是回归,另一种是分类,因此深度特征和语义特征的分布自然不同。以往在深度估计中利用语义信息的工作大多忽略了这种表征区分,这导致深度特征的表征增强不足。在这项工作中,我们提出了一个基于注意力的模块,通过解决实例中任务特定特征的唯一性来增强任务特定特征。此外,我们提出了一种基于度量学习的方法,通过在特征空间中创建实例之间的分离来实现深度特征的全面增强。大量的实验和分析证明了我们提出的方法的有效性。最后,我们的方法在KITTI数据集上实现了最先进的性能。
MonoViT: Self-Supervised Monocular Depth Estimation with a Vision Transformer
6 Aug 2022
https://github.com/zxcqlf/MonoViT
https://arxiv.org/abs/2208.03543
自监督的单目深度估计是一种有吸引力的解决方案,它不需要很难找到用于训练的深度标签。卷积神经网络(CNN)最近在这项任务中取得了巨大成功。然而,它们有限的接受域限制了现有网络架构只能在局部推理,从而削弱了自监督范式的有效性。鉴于视觉Transformer(ViT)最近取得的成功,我们提出了MonoViT,这是一个全新的框架,将ViT模型支持的全局推理与自监督单目深度估计的灵活性相结合。通过将普通卷积与Transformer块相结合,我们的模型可以在局部和全局进行推理,以更高的细节和精度进行深度预测,从而使MonoViT能够在已建立的KITTI数据集上实现最先进的性能。此外,MonoViT在Make3D和DrivingStereo等其他数据集上证明了其优越的泛化能力。
Deep Digging into the Generalization of Self-supervised Monocular Depth Estimation
AAAI 2023
https://arxiv.org/abs/2205.11083v2
https://github.com/sjg02122/MonoFormer
自监督单目深度估计近年来得到了广泛的研究。大部分工作都集中在提高基准数据集(如KITTI)的性能上,但也提供了一些关于泛化性能的实验。在本文中,我们研究了骨干网络(例如CNN、Transformer和CNN Transformer混合模型),以推广单目深度估计。我们首先在不同的公共数据集上评估最先进的模型,这在网络培训期间从未见过。接下来,我们使用我们生成的各种纹理偏移数据集研究纹理偏移和形状偏移表示的效果。我们观察到变形金刚呈现出强烈的形状偏差,而CNN表现出强烈的纹理偏差。我们还发现,与纹理偏向模型相比,形状偏向模型在单目深度估计方面表现出更好的泛化性能。基于这些观察结果,我们新设计了一个具有多级自适应特征融合模块的CNN Transformer混合网络,称为MonoFormer。MonoFormer背后的设计直觉是通过使用Transformer来增加形状偏差,同时通过自适应融合多级表示来补偿Transformer的弱局部偏差。大量实验表明,所提出的方法在各种公共数据集上都达到了最先进的性能。在竞争方法中,我们的方法也显示出最佳的泛化能力。
End-to-end Learning for Joint Depth and Image Reconstruction from Diffracted Rotation
14 Apr 2022
https://arxiv.org/abs/2204.07076
由于当前问题的不适定性,单目深度估计仍然是一个开放的挑战。基于深度学习的技术已经被广泛研究并证明能够产生可接受的深度估计精度,即使在单个RGB输入图像中缺乏有意义和鲁棒的深度线索分别限制了它们的性能。使用相位和幅度掩模的基于编码孔径的方法以降低图像质量为代价,通过依赖于深度的点扩散函数(PSF)对2D图像中的强深度线索进行编码。在本文中,我们提出了一种新的端到端衍射旋转深度学习方法。产生作为散焦函数的旋转点扩散函数(RPSF)的相位掩模与深度估计神经网络的权重联合优化。为此,我们引入了孔径掩模的可微物理模型,并对相机成像管道进行了精确模拟。我们的方法需要一个明显不那么复杂的模型和更少的训练数据,但在室内基准的单目深度估计任务中,它优于现有方法。此外,我们通过结合非盲和非均匀图像去模糊模块来从RPSF模糊图像中恢复清晰的全聚焦图像,从而解决了图像退化的问题。
P3Depth: Monocular Depth Estimation with a Piecewise Planarity Prior
CVPR 2022
https://arxiv.org/abs/2204.02091
https://github.com/syscv/p3depth 96 stars
单目深度估计对于场景理解和下游任务至关重要。我们专注于监督设置,其中真值深度仅在训练时可用。基于对真实3D场景的高度规则性的了解,我们提出了一种学习选择性地利用共面像素的信息来提高预测深度的方法。特别地,我们引入了分段平面性先验,该先验声明对于每个像素,都有一个种子像素,该种子像素与前者共享相同的平面3D表面。受此启发,我们设计了一个双头网络。第一个头输出像素级平面系数,而第二个头输出密集的偏移矢量场,该矢量场标识种子像素的位置。然后使用种子像素的平面系数来预测每个位置的深度。所得到的预测通过学习的置信度与来自第一头部的初始预测自适应地融合,以说明与精确局部平面性的潜在偏差。由于所提出的模块的可区分性,整个体系结构进行了端到端的训练,并学习预测规则的深度图,在遮挡边界处具有尖锐的边缘。对我们的方法的广泛评估表明,我们在有监督的单目深度估计方面达到了最新水平,超过了NYU depth-v2和KITTI的Garg分割上的现有方法。我们的方法提供了深度图,生成了输入场景的可信3D重建。代码位于:https://github.com/SysCV/P3Depth
Disentangling Object Motion and Occlusion for Unsupervised Multi-frame Monocular Depth
29 Mar 2022
https://arxiv.org/abs/2203.15174v2
https://github.com/AutoAILab/DynamicDepth
传统的自监督单目深度预测方法基于静态环境假设,这导致动态场景中由于对象运动引入的失配和遮挡问题而导致精度下降。现有的动态对象聚焦方法仅部分解决了训练损失级别的失配问题。在本文中,我们相应地提出了一种新的多帧单目深度预测方法,以在预测和监督损失水平上解决这些问题。我们的方法称为DynamicDepth,是一种通过自监督循环一致性学习方案训练的新框架。提出了一种动态物体运动解纠缠(DOMD)模块来解纠缠物体运动以解决失配问题。此外,设计了新的遮挡感知成本体积和重投影损失,以减轻对象运动的遮挡效应。对Cityscapes和KITTI数据集的广泛分析和实验表明,我们的方法显著优于最先进的单目深度预测方法,尤其是在动态对象领域。代码位于https://github.com/AutoAILab/DynamicDepth
LocalBins: Improving Depth Estimation by Learning Local Distributions
28 Mar 2022
https://arxiv.org/abs/2203.15132
https://github.com/shariqfarooq123/localbins
我们提出了一种用于从单个图像进行深度估计的新架构。该架构本身基于流行的编码器-解码器架构,该架构经常用作所有密集回归任务的起点。我们建立在AdaBins上,AdaBin估计输入图像的深度值的全局分布,并以两种方式发展架构。首先,我们预测每个像素的局部邻域的深度分布,而不是预测全局深度分布。第二,我们不只是预测解码器末端的深度分布,而是涉及解码器的所有层。我们称这种新架构为LocalBins。我们的结果表明,在NYU Depth V2数据集上,所有指标都明显优于最先进的水平。代码和预训练模型将公开。
InvPT: Inverted Pyramid Multi-task Transformer for Dense Scene Understanding
https://arxiv.org/abs/2203.07997v3
https://github.com/prismformore/InvPT
多任务密集场景理解是一个蓬勃发展的研究领域,需要对一系列相关任务进行同时感知和推理,并进行像素预测。由于卷积运算的大量使用,大多数现有的工作都遇到了局部建模的严重限制,而在全局空间位置和多任务上下文中学习交互和推理对于这个问题至关重要。在本文中,我们提出了一种新的端到端倒金字塔多任务Transformer(InvPT),以在统一的框架中执行空间位置和多个任务的同时建模。据我们所知,这是第一个探索设计用于场景理解的多任务密集预测的Transformer结构的工作。此外,广泛证明,更高的空间分辨率对密集预测非常有益,而由于空间尺寸的巨大复杂性,现有的Transformer以更高的分辨率进行更深入的研究是非常具有挑战性的。InvPT提供了一个高效的UP Transformer块,以逐步提高的分辨率学习多任务特征交互,它还结合了有效的自注意消息传递和多尺度特征聚合,以高分辨率生成任务特定预测。我们的方法分别在NYUD-v2和PASCAL上下文数据集上实现了优异的多任务性能,并显著优于现有技术。该代码位于https://github.com/prismformore/InvPT
魔鬼在标签:句子的语义分割
The devil is in the labels: Semantic segmentation from sentences
https://arxiv.org/abs/2202.02002
我们提出了一种语义分割方法,当应用于零样本设置时,该方法可实现最先进的监督性能。因此,它在每个主要的语义分割数据集上实现了与监督方法相同的结果,而无需对这些数据集进行训练。这是通过用描述类的短段落的向量值嵌入替换每个类标签来实现的。这种方法的通用性和简单性使得能够合并来自不同域的多个数据集,每个数据集具有不同的类标签和语义。由此产生的超过200万张图像的合并语义分割数据集能够训练一个模型,该模型在7个基准数据集上实现与最先进的监督方法相同的性能,尽管没有使用其中的任何图像。通过在标准语义分割数据集上微调模型,我们还分别在60%和65%mIoU的NYUD-V2和PASCAL上下文上实现了对最先进的监督分割的显著改进。基于语言嵌入的紧密性,我们的方法甚至可以分割不可见的标签。大量实验表明,该方法对不可见图像域和不可见标签具有很强的泛化能力,并且该方法能够在下游应用中实现令人印象深刻的性能改进,包括深度估计和实例分割。
TransDSSL: Transformer based Depth Estimation via Self-Supervised Learning
journal 2022
https://ieeexplore.ieee.org/document/9851497
最近,Transformer已被广泛用于各种计算机视觉任务,并且由于其能够有效地编码图像中的长距离空间依赖性而显示出有希望的结果。然而,关于在自监督深度估计中采用Transformer的研究很少。当在深度的自监督学习中用Transformer替换CNN架构时,我们遇到了几个问题,例如与Transformer一起使用时存在问题的多尺度光度损失函数,以及捕捉局部细节的能力不足。在本文中,我们提出了一种基于注意力的解码器模块,Pixel Wise Skip attention(PWSA),以增强特征图中的精细细节,同时保持全局上下文不受Transformer的影响。此外,我们建议利用具有单尺度光度损失的自蒸馏损失,通过使用正确的训练信号来减轻Transformer训练的不稳定性。我们证明,所提出的模型对需要全局上下文和局部细节的大型对象和薄结构执行准确的预测。我们的模型在KITTI和DDAD基准上实现了自监督单目深度估计方法中的最先进性能
Global-Local Path Networks for Monocular Depth Estimation with Vertical CutDepth
https://arxiv.org/abs/2201.07436
https://github.com/vinvino02/GLPDepth 107 stars
https://paperswithcode.com/paper/global-local-path-networks-for-monocular
从单个图像进行深度估计是一项重要任务,可以应用于计算机视觉的各个领域,并且随着卷积神经网络的发展而迅速发展。在本文中,我们提出了一种用于单目深度估计的新结构和训练策略,以进一步提高网络的预测精度。我们部署了一个分层变换编码器来捕获和传递全局上下文,并设计了一个轻量级但功能强大的解码器来生成估计的深度图,同时考虑到局部连接性。通过使用我们提出的选择性特征融合模块在多尺度局部特征和全局解码流之间构建连接路径,网络可以集成这两种表示并恢复精细细节。此外,所提出的解码器显示出比先前提出的解码器更好的性能,计算复杂度显著降低。此外,我们通过利用深度估计中的一个重要观测值来增强模型,从而改进了深度特定增强方法。我们的网络在具有挑战性的深度数据集NYU depth V2上实现了最先进的性能。已经进行了大量的实验来验证和显示所提出的方法的有效性。最后,我们的模型显示出比其他比较模型更好的泛化能力和鲁棒性。
Channel-Wise Attention-Based Network for Self-Supervised Monocular Depth Estimation
24 Dec 2021
https://github.com/kamiLight/CADepth-master
https://arxiv.org/abs/2112.13047v1
自监督学习已显示出非常有希望的单目深度估计结果。场景结构和局部细节都是高质量深度估计的重要线索。最近的作品缺乏场景结构的显式建模和细节信息的正确处理,这导致了性能瓶颈和预测结果中的模糊伪影。在本文中,我们提出了基于通道的注意力深度估计网络(CADepth Net),该网络具有两个有效贡献:1)结构感知模块采用自注意机制来捕获长距离依赖性,并聚合通道维度中的辨别特征,显式增强场景结构的感知,获得更好的场景理解和丰富的特征表示。2) 细节强调模块重新校准通道特征图,并选择性地强调信息特征,旨在突出关键的局部细节信息,并更有效地融合不同级别的特征,从而实现更精确、更清晰的深度预测。此外,广泛的实验验证了我们方法的有效性,并表明我们的模型在KITTI基准和Make3D数据集上实现了最先进的结果。
X-Distill: Improving Self-Supervised Monocular Depth via Cross-Task Distillation
24 Oct 2021
https://arxiv.org/abs/2110.12516v1
在本文中,我们提出了一种新的方法X-Distille,通过从语义分割到深度估计的跨任务知识提取来改进单目深度的自监督训练。更具体地说,在培训过程中,我们使用预训练的语义分割教师网络,并将其语义知识转移到深度网络。为了在两个不同的视觉任务中实现这样的知识提取,我们引入了一个可训练的小网络,该网络将预测的深度图转换为语义分割图,然后可以由教师网络监督。通过这种方式,这个小网络能够在训练期间从语义分割教师的监督反向传播到深度网络。此外,由于语义分割中常用的对象类不能直接转移到深度,我们研究了对象的视觉和几何特征,并设计了一种可以由两个任务共享的新的分组方法。值得注意的是,我们的方法只修改了训练过程,并且在推理过程中不会产生额外的计算。我们广泛评估了我们在标准KITTI基准上提出的方法的有效性,并将其与最新的技术状态进行了比较。我们进一步测试了我们在Make3D上的方法的可推广性。总体而言,结果表明,我们的方法显著提高了深度估计精度,并优于现有技术。
Self-Supervised Monocular Depth Estimation with Internal Feature Fusion
BMVC2021
https://github.com/brandleyzhou/diffnet 97 stars
https://arxiv.org/abs/2110.09482v3
用于深度估计的自监督学习使用图像序列中的几何结构进行监督,并显示出有前景的结果。与许多计算机视觉任务一样,深度网络性能取决于从图像中学习准确的空间和语义表示的能力。因此,利用语义分割网络进行深度估计是很自然的。在这项工作中,基于一个成熟的语义分割网络HRNet,我们提出了一个新的深度估计网络DIFFNet,它可以在下采样和上采样过程中使用语义信息。通过应用特征融合和注意力机制,我们提出的方法在KITTI基准上优于最先进的单目深度估计方法。我们的方法在高分辨率训练数据上也显示出更大的潜力。我们提出了一个额外的扩展评估策略,通过建立一组具有挑战性的案例,从标准基准经验得出。
Excavating the Potential Capacity of Self-Supervised Monocular Depth Estimation
ICCV 2021
https://github.com/prstrive/EPCDepth
https://arxiv.org/abs/2109.12484v1
自监督方法由于其巨大的潜力和较低的注释成本,在单目深度估计中发挥着越来越重要的作用。为了弥补与监督方法的差距,最近的工作利用了额外的约束,例如语义分割。然而,这些方法将不可避免地增加模型的负担。在本文中,我们展示了理论和经验证据,表明可以在不增加成本的情况下挖掘自监督单目深度估计的潜在容量。特别是,我们提出了(1)一种称为数据嫁接的新数据增强方法,该方法迫使模型探索除垂直图像位置之外的更多线索以推断深度,设计用于赋予编码器深度估计任务的专业化,并增强模型的表示能力。广泛的实验表明,我们的贡献可以在更少的计算开销的情况下为基线带来显著的性能改进,并且我们的模型EPCDepth超越了以前的最先进的方法,即使是那些受到额外约束的方法。
CutDepth:Edge-aware Data Augmentation in Depth Estimation
https://arxiv.org/abs/2107.07684
在单目深度估计中很难大规模收集数据,因为该任务需要同时采集RGB图像和深度。因此,数据扩充对这项任务很重要。然而,对于诸如单目深度估计之类的任务的数据增强研究很少,其中转换是逐像素执行的。在本文中,我们提出了一种称为CutDepth的数据增强方法。在CutDepth中,部分深度在训练期间粘贴到输入图像上。该方法在不破坏边缘特征的情况下扩展变化数据。实验客观和主观地表明,该方法优于传统的数据增强方法。使用CutDepth可以提高估计精度,即使在远距离很少有训练数据。
Monocular Depth Estimation Using Laplacian Pyramid-Based Depth Residuals
Jan 2021
IEEE Transactions on Circuits and Systems for Video Technology
https://ieeexplore.ieee.org/document/9316778
https://github.com/tjqansthd/LapDepth-release
随着通过深度神经网络生成模型的巨大成功,单目深度估计已经通过利用各种编码器-解码器架构被积极研究。然而,大多数以前方法中的解码过程重复简单的上采样操作,可能无法充分利用编码良好的特征的潜在财产进行单目深度估计。为了解决这个问题,我们提出了一种简单但有效的方案,将拉普拉斯金字塔结合到解码器架构中。具体地,编码特征被馈送到不同的流中,用于解码深度残差,深度残差由拉普拉斯金字塔的分解定义,并且相应的输出被逐步组合以从粗尺度到细尺度重建最终深度图。这对于精确估计深度边界以及全局布局是相当理想的。我们还建议将权重标准化应用于解码器架构的预激活卷积块,这极大地帮助改善梯度流,从而使优化更容易。在各种室内和室外环境下构建的基准数据集上的实验结果表明,与现有模型相比,所提出的方法对于单目深度估计是有效的。代码和模型可在以下网址公开获取:https://github.com/tjqansthd/LapDepth-release.
LeReS:学习从单个图像恢复3D场景形状
Learning to Recover 3D Scene Shape from a Single Image
CVPR2021
https://arxiv.org/abs/2012.09365
https://github.com/aim-uofa/AdelaiDepth
尽管在野外单目深度估计方面取得了重大进展,但由于在混合数据深度预测训练中使用的移位不变重建损失导致的未知深度移位,以及可能的未知相机焦距,最近最先进的方法无法用于恢复准确的3D场景形状。我们详细研究了这个问题,并提出了一个两阶段框架,该框架首先预测未知尺度的深度和从单个单目图像的偏移,然后使用3D点云编码器预测缺失的深度偏移和焦距,从而使我们能够恢复真实的3D场景形状。此外,我们提出了图像级归一化回归损失和基于正态的几何损失,以增强在混合数据集上训练的深度预测模型。我们在九个不可见的数据集上测试了我们的深度模型,并在零样本数据集泛化上实现了最先进的性能。代码位于:https://git.io/Depth
HR-Depth: High Resolution Self-Supervised Monocular Depth Estimation
14 Dec 2020
https://github.com/shawLyu/HR-Depth
https://arxiv.org/abs/2012.07356v1
自监督学习在单目深度估计中显示出巨大的潜力,使用图像序列作为唯一的监督来源。尽管人们尝试使用高分辨率图像进行深度估计,但预测的准确性并没有显著提高。在这项工作中,我们发现主要原因是大梯度区域中的深度估计不准确,使得双线性插值误差随着分辨率的增加而逐渐消失。为了在大梯度区域中获得更精确的深度估计,需要获得具有空间和语义信息的高分辨率特征。因此,我们提出了一种改进的DepthNet,即HR Depth,它有两种有效的策略:(1)重新设计DepthNet中的跳跃连接,以获得更好的高分辨率特征,HR深度在高分辨率和低分辨率下都以最小的参数超过了所有先前最先进的(SoTA)方法。此外,以前的最先进的方法基于相当复杂和深度的网络,具有大量的参数,这限制了它们的实际应用。因此,我们还构建了一个使用MobileNetV3作为编码器的轻量级网络。实验表明,轻量级网络可以在只有20%的参数的情况下,在高分辨率下与许多大型模型(如Monodepth2)相媲美。所有代码和型号将在https://github.com/shawLyu/HR-Depth.
On Deep Learning Techniques to Boost Monocular Depth Estimation for Autonomous Navigation
13 Oct 2020
https://arxiv.org/abs/2010.06626
推断图像的深度是计算机视觉领域中的一个基本逆问题,因为深度信息是通过2D图像获得的,可以从观察到的真实场景的无限可能性中生成。得益于卷积神经网络(CNN)在探索结构特征和空间图像信息方面的进展,单图像深度估计(SIDE)在科技创新领域中经常被强调,因为该概念具有实现成本低和对环境条件的鲁棒性等优点。在自动驾驶汽车的背景下,最先进的神经网络通过生成高质量的深度图来优化SIDE任务,这在不同地点的自动导航过程中至关重要。然而,这样的网络通常由来自光探测和测距(LiDAR)激光扫描的稀疏且有噪声的深度数据监控,并且以高计算成本执行,需要高性能的图形处理单元(GPU)。因此,我们提出了一种新的轻量级和快速监督的CNN架构,结合了新的特征提取模型,该模型专为真实世界的自主导航而设计。我们还引入了一个有效的曲面法线模块,以及一个简单的几何2.5D损失函数,以解决SIDE问题。我们还通过结合多种深度学习技术进行创新,例如使用加密算法和其他语义、表面法线和深度信息来训练我们的框架。本工作中介绍的方法侧重于室内和室外环境中的机器人应用,其结果在竞争性和公开可用的NYU Depth V2和KITTI Depth数据集上进行了评估。
Feature-metric Loss for Self-supervised Learning of Depth and Egomotion
ECCV 2020
https://arxiv.org/abs/2007.10603v1
https://github.com/sconlyshootery/FeatDepth
光度损失被广泛用于自监督深度和自运动估计。然而,光度差异导致的损失景观对于优化来说通常是有问题的,这是由无纹理区域中的像素的高原景观或低分辨像素的多个局部最小值造成的。在这项工作中,提出并定义了特征表示上的特征度量损失,其中特征表示也以自监督的方式学习,并通过一阶导数和二阶导数进行正则化,以约束损失景观以形成适当的收敛盆地。通过可视化进行的综合实验和详细分析证明了所提出的特征度量损失的有效性。特别是,我们的方法将KITTI的最先进方法从0.885提高到0.925,通过并且显著优于先前的视觉里程测量方法。
Enforcing geometric constraints of virtual normal for depth prediction
ICCV 2019
https://github.com/aim-uofa/AdelaiDepth
https://paperswithcode.com/paper/enforcing-geometric-constraints-of-virtual
单目深度预测在理解3D场景几何中起着至关重要的作用。尽管最近的方法在评估度量(如像素相对误差)方面取得了令人印象深刻的进展,但大多数方法忽略了3D空间中的几何约束。在这项工作中,我们展示了高阶3D几何约束对深度预测的重要性。通过设计一个损失项,该损失项实施一种简单的几何约束,即由重建的3D空间中随机采样的三个点确定的虚拟法线方向,我们可以显著提高深度预测精度。值得注意的是,这种预测深度足够精确的副产品是,我们现在能够直接从深度恢复场景的良好3D结构,例如点云和表面法线,消除了像以前那样训练新子模型的必要性。在NYU Depth-V2和KITTI两个基准上的实验证明了我们方法的有效性和最先进的性能。
Structure-Aware Residual Pyramid Network for Monocular Depth Estimation
IJCAI 2019
https://arxiv.org/abs/1907.06023
https://github.com/Xt-Chen/SARPN 82 stars
单目深度估计是场景理解的重要任务。复杂场景中对象和填充物的底层结构对于恢复准确且视觉上令人愉悦的深度图至关重要。全局结构传达场景布局,而局部结构反映形状细节。最近开发的基于卷积神经网络(CNN)的方法显著提高了深度估计的性能。然而,它们中很少考虑复杂场景中的多尺度结构。在本文中,我们提出了一种结构感知残差金字塔网络(SARPN)来利用多尺度结构进行精确的深度预测。我们提出了一种残差金字塔解码器(RPD),它在上层表达全局场景结构以表示布局,在下层表达局部结构以表示形状细节。在每一级,我们提出了残差细化模块(RRM),该模块预测残差映射,以逐步在上层预测的较粗结构上添加更精细的结构。为了充分利用多尺度图像特征,引入了自适应密集特征融合(ADFF)模块,该模块自适应地融合所有尺度的有效特征,以推断每个尺度的结构。在具有挑战性的NYU深度v2数据集上的实验结果表明,我们提出的方法在定性和定量评估方面都达到了最先进的性能。该代码位于https://github.com/Xt-Chen/SARPN.
Generating and Exploiting Probabilistic Monocular Depth Estimates
CVPR 2020
https://github.com/likesum/prdepth
https://arxiv.org/abs/1906.05739v2
除了从单个图像进行深度估计之外,单目线索在更广泛的深度推断应用和设置中是有用的,例如当人们可以利用其他可用的深度线索来提高准确性时。目前,具有不同推理任务和深度线索组合的不同应用程序是通过不同的专门网络来解决的——针对每个应用程序分别进行训练。相反,我们提出了一种通用的任务不可知单目模型,该模型在给定输入彩色图像的情况下输出场景深度上的概率分布,作为逐块条件VAE输出的样本近似。我们表明,这种分布式输出可以用于在不同的设置中实现各种推理任务,而不需要为每个应用程序重新训练。在一系列不同的应用中(深度完成、用户引导估计等),我们的通用模型产生了高精度的结果——与依赖于特定应用网络的最先进方法相当或超过。
Pattern-Affinitive Propagation across Depth, Surface Normal and Semantic Segmentation
CVPR 2019
https://arxiv.org/abs/1906.03525
在本文中,我们提出了一种新的模式仿射传播(PAP)框架来联合预测深度、表面法线和语义分割。其背后的动机来自于统计观察,即模式亲和对在不同任务之间以及在任务内频繁重复。因此,我们可以进行两种类型的传播,跨任务传播和特定于任务的传播,以自适应地传播这些相似的模式。前者集成了跨任务关联模式,以通过对非局部关系的计算来适应其中的每个任务。接下来,后者在特征空间中执行迭代扩散,使得跨任务亲和性模式可以在任务内广泛传播。因此,每项任务的学习都可以通过互补的任务级亲和性来规范和促进。大量实验证明了我们方法在联合三项任务中的有效性和优越性。同时,我们在三个相关数据集(NYUD-v2、SUN-RGBD和KITTI)上取得了最先进或有竞争力的结果。
Monocular Depth Estimation Using Relative Depth Maps
CVPR 2019
https://openaccess.thecvf.com/content_CVPR_2019/html/Lee_Monocular_Depth_Estimation_Using_Relative_Depth_Maps_CVPR_2019_paper.html
我们提出了一种使用相对深度图进行单目深度估计的新算法。首先,使用卷积神经网络,我们估计不同尺度下成对区域之间的相对深度以及普通深度。其次,我们基于成对比较矩阵的秩1特性,从选择性估计的数据中恢复相对深度图。第三,我们将普通深度图和相对深度图分解为组件,并对它们进行优化重组,以重建最终的深度图。实验结果表明,所提出的算法提供了最先进的深度估计性能。
SharpNet: Fast and Accurate Recovery of Occluding Contours in Monocular Depth Estimation
21 May 2019
https://github.com/MichaelRamamonjisoa/SharpNet 123 stars
https://arxiv.org/abs/1905.08598
我们介绍了SharpNet,这是一种预测输入彩色图像的精确深度图的方法,特别注意遮挡轮廓的重建:遮挡轮廓是对象识别和增强现实中虚拟对象真实集成的重要线索,但它们也很难准确重建。例如,它们是基于立体的重建方法的挑战,因为遮挡轮廓周围的点仅在一幅图像中可见。受最近引入正态估计以改进深度预测的方法的启发,我们引入了一个约束深度和遮挡轮廓预测的新术语。由于真值深度很难沿着遮挡轮廓以像素完美精度获得,我们使用合成图像进行训练,然后对真实数据进行微调。我们在具有挑战性的NYUv2深度数据集上演示了我们的方法,并表明我们的方法在遮挡轮廓上优于最先进的方法,同时在其余图像上的表现与最新的方法相当。它沿着遮挡轮廓的准确度实际上比基于结构光的深度相机获得的“地面真相”要好。我们通过引入基于NYUv2深度的新基准来评估单目重建中的咬合轮廓,这是我们的第二个贡献。
Attention-based Context Aggregation Network for Monocular Depth Estimation
29 Jan 2019
https://github.com/miraiaroha/ACAN
https://arxiv.org/abs/1901.10137
深度估计是一项传统的计算机视觉任务,它在理解3D场景几何中起着至关重要的作用。最近,基于深度卷积神经网络的方法在单目深度估计领域取得了很有希望的结果。具体而言,结合了由基于扩展卷积的块(萎缩空间金字塔池,ASPP)提取的多尺度特征的框架在密集标记任务中获得了显著改进。然而,离散化和预定义的膨胀率不能捕获在不同场景中不同的连续上下文信息,并且容易在深度估计中引入网格伪影。在本文中,我们提出了一种基于注意力的上下文聚合网络(ACAN)来解决这些问题。基于自注意模型,ACAN自适应地学习像素之间的任务特定相似性,以对上下文信息进行建模。首先,我们将单目深度估计重新定义为密集标记多类分类问题。然后,我们提出了一种软序数推理来将预测概率转换为连续深度值,这可以减少离散化误差(RMSE减少约1%)。第二,所提出的ACAN聚合图像级和像素级上下文信息用于深度估计,其中前者表示整个图像的统计特征,后者提取每个像素的长距离空间相关性。第三,为了进一步减少RGB图像和深度图之间的不一致性,我们构造了注意力损失以最小化它们的信息熵。我们在公共单目深度估计基准数据集(包括NYU depth V2、KITTI)上进行评估。实验证明了我们提出的ACAN的优越性,并取得了与现有技术相比具有竞争力的结果。
High Quality Monocular Depth Estimation via Transfer Learning
31 Dec 2018
https://arxiv.org/abs/1812.11941
https://github.com/ialhashim/DenseDepth
https://github.com/alinstein/Depth_estimation
在包括场景理解和重建在内的许多应用中,从图像中精确地估计深度是一项基本任务。现有的深度估计解决方案通常产生低分辨率的模糊近似。本文提出了一种卷积神经网络,用于在给定单个RGB图像的情况下,借助转移学习来计算高分辨率深度图。遵循标准的编码器-解码器架构,我们在初始化编码器时利用使用高性能预训练网络提取的特征,以及增强和训练策略,从而获得更准确的结果。我们展示了即使对于非常简单的解码器,我们的方法也能够实现详细的高分辨率深度图。我们的网络具有较少的参数和训练迭代,在两个数据集上的性能优于最先进的技术,并且产生了质量更好的结果,可以更忠实地捕捉对象边界。公开提供代码和相应的预训练权重。
Fast Neural Architecture Search of Compact Semantic Segmentation Models via Auxiliary Cells
CVPR 2019
https://arxiv.org/abs/1810.10804v3
https://github.com/drsleep/nas-segm-pytorch
https://github.com/mindspore-ai/models/tree/master/research/cv/adelaide_ea
为特定任务量身定制的神经网络架构的自动化设计是一个非常有前途的,但本质上很难探索的途径。虽然该领域的大多数结果都是在图像分类和语言建模问题上取得的,但这里我们专注于密集的每像素任务,特别是使用完全卷积网络的语义图像分割。与上述领域不同,完全卷积网络的设计选择需要进行几项改变,从需要使用的操作类型(例如,扩展卷积)到解决更困难的优化问题。在这项工作中,我们特别感兴趣的是寻找能够使用有限资源实时运行的高性能紧凑分割架构。为了实现这一点,我们有意在训练期间通过一组辅助单元过度参数化架构,这些辅助单元提供中间监控信号,并且可以在评估阶段省略。辅助单元的设计由控制器发出,该控制器是一个使用强化学习训练的固定结构的神经网络。更重要的是,我们演示了如何在有限的时间和计算预算内高效地搜索这些架构。特别是,我们依赖于一种渐进式策略,该策略终止了没有前途的体系结构的进一步训练,并依赖于Polyak平均与知识蒸馏相结合来加速收敛。从数量上讲,在8个GPU天内,我们的方法发现了一组在语义分割、姿态估计和深度预测任务上与最先进的紧凑模型相比性能相当的架构。代码将在此处提供:https://github.com/drsleep/nas-segm-pytorch
用于单目深度估计的深度序列回归网络
Deep Ordinal Regression Network for Monocular Depth Estimation
CVPR 2018
https://github.com/hufu6371/DORN
https://arxiv.org/abs/1806.02446
https://paperswithcode.com/paper/deep-ordinal-regression-network-for-monocular
单目深度估计是一个不适定问题,它在理解3D场景几何中起着至关重要的作用。通过从深度卷积神经网络(DCNN)中探索图像级信息和分层特征,最近的方法得到了显著的改进。这些方法将深度估计建模为回归问题,并通过最小化均方误差来训练回归网络,均方误差存在收敛速度慢和局部解不令人满意的问题。此外,现有的深度估计网络使用重复的空间池操作,导致不期望的低分辨率特征图。为了获得高分辨率深度图,需要跳连或多层反卷积网络,这会使网络训练复杂化,并消耗更多的计算。为了消除或至少在很大程度上减少这些问题,我们引入了间距增加离散化(SID)策略来离散化深度,并将深度网络学习重新定义为有序回归问题。通过使用普通回归损失训练网络,我们的方法实现了更高的精度和更快的同步收敛。此外,我们采用了多尺度网络结构,避免了不必要的空间池,并并行捕获多尺度信息。本文中描述的方法在四个具有挑战性的基准上取得了最先进的结果,即KITTI[17]、ScanNet[9]、Make3D[50]和NYU Depth v2[42],并赢得了2018年稳健视觉挑战赛的一等奖。代码已在以下网址提供:https://github.com/hufu6371/DORN.
Revisiting Single Image Depth Estimation: Toward Higher Resolution Maps with Accurate Object Boundaries
23 Mar 2018
https://arxiv.org/abs/1803.08673v2
https://github.com/JunjH/Revisiting_Single_Depth_Estimation
https://github.com/Xt-Chen/SARPN
本文研究了单图像深度估计问题。卷积神经网络(CNN)的应用最近在这一问题的研究中取得了重大进展。然而,大多数现有方法在估计的深度图中存在空间分辨率的损失;典型的症状是对象边界的扭曲和模糊重建。在这篇论文中,为了更精确地估计,重点注意具有更高空间分辨率的深度图,我们对现有方法提出了两个改进。一个是关于融合在不同尺度上提取的特征的策略,为此我们提出了一种改进的网络架构,包括四个模块:编码器、解码器、多尺度特征融合模块和细化模块。另一个是用于测量训练中使用的推断误差的损失函数。我们表明,分别测量深度、梯度和表面法线误差的三个损失项有助于以互补的方式提高精度。实验结果表明,这两种改进能够获得比现有技术更高的精度,现有技术通过更精细的分辨率重建(例如,使用小对象和对象边界)来实现。
网友评论