在对比学习中利用第三维度

作者: Valar_Morghulis | 来源:发表于2023-01-31 09:44 被阅读0次

根据性格确定辅导风格
2018-08-05
从平庸走向卓越的最佳策略是什么|读感
从平庸走向卓越的最佳策略是什么|读感
数据可视化的seaborn模块
利用感觉对比来学习
Excel-可视化-对比图
数据分析中常用分析思路对比分析解析（一）
数据分析中常用分析思路-对比分析解析（二）
对标的层次和维度-识别事物的基本方法（三）

Leveraging the Third Dimension in Contrastive Learning

S Aithal, A Goyal, A Lamb, Y Bengio, M Mozer

[Universite de Montreal & Microsoft Research & Google Research]

https://arxiv.org/abs/2301.11790

https://openreview.net/forum?id=Pqi9ZxxdjM 评审得分：3,5,5,6

要点：提出两种不同的方法来改善单目 RGB 图像的深度信号自监督学习(SSL)；第一种方法将深度图和图像级联起来，产生 RGB+D 输入到SSL。第二种方法从深度信号中生成 3D 视图，用于对比学习；两种方法都提高了3种对比学习方法(BYOL、SimSiam和SwAV)在ImageNette、ImageNet-100和ImageNet-1k 数据集上的性能。

一句话总结：提出两种方法，用从单目RGB图像中提取的含噪深度信号来改善自监督学习(SSL)，用三种不同的 SSL 方法提高了多个数据集的准确性和鲁棒性。

摘要：

自监督学习(SSL)方法对无标记数据进行操作，以学习对下游任务有用的鲁棒表示。大多数SSL方法依赖于通过变换 2D 图像像素图获得的增强。这些增强方法忽略了这样一个事实，即生物视觉是在一个沉浸式的 3D 的、时间上连续的环境中进行的，而低层次的生物视觉在很大程度上依赖于深度线索。利用预训练好的最先进的单目 RGB-到-深度模型(Depth Prediction Transformer)提供的信号，本文探索了两种不同的方法，将深度信号纳入 SSL 框架。评估了使用 RGB+深度输入表示的对比学习。使用深度信号从稍微不同的相机位置生成新视图，从而为对比学习产生一个 3D 增强。用ImageNette(ImageNet的10类子集)、ImageNet-100和ImageNet-1k数据集对三种不同的SSL方法——BYOL、SimSiam和SwAV——进行评估。发现纳入深度信号的两种方法，都提高了基线 SSL 方法的鲁棒性和泛化性，第一种方法(有深度通道连接)更有优势。例如，带有额外深度通道的 BYOL 实现了下游分类精度的提高，在ImageNette上从85.3%提高到88.0%，在ImageNet-C上从84.1%提高到87.0%。