本文为北大唐杰组发表的自监督学习综述论文
1 INTRODUCTION
Yann LeCun将自监督学习定义为”the machine predicts any parts of its input for
any observed part”.
作者将自监督学习做如下概述:
- 从数据本身依靠半自动过程获取标签
- 根据数据的其他部分预测数据的一部分信息(可参考image inpainting任务)。这里的其余部分指不完整的、扭曲的、变形的、污损的。模型基于这些“其余部分”完成对于图像整体或者部分的修复。
非监督与自监督的关系。
自监督学习由于没有人为标注数据,可看作是非监督的分支。但是严格来讲,非监督学习旨在学习数据的特定模式,如聚类,异常检测。自监督学习旨在复原数据,仍属于监督型学习的范式中。
image.png
2 .MOTIVATION OF SELF-SUPERVISED LEARNING
监督型学习算法极度依赖数据,由于它基于很少的先验假设,当数据量较小时,算法容易过拟合并且在场景间性能不均衡。为了解决监督型学习的OOD及泛化问题,一般从新的网络结构和提供更多的训练数据两个方面入手,但是高质量的手动标注数据非常昂贵。自监督学习最重要的一点便是可以借助海量的无标签数据进行学习。
作者将目前的自监督学习归类为生成式,对比式,生成/对比式(对抗)。
image.png
生成式:训练自编码器压缩重建输入。
对比式:训练编码器将输入编码为向量,对比相似性。
对抗式:;使用自编码器生成假样本,使用判别器判别真假样本(GAN)
image.png
三种方式的区别:
- 隐向量:生成式和对比式中,向量z是显示的,对抗式中,z是隐式的。
- 判别器:生成式没有判别器,另外两种方法有判别器。
-
训练目标:生成式使用重建损失,对比式使用对比相似度度量,对抗式使用分布差异。
近年自监督学习方法
3.GENERATIVE SELF-SUPERVISED LEARNING
包括autoregressive
(AR) models, flow-based models, auto-encoding
(AE) models, and hybrid generative models.
自回归模型autoregressive(AR) models
AR可以看作是贝叶斯网络结构,在自然语言处理中,自回归语言模型的目标通常是最大化正向自回归因子分解的似然。例如 GPT、GPT-2 使用 Transformer 解码器结构进行建模;在计算机视觉中,自回归模型用于逐像素建模图像,例如在 PixelRNN 和 PixelCNN 中,下方(右侧)像素是根据上方(左侧)像素生成的;而在图学习中,则可以通过深度自回归模型来生成图,例如 GraphRNN 的目标为最大化观察到的图生成序列的似然。自回归模型的优点是能够很好地建模上下文依赖关系。然而,其缺点是每个位置的 token 只能从一个方向访问它的上下文。
基于流模型flow-based models
flow-based models 是希望估计数据的复杂高维分布。
自编码器模型
AE的目标是对损坏的输入进行重建。涉及的模型包括基本AE,DAE,VAE.
网友评论