美文网首页
论文学习Self-supervised Learning:Gen

论文学习Self-supervised Learning:Gen

作者: 赵小闹闹 | 来源:发表于2021-08-06 15:47 被阅读0次

    本文为北大唐杰组发表的自监督学习综述论文

    1 INTRODUCTION

    Yann LeCun将自监督学习定义为”the machine predicts any parts of its input for
    any observed part”.
    作者将自监督学习做如下概述:

    • 从数据本身依靠半自动过程获取标签
    • 根据数据的其他部分预测数据的一部分信息(可参考image inpainting任务)。这里的其余部分指不完整的、扭曲的、变形的、污损的。模型基于这些“其余部分”完成对于图像整体或者部分的修复。

    非监督与自监督的关系。
    自监督学习由于没有人为标注数据,可看作是非监督的分支。但是严格来讲,非监督学习旨在学习数据的特定模式,如聚类,异常检测。自监督学习旨在复原数据,仍属于监督型学习的范式中。


    image.png

    2 .MOTIVATION OF SELF-SUPERVISED LEARNING

    监督型学习算法极度依赖数据,由于它基于很少的先验假设,当数据量较小时,算法容易过拟合并且在场景间性能不均衡。为了解决监督型学习的OOD及泛化问题,一般从新的网络结构和提供更多的训练数据两个方面入手,但是高质量的手动标注数据非常昂贵。自监督学习最重要的一点便是可以借助海量的无标签数据进行学习。
    作者将目前的自监督学习归类为生成式,对比式,生成/对比式(对抗)。


    image.png

    生成式:训练自编码器压缩重建输入。
    对比式:训练编码器将输入编码为向量,对比相似性。
    对抗式:;使用自编码器生成假样本,使用判别器判别真假样本(GAN)


    image.png
    三种方式的区别:
    • 隐向量:生成式和对比式中,向量z是显示的,对抗式中,z是隐式的。
    • 判别器:生成式没有判别器,另外两种方法有判别器。
    • 训练目标:生成式使用重建损失,对比式使用对比相似度度量,对抗式使用分布差异。


      近年自监督学习方法

    3.GENERATIVE SELF-SUPERVISED LEARNING

    包括autoregressive
    (AR) models, flow-based models, auto-encoding
    (AE) models, and hybrid generative models.

    自回归模型autoregressive(AR) models

    AR可以看作是贝叶斯网络结构,在自然语言处理中,自回归语言模型的目标通常是最大化正向自回归因子分解的似然。例如 GPT、GPT-2 使用 Transformer 解码器结构进行建模;在计算机视觉中,自回归模型用于逐像素建模图像,例如在 PixelRNN 和 PixelCNN 中,下方(右侧)像素是根据上方(左侧)像素生成的;而在图学习中,则可以通过深度自回归模型来生成图,例如 GraphRNN 的目标为最大化观察到的图生成序列的似然。自回归模型的优点是能够很好地建模上下文依赖关系。然而,其缺点是每个位置的 token 只能从一个方向访问它的上下文。

    基于流模型flow-based models

    flow-based models 是希望估计数据的复杂高维分布。

    自编码器模型

    AE的目标是对损坏的输入进行重建。涉及的模型包括基本AE,DAE,VAE.

    相关文章

      网友评论

          本文标题:论文学习Self-supervised Learning:Gen

          本文链接:https://www.haomeiwen.com/subject/paybvltx.html