美文网首页
卷积网络的BERT预训练方法设计:稀疏和分层掩码建模

卷积网络的BERT预训练方法设计:稀疏和分层掩码建模

作者: Valar_Morghulis | 来源:发表于2023-02-03 10:30 被阅读0次

Designing BERT for Convolutional Networks: Sparse and Hierarchical Masked Modeling

K Tian, Y Jiang, Q Diao, C Lin, L Wang, Z Yuan

[Peking University & Bytedance Inc & University of Oxford]

https://arxiv.org/abs/2301.03580

https://github.com/keyu-tian/SparK

刚开源一周,141stars

https://openreview.net/forum?id=NRxydtWup1S

ICLR 2023评审中。初审意见不完全是积极的,分别是5分(略低于接受阈值),8分(接受,好论文),6分(略高于接受阈值)

要点:提出可以直接在任意卷积网络上使用、无需修改骨干的BERT风格预训练方法,克服其无法处理不规则掩码输入的问题;对卷积网络生成式预训练的设计洞察:掩码图像建模中稀疏卷积的使用,以及BERT风格预训练的分层设计;在下游任务上卷积网络性能的大幅提高(高达+3.5分),表明了将 Transformer 的预训练-微调范式扩展到卷积网络的前景。

一句话总结:SparK是一种BERT风格的预训练方法,可以直接应用于任意卷积网络,用稀疏卷积来处理不规则的掩码输入图像,用分层解码器来利用卷积网络的分层结构,能显著提高下游任务的性能。

摘要:本文分析并克服了将BERT风格预训练或掩码图像建模的成功扩展到卷积网络(convnet)的两个关键障碍:(i) 卷积操作无法处理不规则的随机掩码输入图像;(ii) BERT 预训练的单尺度性质与 convnet 的层次结构不一致。对于(i),将未掩码的像素视为3D点云的稀疏体素,用稀疏卷积进行编码。这是首次使用稀疏卷积进行二维掩码建模。对于(ii),本文提出一个分层解码器,以从多尺度编码特征重建图像。称为Sparse masKed建模(SparK)的方法很通用:可以直接用于任意卷积模型,而无需进行骨干修改。在经典(ResNet)和现代(ConvNeXt)模型上验证了它:在三个下游任务中,它以类似的大幅度(约+1.0%)超越了最先进的对比学习和基于 Transformer 的掩码建模。目标检测和实例分割的改进更加显著(高达+3.5%),验证了所学特征的强大可迁移性。本文还通过在更大模型上观察到更多收益,发现其有利的缩放行为。所有这些证据都揭示了在convnets上进行生成式预训练的有希望的未来。

相关文章

  • Bert笔记

    本文会尽可能详细的介绍BERT的结构,预训练方法细节 一 BERT的结构 BERT的具体结构如下图所示,其只用到了...

  • [Deep-Learning-with-Python]计算机视觉

    包括: 理解卷积神经网络 使用数据增强缓解过拟合 使用预训练卷积网络做特征提取 微调预训练网络模型 可视化卷积网络...

  • Bert基础介绍

    BERT理解 1、预训练模型 BERT是一个预训练的模型,那么什么是预训练呢? 假设已有A训练集,先用A对网络进行...

  • 用tensorflow 做mnist数字识别(卷积神经网络)

    简述 使用卷积神经网络做数字识别; 训练方法;前三部分是卷积和神经网络的构造,最后一部分是tensorflow的会...

  • 稀疏卷积神经网络

    稀疏卷积神经网络 【原创翻译】 摘要 深度神经网络花费了大量的特征和计算复杂度,在图像分类和目标识别方面取得了前所...

  • tensorflow--卷积计算过程

    1、卷积(Convolutional Neural Networks, CNN)计算过程 全连接神经网络对识别和预...

  • NLP领域的基本任务和研究方向

    基础性研究 网络架构 Transformer→BERT→预训练语言模型 优化理论 Lookahead 对抗训练 虚...

  • 目录

    知识图谱 bert 深度学习的相关概念(卷积,池化,剪枝,全连接,归一化),以及各种网络及其变种(AlexNet ...

  • [译]--深度学习卷积神经网络的计算机辅助检测数字乳腺断层合成微

    密歇根大学 2016 摘要 设计了一种深度学习卷积神经网络(DLCNN),用于将在预筛选阶段检测到的微钙化候选物区...

  • TF - 常用的模块

    卷积神经网络设计主要是tensorflow网络层的定义和编写,本部分可能较多的涉及到相关函数的说明。 卷积模块 卷...

网友评论

      本文标题:卷积网络的BERT预训练方法设计:稀疏和分层掩码建模

      本文链接:https://www.haomeiwen.com/subject/qnxacdtx.html