美文网首页
An image is worth 16 x 16 words:

An image is worth 16 x 16 words:

作者: nowherespyfly | 来源:发表于2021-03-14 15:53 被阅读0次

    (可能)是第一次大规模的采用纯transformer做cv任务的文章,验证了transformer在cv领域的有效性,大大的挖坑之作。

    ViT的网络结构其实很简单,就是一个普通的transformer结构,只不过把图像分成了16 x 16个patch,加上位置编码作为序列化数据输入transformer中。但是技术细节比较多,实验也做的非常充分,是一篇需要仔细阅读细节部分的文章。



    实验结果其实很有意思,ViT跟普通的CNN比较性能,利用同样规模的数据集作预训练,结果是不一样的,小规模数据集下,如ImageNet-1K,resnet表现远优于ViT,但是增大数据集规模,ViT的性能增长幅度比resnet更大,当采用最大的JFT数据集时,ViT性能就会超过resnet了,可见之前其性能远没有达到饱和。


    相关文章

      网友评论

          本文标题:An image is worth 16 x 16 words:

          本文链接:https://www.haomeiwen.com/subject/oxgqcltx.html