DEEP DOUBLE DESCENT: WHERE BIGGE

作者: 馒头and花卷 | 来源:发表于2020-04-09 22:31 被阅读0次

Nakkiran P, Kaplun G, Bansal Y, et al. Deep Double Descent: Where Bigger Models and More Data Hurt[J]. arXiv: Learning, 2019.

@article{nakkiran2019deep,
title={Deep Double Descent: Where Bigger Models and More Data Hurt},
author={Nakkiran, Preetum and Kaplun, Gal and Bansal, Yamini and Yang, Tristan and Barak, Boaz and Sutskever, Ilya},
journal={arXiv: Learning},
year={2019}}

概

本文介绍了深度学习中的二次下降(double descent)现象, 利用实验剖析其可能性.

主要内容

在这里插入图片描述

注意到, 在其他条件固定的情况下, 当网络的性能增加(这里指的是ResNet18的参数个数)时, 会出现一中损失率先下降在上升至一个peak再下降的过程.

而右图则向我们展示了, epochs并非越多越好, 如果我们能够即时停止训练, 很有可能就能避免二次下降的现象.

Effective Model Complexity(EMC)

在训练过程 $\mathcal{T}$ , 关于数据分布 $\mathcal{D}$ 与参数 $\epsilon$ 下, Effective Model Complexity(EMC)定义为:
$\mathrm{EMC}_{\mathcal{D}, \epsilon} (\mathcal{T}) := \max \{n | \mathbb{E}_{S \sim \mathcal{D}^n} [\mathrm{Error}_S(\mathcal{T}(S))] \le \epsilon\},$
其中 $\mathrm{Error}_S(M)$ 为模型 $M$ 在训练样本 $S$ 上的平均误差.

作者认为, 一个模型 $M$ , 训练样本为 $n$ , $\mathrm{EMC}$ 比 $n$ 足够小, 或者足够大的时候, 提升 $\mathrm{EMC}$ (即提升模型的性能) 是能够降低测试误差(test error)的, 但是, 在 $n$ 的附近 $(n-\delta_1,n+\delta_2)$ 时候, 模型的变化, 既有可能使得模型变好, 也有可能使得模型便坏.