正则化技术的选择和超参数优化：简单神经网络处理表格数据

作者: 酷酷的群 | 来源:发表于2021-08-24 17:10 被阅读0次

论文标题：Regularization is all you Need:Simple Neural Nets can Excel on Tabular Data
论文链接：https://arxiv.org/abs/2106.11189

一、概述

一直以来，传统的机器学习方法，如GBDT，由于其优越的性能，在表格数据应用中占主导地位，而深度学习在一些其他类型的数据（如图像、语音和文本）方面取得了成功。然而在表格数据方面，深度网络模型的效果却始终没能战胜传统机器学习方法。虽然有一些文献提供了一些深度学习方法，并且宣称其战胜了GBDT，然而其他文献也证明了GBDT仍然是最有效的方法。

本文在40个数据集上的广泛实验证明了这些深度模型的方法的确未能战胜GBDT。本文假设解决神经网络在表格数据上的性能问题的关键在于利用深度学习在正则化技术上的最新进展，比如数据增强（data augmentation）、残差块（residual blocks）、模型平均（model averaging）等。本文发现同时应用多种正则化技术时，即使普通的多层感知机也能够达到SOTA的结果。

对于经常混合使用正则化技术的从业者来说，联合应用多个正则化器并不是一种新鲜的做法。不过一个更深层次的问题尚未解决，那就是：在多种可用方法中，在特定的数据集上正则化器的哪个子集具有最大的泛化性能？目前从业者选择正则化技术仅仅是通过简单的试错。在本文中，我们提供了一个方法，能够以13个现代正则化技术及其附属超参数作为候选，为每个数据集寻找MLP正则化器的最佳组合。

本文的成果证明了一个好的正则化神经网络能够在表格数据上战胜最近的一些深度学习方法以及GBDT。本文的主要贡献为：
①证明了为其他类型的数据（如图像、语音和文本）开发的现代正则化技术同样能够提高神经网络模型在表格数据上的性能；
②提出了一个简单而有原则的范式来选择正则化技术的最优子集及其附属超参数（称其为regularization cocktails）；
③证明了regularization cocktails甚至能够使得简单MLP战胜最近的一些深度学习方法以及GBDT，并且在本文设计的公平的大规模实验中表明神经网络战胜了XGBoost。

二、方法

正则化技术

本文涉及的正则化技术以及包括以下几个大类：
①Weight decay：L1，L2，……；
②Data Augmentation：Cut-Out，Mix-Up，Aug-Mix，……；
③Model Averaging：Dropout，snapshot ensembles，……；
④Structural and Linearization：Skip Connection，……；
⑤一些隐式的正则化方法：Batch Normalization，early stopping，……

问题定义

训练集用 $X^{(Train)}$ 和 $y^{(Train)}$ 表示，测试集用 $X^{(Test)}$ 和 $y^{(Test)}$ 表示， $f$ 是一个参数化的函数，比如是一个神经网络，用来近似数据的标签： $\hat{y}=f(X;\theta )$ 。参数 $\theta$ 通过损失函数 $L$ 来训练：

$\underset{\theta }{argmin}\; L(y^{(Train)},f(X^{(Train)},\theta))$

为了能够让模型泛化到测试集，从而使得 $L(y^{(Test)},f(X^{(Test)},\theta))$ 也能够最小，可以采用正则化技术 $\Omega$ 。使用正则化技术 $\Omega$ 的模型 $f$ 表示为 $f(X;\Omega (\theta ;\lambda ))$ ，这里 $\lambda \in \Lambda$ 是 $\Omega$ 的超参数。训练集会被进一步分割成训练集和验证集，验证集用 $X^{(Val)}$ 和 $y^{(Val)}$ 表示。超参数 $\lambda$ 可以通过验证集loss来选择：

$\lambda ^{*}\in \underset{\lambda \in \Lambda }{argmin}\; L(y^{(Val)},f(X^{(Val)},\theta _{\lambda }^{*}))\\ s.t.\; \theta _{\lambda }^{*}\in \underset{\theta }{argmin}\; L(y^{(Train)},f(X^{(Train)};\Omega (\theta ;\lambda )))$

当找到一个最优或者效果较好的超参数设置 $\lambda ^{*}$ 后，会使用这个 $\lambda ^{*}$ 在整个训练集（未拆分的训练集）上重新训练模型。

除了选择正则化的超参数，本文还要解决的问题是多种正则化器的选择。给定一系列 $K$ 个正则化器： $\left \{\Omega ^{(k)}(\cdot ;\lambda ^{(k)})\right \}_{k=1}^{K}:=\left \{\Omega ^{(1)}(\cdot ;\lambda ^{(1)}),\cdots ,\Omega ^{(K)}(\cdot ;\lambda ^{(K)})\right \}$ ，每个优化器的超参数 $\lambda ^{(k)}\in \Lambda ^{(k)},\forall k\in \left \{1,\cdots ,K\right \}$ 。寻找每个优化器的最优超参数的问题定义如下：

$\lambda ^{*}\in \underset{\lambda ^{(1)},\cdots ,\lambda ^{(K)}}{argmin}\; L(y^{(Val)},f(X^{(Val)},\theta _{\lambda }^{*}))\\ s.t.\; \theta _{\lambda }^{*}\in \underset{\theta }{argmin}\; L(y^{(Train)},f(X^{(Train)};\left \{\Omega ^{(k)}(\cdot ;\lambda ^{(k)})\right \}_{k=1}^{K}))$

这个过程的直观解释是，给定在所有正则化器联合应用的情况下训练的最优预测模型参数 $\theta$ ，使用验证集搜索正则化器的最优超参数 $\lambda$ 。对于每个正则化器的超参数 $\lambda ^{(k)}$ ，包括一个条件超参数来控制这个正则化器是否被选择使用，因此最优的正则化器组合可能只是所有的正则化器的一个子集。

搜索空间

本文从前面提到的几大类中的一共13种正则化器中进行选择，下表列出了这些正则化器以及控制它们的19个超参数：

正则化器

超参数优化采用BOHB方法，具体过程见文章附录。

三、实验

本文在40个表格数据集上进行了大规模实验，对比了多个baseline，包括深度学习的方法与GBDT，实验结果如下：

实验

同时也对比了与三个效果最好的baseline的错误率：

对比baseline

为了评估统计显著性，文章分析了40个数据集的分类精度等级。文章使用了基于Wilcoxon显著性检验的等级的临界差分(CD)图，这是在多个数据集上比较分类器的标准度量：

Critical difference diagrams

具体实验设置参看原文。

正则化技术的选择和超参数优化：简单神经网络处理表格数据

一、概述

二、方法

三、实验

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

人工智能