当前深度学习中的多任务优化方法有帮助吗？

作者: Valar_Morghulis | 来源:发表于2023-03-06 07:32 被阅读0次

动手学深度学习(六) 凸优化
优化算法学习
凸优化，梯度下降和优化算法进阶
理论汇总
深度学习中的优化方法
Multi-task Learning 理论(多任务学习)
谷歌新技术：神经优化器搜索，自动找到可解释的优化方法
CNN中常用正则化和优化策略
优化问题记录
深度学习优化方法

Do Current Multi-Task Optimization Methods in Deep Learning Even Help?

Sep 2022

NeurIPS 2022

Derrick Xin*, Behrooz Ghorbani*, Ankush Garg, Orhan Firat, Justin Gilmer

(*Equal contribution)

[Google Research]

https://arxiv.org/abs/2209.11379

https://openreview.net/forum?id=A2Ya5aLtyuG

最近的研究提出了一系列用于深度多任务模型的专用优化算法。人们经常声称，这些多任务优化（MTO）方法产生的解决方案优于通过简单优化任务损失的加权平均而获得的解决方案。在本文中，我们对各种语言和视觉任务进行了大规模实验，以检验这些说法的实证有效性。我们表明，尽管这些算法增加了设计和计算复杂性，MTO方法并没有产生任何超出传统优化方法所能实现的性能改进。我们强调了能够持续改善性能状况的替代策略，并指出了可能导致次优结果的常见训练陷阱。最后，我们概述了可靠评估MTO算法性能的挑战，并讨论了潜在的解决方案。

Recent research has proposed a series of specialized optimization algorithms for deep multi-task models. It is often claimed that these multi-task optimization (MTO) methods yield solutions that are superior to the ones found by simply optimizing a weighted average of the task losses. In this paper, we perform large-scale experiments on a variety of language and vision tasks to examine the empirical validity of these claims. We show that, despite the added design and computational complexity of these algorithms, MTO methods do not yield any performance improvements beyond what is achievable via traditional optimization approaches. We highlight alternative strategies that consistently yield improvements to the performance profile and point out common training pitfalls that might cause suboptimal results. Finally, we outline challenges in reliably evaluating the performance of MTO algorithms and discuss potential solutions.

1 引言

多任务模型在深度学习中无处不在[1，2，17]。这种流行源于这样一个事实，即这些模型可以在不同的任务和模式之间潜在地利用迁移学习。此外，通过减少需要维护的模型数量，多任务模型大大简化了服务用户。

多任务模型有其自身的挑战和缺点。不同的任务经常为了模型容量而相互竞争，从而导致任务干扰问题(task interference)。找到能够在不同任务之间取得正确平衡的训练环境是一项工程密集型工作，对于大多数现实的设置，需要大量的试验和错误。

在过去几年中，文献中提出了大量的多任务优化（MTO）算法，这些算法声称可以缓解任务干扰问题[5，9，20，21，26，30，31]。这些算法通常利用关于训练过程的巧妙直觉，在整个训练过程中动态平衡不同的任务。然而，作为交换，这些算法通常会大大增加训练过程的计算和设计复杂性。

本文的目的不是提供另一种MTO算法。相反，我们对文献中提出的算法进行了大规模的实证研究；我们研究了文献中提出的改进在多大程度上是可重复的，以及这些算法是否真的减少了不同任务之间的损失干扰。因此，我们的研究有助于不断增长的文献，这些文献旨在对机器学习社区最近的算法建议进行现实检验[11，12，23，28]。我们提供了以下观察结果：

• 尽管增加了复杂性，MTO算法无法改善干扰分布，超出任务的简单静态加权所能实现的范围（第4节）。(Despite the added complexity, MTO algorithms fail to improve the interference profile beyond what is achievable by simple static weighting of the tasks)

• 多任务模型的性能对学习率和权重衰减等基本优化参数敏感。基线中这些超参数的调试不足，同时对多任务模型的评估的复杂，可能会造成对性能改进的错误认知（第4节）。

• 在某些情况下，MTO文献中报告的收益是由于实验设计中的缺陷。通常，这些报告的增益随着基线超参数的更好调试而消失。此外，在少数情况下，我们无法再现报告的结果（第4.2节）。

• 最后，我们讨论了对社区的影响以及需要采取的潜在步骤，以标准化多任务模型的评估（第5节）。

2 设置

我们将重点讨论监督学习设置，其中模型参数 ${\boldsymbol{\theta}} \in {\mathbb{R}}^p$ 在 $K$ 个不同的任务上进行训练。我们用 ${\mathcal{L}}_i({\boldsymbol{\theta}})$ 表示与任务 $i$ 相关的损失。

对于某些问题实例，参数空间包含一个全局最优点，该点在所有任务上实现最佳性能。图1（左）提供了一个此类场景的卡通示例。然而，对于大多数现实的设置，不存在全局最优 ${\boldsymbol{\theta}}$ 。在这些情况下，不同的任务相互竞争模型容量。在这些场景中，帕累托最优的概念用于捕捉任务之间的最优权衡：

定义（帕累托最优）。如果对于 $\forall 1 \leq i \leq K$ 都有 ${\mathcal{L}}_i({\boldsymbol{\theta}}) \leq {\mathcal{L}}_i({\boldsymbol{\theta}}’)$ ，并且存在一个任务 $j$ 有 ${\mathcal{L}}_j({\boldsymbol{\theta}}) < {\mathcal{L}}_j({\boldsymbol{\theta}}’)$ ，那么 ${\boldsymbol{\theta}} \in {\mathbb{R}}^p$ 帕累托优于 ${\boldsymbol{\theta}}’$ 。如果没有其它任何点优于 ${\boldsymbol{\theta}}$ ，则 ${\boldsymbol{\theta}}$ 是帕累托最优的。帕累托最优点的集合表示为帕累托前沿(Pareto front)。

图1（中间）提供了两个任务设置的帕累托前沿的卡通表示。帕累托前沿表示在任务之间实现最佳可能权衡的参数集合。从业者可以根据其（隐式或显式）效用函数(utility function)，将目标放在这个权衡曲线上的某个特定点上。帕累托曲线的位置和曲率表示干扰问题的严重程度。理想情况下，人们希望确定尽可能将权衡曲线推向原点的训练协议（图1-右）。

优化多任务模型的传统方法是通过标量化(scalarization)[3]：

$\hat{{\boldsymbol{\theta}}}({\boldsymbol{w}}) = \arg \min_{{\boldsymbol{\theta}}} {\mathcal{L}}({\boldsymbol{\theta}}; {\boldsymbol{w}}) \quad \mbox{where} \quad {\mathcal{L}}({\boldsymbol{\theta}}; {\boldsymbol{w}}) \equiv \sum_{i=1}^K {\boldsymbol{w}}_i {\mathcal{L}}_i({\boldsymbol{\theta}}), \quad {\boldsymbol{w}} > 0, \quad \sum_i {\boldsymbol{w}}_i = 1.$ （1）

这里， ${\boldsymbol{w}}$ 是从业者预先确定的任务权重的固定向量。这种方法的算法和计算简单性使得标量化在实践中非常流行。

标量化有一定的理论保证。可以很容易地证明，问题（1）的任何解决方案都保证是帕累托最优的。此外，当 $\{{\mathcal{L}}_i\}_{i=1}^K$ 是凸的时，存在部分逆：

定理（非正式）。设 ${\boldsymbol{\theta}}^\#$ 为帕累托前沿上的一个点。则存在 ${\boldsymbol{w}}^\#\geq 0$ ，使得具有 ${\boldsymbol{w}}^\#$ 的标量化产生 ${\boldsymbol{\theta}}^\#$ 。附录中提供了准确的陈述及其证明。

这些结果表明，至少对于凸形设置，扫一扫任务权重应该足以充分探索帕累托边界。特别是，在凸设置中，可以证明没有任何算法能够超过已经训练收敛的适当选择的标量化。

上述结果提出了一系列问题。MTO算法的改进来自何处？非凸性是否增加了额外的复杂性，使得标量化不足以追踪帕累托前沿？通过标量化和标准一阶优化方法的组合训练的神经网络是否无法达到帕累托前沿？MTO算法是否实现了更好的性能权衡曲线？在接下来的部分中，我们将针对几个流行的深度学习工作负载，对这些问题进行实证研究。

3 前期工作

在过去的几年中，MTO算法的研究非常活跃。[13，4]认为，找到合适的标量化权重通常代价高昂。为了缓解这一问题，他们提供了旨在自动找到一组合理的任务权重的算法。Sener&Koltun（2019）[26]从多目标优化的角度来处理多任务学习，并提出了多梯度下降算法（MGDA）来有效地找到帕累托最优解。[18，21，30，31]假设不同任务的梯度之间的负交互是干扰问题的重要因素。因此，这些研究提出了各种建议，以突出冲突的梯度，从而改善优化动力学。最后，[5，20]提出了将随机性注入训练流水线的算法，并认为这种增加的随机性通过允许优化轨迹避开较差的局部最小值来改善训练动态。

需要注意的是，MTO算法通常具有大量的计算开销。Chen等人（2020）报告了40项任务基准的训练时间增加了2-5倍[5]。类似地，Kurin等人（2022）观察到，在一些基准上，MTO算法的训练速度比标量化慢35倍[16]。

最近，有许多研究对MTO算法的好处提出了质疑。与我们最接近的此类研究是Kurin等人（2022）[16]，该研究在本文撰写期间出现在Arxiv上。这篇论文认为MTO算法隐式地正则化了模型，并表明通过谨慎的正则化，具有相等权重的标量化可以匹配MTO在各种流行基准上的性能。

相反，我们认为MTO算法在相同的权衡曲线上产生不同的解决方案（参见图2的示例）。在大多数情况下，这些解往往不同于等权重标量化解。当涉及到流行基准测试的性能时，我们认为标量化基线通常调试不足。通过对超参数的额外调整，我们发现大多数优化器都会产生类似的结果。

4 实验

4.1多语言机器翻译

在本节中，我们将研究MTO算法对多语言神经机器翻译（NMT）的影响。特别是，我们专注于translation out of English，因为之前的工作报告了在这个翻译方向上的重大任务干扰[1]。

我们首先检查联合训练的英语→{法语、中文}翻译任务的模型。两个任务的设置允许我们有效地可视化性能权衡曲线。法语和汉语因其语义和句法结构的巨大差异而被特别选择。在这里，我们预计任务之间会有很大程度的干扰——MTO声称相比标量化在任务干扰上有所改善。我们重复实验英语→{法语、德语}和英语→{法语、罗马尼亚语}翻译任务，以确保我们的观察结果在不同的任务设置中具有不同程度的数据不平衡。数据源概述见表1。所有模型均使用（pre-LN）Transformer架构[29]，并使用早停进行了训练。训练详情见附录A。

我们将各种流行MTO算法实现的性能权衡与标量化的帕累托前沿进行了比较。遵循NMT文献的惯例，我们通过比例采样(proportional sampling)实现标量化。这里，一个batch中任务 $i$ 的平均观察数与 ${\boldsymbol{w}}_i$ 成比例。(Here, the average number of observations in the batch corresponding to task i is proportional to wi. ) 在这个设置中，期望的损失等于：

我们将标量化与一系列流行的MTO算法进行了比较：多重梯度下降（MGDA）[26，7，18]，GradNorm[4]，Gradient Surgery（PCGrad）[31]，IMTL[21]和随机损失加权（RLW）[20]。对于GradNorm的 $α$ 超参数，我们执行网格搜索并报告所有非帕累托主导的模型。为了进行apples-to-apples的比较，所有模型都使用相同的批量大小和相同的训练步骤进行了训练。所有模型都使用Adam[14]作为基础优化器。对于所有这些优化器类别，我们网格调试学习率，从5×10−2到5，并报告所有非帕累托主导的模型。训练和超参数详情见附录A。

我们的实验结果概述如图2、4和5所示。蓝色虚线对应于通过proportional sampling获得的帕累托前沿，英语→法语采样率范围为10%至90%。以下是一些观察结果：

MTO算法没有改进 尽管有希望减轻任务之间的干扰，但我们研究中的所有MTO算法都只是在标量化帕累托前沿产生性能权衡点。因此，它们的性能可以通过简单地优化损失的加权平均值来完全复制。为了更好地理解这一现象，在图3中，我们绘制了训练期间PCGrad、MGDA、GradNorm和IMTL的任务权重的演变。我们观察到，对于大多数训练运行，动态分配的任务权重没有显著变化。因此，实际上，这些MTO算法的行为类似于静态加权。

其他语言从英语翻译到法语，和从英语翻译到汉语，都是具有O（10^7）训练示例的高资源任务。在这些实验中，我们观察到训练和测试行为之间的最小的过拟合和极好的一致性。有人可能认为MTO算法具有迁移学习和正则化能力。参考文献[16]有关MTO算法如何执行隐式正则化的建议的概述。为了解决这个问题，我们在两个新的任务设置中重复我们的实验，其中En→Zh任务替换为En→De（中等资源）和En→Ro（低资源）。

图4和图5显示了这些实验的结果。En→{De，Fr}实验与En→{Zh，Fr}非常相似：MTO算法只是在标量化帕累托前沿实现不同的权衡点。En→{Ro，Fr}的结果更有趣。我们仍然观察到训练表现的帕累托前沿；不同的MTO算法在该曲线上实现不同的点。然而，对于泛化性，帕累托边界不再存在。相反，我们观察到了全局最优的模型。有趣的是，这些全局最优解仅通过标量化（采样率接近（0.3，0.7））找到。相比之下，MTO算法找到的解具有几乎相等的任务权重，其泛化性能显著较差。由于该设置中的泛化性能主要由训练期间应用于低资源任务的正则化量驱动，我们的结果对MTO算法有效正则化模型的能力产生了怀疑。

评估挑战

我们的实验表明，模型性能对超参数的选择非常敏感。即使是关于超参数网格的细微选择也会极大地改变结果。例如，通常的做法是在稀疏网格上调整学习率，比如扫 $\eta \in [10^{-3}, 10^{-2}, 10^{-1}]$ 。我们报告的指标在这样的稀疏扫描中受到了多大的影响，仅通过进一步调整这一个超参数，平均可以获得多大的性能？为了回答这个问题，我们模拟运行形式为{k×10−3，k×10–2，k×1−1}的稀疏网格搜索的多个实例，其中1≤k≤9；每一个k的选择都会产生一个超过3个学习率的调整研究。然后，我们测量每3项试验研究的最佳性能的方差，因为k在1到9之间变化。结果如图6（左侧）所示。为了进行比较，我们绘制了使用不同种子多次运行最佳η所产生的性能差异。值得注意的是，由稀疏学习率调整产生的有效标准偏差是从改变固定超参数点的随机种子观察到的标准偏差的6至7倍。结果是，通过重新运行多个种子来估计试验方差不足以得出结论，即当在稀疏网格上对超参数进行采样时，新算法的性能增益是显著的。

文献中对MTO性能进行排名的既定惯例是比较每项任务性能的某种平均值。为了进行基准测试，所使用的具体平均值多少有些随意。然而，在实践中，排序算法的效用函数可能会根据从业者的目标而显著变化。因此，有用的MTO需要对效用函数的变化具有鲁棒性。他们要么需要改进通过采样扫描得出的性能曲线，要么需要在效用函数变化时通过最小的调整在曲线上可靠地找到更好的点。不幸的是，目前只考虑一个（任意）加权方案的做法将使评估偏向于在特定方案上表现良好但对效用函数变化不鲁棒的算法。例如，图6（右）列出了3个MTO，因为每个任务的评估权重不同。作为En→Zh权重是不同的，排名从MGDA是最好的MTO到PCGrad是最好的。这是图2的自然结果，图2显示了不同的MTO在相同的帕累托前沿上通过采样扫描找到不同的点。值得注意的是，没有一种算法比选择好的采样率的采样性能更好。

替代方法

如第3节所述，MTO算法通常会大大增加训练过程的算法和计算复杂性。在我们的实验中，我们观察到，计算每任务梯度的要求（这是许多MTO算法所必需的）导致每秒训练步骤数显著减少（从≈12到≈5）。考虑到这些观察结果，自然会怀疑是否有更有效的方法来使用这些额外的计算预算。图7检查了缩放模型大小如何改变性能权衡行为。我们研究了以{1，2，3，4}的因子增加模型深度。我们最大的模型平均每秒达到5.4个训练步骤，这与使用每个任务梯度训练的模型相当。我们的结果表明，与MTO算法观察到的行为不同，分配更多的计算来缩放模型会产生一致的改进。较大的模型在基本模型的左下角实现帕累托前沿，这对应于所有效用函数的性能改进

4.2文献中的基准

第4.1节的观察结果与最近提出多任务模型MTO的许多有影响力的研究相悖[4，5，9，26，31]。这些论文经常将他们提出的算法的性能与传统的训练策略进行比较，并报告了显著的进步。在本节中，我们尝试在一些受监督的学习基准上重现这些结果。我们在正文中对CityScapes[6]和CelebA[22]数据集进行了比较。4

对于这些实验，我们严格遵循实验设置和[26]中公开的代码。我们谨慎地修改了代码，以解决错误，更新不推荐的库，并加快数据加载器的速度。我们对学习率、体重下降和辍学率进行了广泛的网格搜索。所有车型都使用提前停车。我们的实施细节见附录。

4.3城市景观

CityScapes[6]是一个用于理解城市街道场景的数据集。它是通过来自不同城市的立体视频序列构建的，包含2975张训练图像和500张验证图像。在多任务优化文献中，该数据集通常被定义为两任务问题，一个任务是7类语义分割，另一个任务则是深度估计。在我们的实验中，我们从训练数据中选择595个随机样本作为我们的验证集。该验证集用于调整学习率和体重衰减等超参数（详见附录）。我们使用原始验证集作为测试集。

图8概述了我们的实验结果。与第4.1节类似，我们观察到标量化解决方案形成了推广性能帕累托前沿。对于测试损失（左）和任务特定的泛化度量（右），都可以观察到这个边界。在这两种情况下，MTO解决方案都显著低于标量化。

对于CityScapes模型，分割任务损失比深度估计任务损失大一个数量级。这种严重的损失失衡导致了值得注意的有趣行为的出现。图9检查了不同标量化解决方案的训练/测试行为。与文献[16]中报道的最新结果相反，我们观察到，适当地平衡不同的损失对于实现理想的泛化行为至关重要：在图9中，大多数泛化帕累托前沿由分段任务权重小于0.2的模型填充。

4.3.1芹菜A

CelebA数据集[22]是200K张人脸图像的集合，用40个属性注释。该数据集是MTO研究的流行基准，其中每个属性都被视为单独的二进制分类任务。在第4.1节中，我们确定了MTO算法的许多评估挑战，即精确超参数调整的重要性和通过平均性能比较模型的难度。这些评估挑战对于CelebA来说非常明显。

图10显示了我们的结果概述。我们报告了所有任务的平均性能。我们的结果表明，标量化性能与流行MTO算法的性能相当。这与文献[16]中的最新发现一致。更重要的是，图10显示了谨慎的超参数调整的重要性：即使在提前停止的情况下，模型的最终性能也会发生显著变化，这远远大于MTO算法选择的影响。

这种急性超参数敏感性可能会导致基线超参数调整不足，从而产生显著性能提高的错觉。我们怀疑，这些评估挑战在我们在文献中观察到的MTO算法的效果和排名的重大分歧中发挥了突出作用。表3概述了文献中的结果。正如表中所示，不同的论文报告了相同算法的不同性能。报告的统计数据的很大一部分与我们在验证数据集上观察到的数量相似。这是因为CelebA上的验证性能趋于嘈杂。如果只报告验证性能，提前停止和高评估频率的组合可以人为地提高分数。在图10的左侧和右侧可以清楚地看到这种人为的分数提升。

5结论

在本文中，我们提出了一项大规模的实证研究，考察了多任务优化方法的效果。通常假设这些算法增强了多任务模型的优化动态，并产生了无法通过标量化实现的理想解决方案。我们的结果表明恰恰相反。在各种语言和视觉任务中，我们发现，具有适当权重的标量化可以匹配MTO算法的优化和泛化行为。因此，实际上，标量化解决方案形成MTO解决方案的超集。我们的实验结果表明，有效探索标量化解集可能是提高模型性能的更可靠和有效的策略（见图5）。

我们的观察表明，多任务模型的最终性能对训练超参数的选择高度敏感。通常，在选择超参数网格时，与细微设计决策相关的效果大小比MTO效果大小大几个数量级（见图10）。因此，研究人员可以通过简单地调整竞争基线，在不知不觉中产生显著性能提升的错觉。不同的研究报告了同一数据集算法对的显著不同的数字（表3），这一事实表明这一现象在本文献中很普遍。

局限性和未来研究

我们的结果表明，通过探索标量化解空间，可以获得与许多MTO算法相当（或更好）的性能。然而，我们用于计算标量化帕累托边界的网格搜索方法在计算上是禁止的。检查有效搜索该解决方案空间的策略（如[10，15]）是一个富有成效的未来研究方向。

在论文中，我们指出了关于错误评估和基线调整不足的担忧。缓解这些问题的自然解决方案是采用通用任务框架（CTF）[8，19]来可靠地识别和衡量多任务优化中的算法改进。随着创建了一个具有适当验证/测试划分的常用竞争性基准，随着后续论文逐渐提高性能，基线自然会变得更强大，这比当前由作者自己重新运行基线的实践更具说服力。我们将这种管道的开发推迟到未来的工作中。

最后，为了使讨论易于理解，我们将分析重点放在监督学习基准上。对于强化学习和自我监督学习设置，同样的行为是否适用仍然是一个悬而未决的问题

NMT训练设置

在本附录中，我们提供了第4.1节实验设置的全部细节。所有型号均采用前置LN编码器-解码器-转换器架构。用于本节大部分实验的基础模型具有3个编码器层和3个解码器层。请注意，我们有意选择了一个小模型，以加剧任务之间的干扰，并使我们的实验设置更有利于MTO算法。根据NMT文献惯例，我们的模型使用0.1标记平滑和0.1丢弃[27]对前馈和注意力层进行训练。我们的模型使用64K大小的句子片段词汇表。表4提供了体系结构细节

使用Adam优化器[14]训练模型，固定批量大小为1024。恩→{Zh，Fr}模型被训练530038步，而其余模型（由于较小的训练数据大小）被训练397529步。对于所有跑步，我们使用40K步的线性热身，然后使用以下形式的学习率计划

对于每个模型运行，我们扫描网格中的η｛0.05，0.1，0.5，1.0，2.5，5.0｝。通常，η=0.5产生最佳性能，η=5.0发散。对于采样实验，我们扫描En的速率→网格{i/10}9i＝1中的Fr。这将自动确定其他语言对的速率。因此，为了导出每个标量化前沿，我们总共训练了54个模型。

我们研究的一些MTO算法具有特定于算法的超参数。特别是，RLW[20]要求指定任务权重分布，GradNorm[4]要求指定参数α。对于RLW，我们检查了高斯分布和狄利克雷分布，并在图中分别给出了结果。对于GradNorm，我们在网格{0.25，0.5，0.75，1.0，1.25，1.5}中扫描α，并呈现所有非帕累托主导的模型。

在检查泛化性能时（图2、图4和图5的左侧），我们使用提前停止：我们每5000步评估一次模型，并使用两个任务的平均验证损失最小的步骤。对于En→{Zh，Fr}和En→{De，Fr}模型，通常情况下，最后一步是最佳步骤。因为这样的提前停止不会显著改变画面。对于En→{Ro，Fr}，性能统计数据随着提前停止而显著变化，但总体质量状况保持不变。对于训练表现（图2、图4和图5的右侧），我们报告最后一步训练统计数据。

B其他结果

在本附录部分中，我们为第4.1节中训练的NMT模型提供了额外的性能比较。

为了避免伪影和复杂性解码，在正文中，我们使用交叉熵损失作为第4.1节中模型的主要评估指标。为了完成这幅图，图14检查了生成的翻译的质量（通过（Sacre-）BLEU评分[24，25]衡量）。所有平移均通过波束搜索生成，波束大小为4。注意，为了计算的可处理性，我们没有优化每个模型的解码算法超参数。因此，性能权衡边界更加嘈杂

C愿景基准

我们分析了用于多任务优化的三个主要视觉基准的结果，即multi-MNIST[26]、CelebA[22]和CityScapes[6]。Multi-MNIST是一个双任务数据集，它使用MNIST的手写数字，但将右数字和左数字重叠在一起。CelebA是一个名人脸的数据集，它是一个40任务分类问题；每个任务预测面部的不同属性。最后，CityScapes是一个用于理解城市街道场景的数据集。在我们的设置中，这是一个两个任务的问题，一个任务是7类语义分割，另一个任务则是深度估计。

我们要感谢Lin等人（2021）[20]和Sener等人（2018年）[26]公开发布他们的代码。我们的CelebA和Multi-MNIST实验大量使用Sener等人的代码，CityScapes实验大量利用Lin等人的代码，通过Tensorflow数据集库加速数据加载器，并通过划分训练集为Multi-MNIST创建验证集。我们的Multi-MNIST验证集是12000张图像，而我们的训练集是48000张图像。我们使用原始的MNIST测试集作为测试集，但转换为多任务设置。对于CityScapes，我们主要更改了数据加载器，使其将图像预加载到内存中，为验证集添加了统计跟踪，并集成了其他优化器。

C.1超参数和实验细节

多MNIST

对于所有优化器，我们搜索学习率η∈[0.001，0.005，0.01，0.05，0.1，0.5，1.0，5.0]和辍学率γ∈[0.1，0.2，0.3，0.4，0.5]的所有组合。具体来说，对于GradNorm，我们还搜索α∈[0.5，1.0，1.5，2.0]。我们的学习速率遵循每30个时期乘系数为0.85的分步调度器。为了创建数据集，我们遵循Sener等人（2018）中概述的步骤，将两个随机数字叠加在一起，一个位于左上方，另一个位于右下方。然后我们将图像大小调整为28×28。我们使用批量大小为256和动量为0.8的SGD。

CelebA公司

类似地，我们对CelebA的超参数搜索包括学习率η∈[0.001，0.0005，0.001，0.005，0.01，0.05，0.1，0.5，1.0]和权重衰减λ∈[0，10−5，5×10−5、10−4，5×1−4，10−3，5×3−3]的所有组合。对于GradNorm，我们通过α∈[0.5，1.0，1.5，2.0]进行搜索。我们的学习率计划与Multi-MNIST的相同，我们使用的批量大小为256。对于CelebA，我们也使用动量为0.8的SGD。该模型遵循Sener等人（2018）中详述的模型。

城市景观

这里我们的超参数搜索实现了一些稍微不同的功能。我们搜索学习率η∈[10−5，10−4.5，10−4，10−3.5，10−3，10−2.5，10−2]和权重衰减λ∈[0，10−6，10−5.5，10−5，10−4.5，10−4，10−3.5，10−3，10−2.5，10−2]的所有组合。对于GradNorm，我们搜索α∈[0.5，1.0，1.5，2.0]。我们对所有优化器使用64的批量大小。我们将2975张图像的训练数据集拆分为595张验证集，其余的是我们的实际训练集，我们使用500张图像的原始验证集作为测试集。所有图像的大小都调整为128×256，我们使用Adam[14]作为基本优化器。对于模型，我们使用使用ResNet-50作为共享编码器的架构，详见Lin等人（2021）[20]。

C.2其他比较

我们为Cityscapes数据集提供了第4.2节中的其他指标。结果如图15所示。我们为分割计算mIOU，为深度估计计算绝对误差。所有模型都经过了验证数据的早期停止训练。实验结果与我们在第4.1节和第4.2节中的发现紧密一致。

在图16中，我们还展示了Multi-Mnist数据集的结果，其结果也与我们之前的发现一致。我们在图16中看到，MTO算法在这个基准测试上的性能也没有超过标量化。

D定理陈述和证明

在第2节中，我们简要讨论了标量化的理论保证。在本附录部分中，我们将明确这些陈述。定理陈述及其证明与[3]第4.7节中的讨论密切相关。

E计算资源

对于NMT实验，我们总共训练了589个模型。每个实验都在谷歌云平台v3 TPU上训练12-28小时。对于视觉基准，我们总共为CityScapes训练了1960个模型，为CelebA训练了1008个模型，并为Multi-Mnist训练了720个模型。每个人都在Nvidia A100 GPU上训练。

动手学深度学习(六) 凸优化
优化与深度学习优化与估计尽管优化方法可以最小化深度学习中的损失函数值，但本质上优化方法达到的目标与深度学习的目...
优化算法学习
凸优化尽管优化方法可以最小化深度学习中的损失函数值，但本质上优化方法达到的目标与深度学习的目标并不相同。优化方...
凸优化，梯度下降和优化算法进阶
1. 凸优化优化方法目标：训练集损失函数值深度学习目标：测试集损失函数值（泛化性） 1.1 优化在深度学习中的挑...
理论汇总
1 多任务学习（1）多任务学习在推荐算法中的应用 2 attention机制（1）Attention机制在深度...
深度学习中的优化方法
相关部分有手写笔记（见GoodNotes) 复习网址这个写的一级棒。这里对自己的复习做一个整理。指数加权平均这...
Multi-task Learning 理论(多任务学习)
一. 多任务学习理论 1.1 多任务学习的定义如果有个任务（传统的深度学习方法旨在使用一种特定模型仅解决一项任务...
谷歌新技术：神经优化器搜索，自动找到可解释的优化方法
如今，深度学习模型已经部署在众多谷歌产品中，如搜索、翻译和照片等。而在训练深度学习模型时，优化方法的选择至关重要。...
CNN中常用正则化和优化策略
参考：一文概览深度学习中的五大正则化方法和七大优化策略
优化问题记录
优化问题可选解： optimizer优化算法总结 - CSDN博客深度学习最全优化方法总结比较（SGD，Adag...
深度学习优化方法
tensorflow 中常见优化器对比：http://blog.csdn.net/u012759136/artic...