美文网首页
多任务学习作为多目标优化

多任务学习作为多目标优化

作者: Valar_Morghulis | 来源:发表于2023-03-05 15:02 被阅读0次

    Multi-Task Learning as Multi-Objective Optimization

    Oct 2018

    NeurIPS 2018

    Ozan Sener, Vladlen Koltun

    [Intel Labs]

    https://arxiv.org/abs/1810.04650

    https://github.com/isl-org/MultiObjectiveOptimization    720 stars

    在多任务学习中,多个任务被联合解决,共享它们之间的归纳偏置。多任务学习本质上是一个多目标问题,因为不同的任务可能会发生冲突,需要进行权衡。一种常见的折衷方案是优化代理目标,使每项任务损失的加权线性组合最小化。然而,此解决方法仅在任务不竞争时有效,这种情况很少发生。在本文中,我们明确地将多任务学习定义为多目标优化,其总体目标是找到帕累托最优解。为此,我们使用基于梯度的多目标优化文献中开发的算法。这些算法不直接适用于大规模学习问题,因为它们随着梯度的维度和任务的数量而扩展得很差。因此,我们提出了多目标损失的上限,并表明它可以有效地优化。我们进一步证明,在现实假设下,优化这个上界会产生帕累托最优解。我们将我们的方法应用于各种多任务深度学习问题,包括数字分类、场景理解(联合语义分割、实例分割和深度估计)和多标签分类。与最近的多任务学习公式或单任务训练相比,我们的方法产生了性能更高的模型。

    1引言

    统计中最令人惊讶的结果之一是斯坦因悖论。Stein(1956)表明,即使Gaussian是独立的,也最好使用所有样本来估计三个或更多高斯随机变量的均值,而不是单独估计。斯坦因悖论是多任务学习(MTL)的早期动机(Caruana,1997),这是一种学习范式,使用来自多个任务的数据,希望获得优于独立学习每个任务的优异表现。MTL的潜在优势超出了斯坦因悖论的直接含义,因为即使是看似无关的现实世界任务,由于产生数据的共享过程,也具有很强的依赖性。例如,尽管自主驾驶和物体操纵看起来不相关,但底层数据受相同的光学、材料财产和动力学定律的支配。这促使在学习系统中使用多个任务作为归纳偏置。

    一个典型的MTL系统提供了输入点的集合和每个点的各种任务的目标集。设置任务间的归纳偏置的一种常见方法是设计一个参数化假设类,该类在任务间共享一些参数。通常,这些参数是通过求解优化问题来学习的,该优化问题最小化了每个任务的经验风险的加权和。然而,线性组合公式只有在存在对所有任务有效的参数集时才是合理的。换言之,只有在任务不竞争的情况下,经验风险加权和的最小化才有效,而这种情况很少发生。目标冲突的MTL需要对任务之间的权衡进行建模,这超出了线性组合所能达到的效果。

    MTL的另一个目标是找到不受任何其他人支配的解决方案。这种解决方案被称为帕累托最优。在本文中,我们将MTL的目标归结为寻找帕累托最优解。

    在给定多个条件下找到帕累托最优解的问题称为多目标优化。存在多种用于多目标优化的算法。一种这样的方法是多重梯度下降算法(MGDA),它使用基于梯度的优化并可证明地收敛到帕累托集合上的一个点(Désidéri,2012)。MGDA非常适合使用深度网络进行多任务学习。它可以使用每个任务的梯度并解决优化问题,以决定共享参数的更新。然而,有两个技术问题阻碍了MGDA的大规模应用。(i) 潜在的优化问题不能优雅地扩展到高维梯度,这在深度网络中自然出现。(ii)该算法需要显式计算每个任务的梯度,这导致向后通过的数量的线性缩放,并将训练时间大致乘以任务的数量。

    在本文中,我们开发了一个基于Frank Wolfe的优化器,可以扩展到高维问题。此外,我们为MGDA优化目标提供了一个上界,并表明它可以在没有明确的任务特定梯度的情况下通过单个反向传递来计算,因此该方法的计算开销可以忽略不计。我们证明,在现实假设下,使用我们的上界可以得到帕累托最优解。其结果是一个精确的算法,用于深度网络的多目标优化,计算开销可以忽略不计。

    我们在三个不同的问题上对所提出的方法进行了实证评估。首先,我们使用MultiMNIST对多位数分类进行了广泛评估(Sabour等人,2017)。其次,我们将多标签分类转换为MTL,并使用CelebA数据集进行实验(Liu等人,2015b)。最后,我们将所提出的方法应用于场景理解;具体而言,我们对Cityscapes数据集执行联合语义分割、实例分割和深度估计(Cordts等人,2016)。我们评估的任务数量从2到40不等。我们的方法明显优于所有基线。

    2相关工作

    多任务学习。

    我们总结了与我们最密切相关的工作,并请感兴趣的读者参考Ruder(2017)和Zhou等人(2011b)的评论,了解更多背景。多任务学习(MTL)通常通过硬或软参数共享进行。在硬参数共享中,参数的子集在任务之间共享,而其他参数是特定于任务的。在软参数共享中,所有参数都是任务特定的,但它们通过贝叶斯先验(Xue等人,2007;Bakker和Heskes,2003)或联合字典(Argyriou等人,2007年;Long和Wang,2015年;Yang和Hospedales,2016年;Ruder,2017年)受到联合约束。继深度MTL在计算机视觉(Bilen和Vedaldi,2016;Misra等人,2016;Rudd等人,2016年;Yang和Hospedales,2016;Kokkinos,2017;Zamir等人,2018)、自然语言处理(Collbert和Weston,2008;Dong等人,2015;Liu等人,2015a;Luong等人,2015年;Hashimoto等人,2017年)、,语音处理(Huang et al.,2013;Seltzer和Droppo,2013;Huang等人,2015),甚至是多模态上看似不相关的领域(Kaiser等人,2017)。

    Baxter(2000)将MTL问题从理论上分析为个体学习者与元算法之间的交互。每个学习者负责一项任务,元算法决定如何更新共享参数。所有上述MTL算法使用加权求和作为元算法。已经探索了超越加权求和的元算法。Li等人(2014)考虑了每个个体学习者基于内核学习并利用多目标优化的情况。Zhang和Yeung(2010)考虑了每个学习者都是线性模型的情况,并使用了任务亲和矩阵。Zhou等人(2011a)和Bagherjeiran等人(2005)使用了任务共享字典的假设,并开发了类似元算法的期望最大化。de Miranda等人(2012)和Zhou等人(2017b)使用群优化。这些方法都不适用于高容量模型(如现代深度网络)的基于梯度的学习。Kendall等人(2018年)和Chen等人(2018)分别提出了基于不确定性和梯度大小的启发式方法,并将其方法应用于卷积神经网络。最近的另一项工作使用多智能体强化学习(Rosenbaum等人,2017)。

    多目标优化。

    多目标优化解决了优化一组可能存在差异的目标的问题。我们建议Miettinen(1998)和Ehrgott(2005)进行该领域的调查。Fliege和Svaiter(2000)、Schäffler等人(2002)和Désidéri(2012)开发的基于梯度的多目标优化与我们的工作特别相关。这些方法使用多目标Karush-Kuhn-Tucker(KKT)条件(Kuhn和Tucker,1951),并找到降低所有目标的下降方向。Peitz和Dellnitz(2018)和Poirion等人(2017)将该方法扩展到随机梯度下降。在机器学习中,这些方法已应用于多智能体学习(Ghosh等人,2013;Pirotta和Restelli,2016;Parisi等人,2014)、内核学习(Li等人,2014年)、顺序决策(Roijers等人,2013)和贝叶斯优化(Shah和Ghahramani,2016;Hernández-Lobato等人,2016)。我们的工作将基于梯度的多目标优化应用于多任务学习。

    5结论

    我们描述了一种多任务学习的方法。我们的方法基于多目标优化。为了将多目标优化应用于MTL,我们描述了一种有效的算法以及特定的近似,该算法产生了几乎没有计算开销的深度MTL算法。我们的实验表明,所得到的算法对于广泛的多任务场景是有效的。

    相关文章

      网友评论

          本文标题:多任务学习作为多目标优化

          本文链接:https://www.haomeiwen.com/subject/gmouldtx.html