Multi-Task Learning as a Bargaining Game
Feb 2022
ICML 2022
Aviv Navon, Aviv Shamsian, Idan Achituve, Haggai Maron, Kenji Kawaguchi, Gal Chechik, Ethan Fetaya
https://arxiv.org/abs/2202.01017
https://paperswithcode.com/task/multi-task-learning
https://paperswithcode.com/sota/multi-task-learning-on-cityscapes
https://paperswithcode.com/paper/multi-task-learning-as-a-bargaining-game
https://github.com/avivnavon/nash-mtl
这个代码库里还实现了其它的多任务方法
在多任务学习(MTL)中,训练联合模型以同时对多个任务进行预测。联合训练降低了计算成本,提高了数据效率;然而,由于这些不同任务的梯度可能会冲突,因此训练MTL的联合模型通常会产生比相应的单个任务对应模型更低的性能。缓解此问题的常用方法是使用特定的启发式方法将每个任务的梯度组合到联合更新方向。在本文中,我们建议将梯度组合步骤视为Bargaining游戏,其中任务协商以达成参数更新联合方向的协议。在某些假设下,Bargaining问题有一个独特的解决方案,称为纳什Bargaining解决方案,我们建议将其作为多任务学习的原则方法。我们描述了一种新的MTL优化程序Nash-MTL,并推导了其收敛性的理论保证。经验上,我们表明Nash MTL在不同领域的多个MTL基准上取得了最先进的结果。
1.引言
在许多实际应用中,需要使用有限的计算或数据资源同时解决多个任务。例如,自动驾驶车辆的感知需要车道检测、物体检测和自由空间估计,这些都必须并行实时运行。这通常通过多任务学习(MTL)来解决,其中一个模型在多个学习任务上联合训练(Caruana,1997;Ruder,2017;Crawshaw,2020)。研究还表明,多任务学习在理论(Baxter,2000)和实践(例如,辅助学习,Liu等人,2019a;Achituve等人,2021;Navon等人,2021a)中也能提高泛化能力。
不幸的是,与单任务模型相比,MTL通常会导致性能下降(Standley等人,2020)。这种退化的主要原因是梯度冲突(Yu等人,2020a;Wang等人,2020;Liu等人,2021a)。这些每任务梯度可能具有冲突的方向或较大的幅度差异,其中最大梯度主导更新方向。与由于更好的泛化而提高性能的潜力相比,由于训练不佳而导致的MTL性能下降,对许多真实世界系统产生了重大影响。因此,改进MTL优化算法是一项重要任务,对许多系统具有重要意义。
目前,大多数MTL优化算法(Sener&Koltun,2018;Yu等人,2020a;Liu等人,2021a)遵循通用方案。首先,计算所有任务g1。。。,gK。接下来,使用聚合算法a将这些梯度组合成联合方向,∆=a(g1,…,gK)。最后,使用单个任务优化算法更新模型参数,将梯度替换为∆。针对聚合算法A提出了多种启发式方法。然而,据我们所知,仍然缺少一种原则性、公理化的梯度聚合方法。
在这里,我们将梯度组合步骤视为一种合作谈判游戏(Thomson,1994)。每个任务代表一个玩家,其效用来自其梯度,玩家协商达成一致的方向。这个公式允许我们使用博弈论文献的结果,从公理的角度分析这个问题。在他的开创性论文中,纳什(1953)提出了一种公理化的谈判问题方法,并表明在某些公理下,谈判问题有一个独特的解决方案,称为纳什谈判解决方案。众所周知,这种解决方案是按比例公平的,其中任何替代方案都将具有负的平均相对变化。这种按比例公平的更新使我们能够找到一种适用于所有任务的解决方案,而不受单个大梯度的支配。
基于纳什的结果,我们提出了一种新的MTL优化算法,命名为Nash-MTL,其中使用纳什Bargaining解决方案在每个步骤组合梯度。我们首先描述了MTL的纳什Bargaining解,并导出了一个有效的算法来逼近其值。然后,我们从理论上分析了我们的方法,并在凸和非凸情况下建立了收敛保证。最后,我们通过经验证明,我们的NashMTL方法在四个MTL基准测试上取得了最先进的结果,这些测试涉及从计算机视觉、量子化学到强化学习等各种挑战。为了支持未来的研究和结果的再现性,我们在以下网站公开了我们的源代码:https://github.com/AvivNavon/nash-mtl.
4.相关工作
在多任务学习(MTL)中,一个人在任务间共享信息的同时同时解决了几个学习问题(Caruana,1997;Ruder,2017),通常通过联合隐藏表示(Zhang等人,2014;Dai等人,2016;Pinto&Gupta,2017;Zhao等人,2018;Liu等人,2019b)。文献中的研究对MTL优化过程中的困难提出了几种解释,例如冲突的梯度(Wang等人,2020;Yu等人,2020a),或损失景观中的高原(Schaul等人,2019)。其他研究旨在通过提出新的架构来改善多任务学习(Misra等人,2016;Hashimoto等人,2017;Liu等人,2019b;Chen等人,2020)。我们专注于通过公理化方法对任务的梯度进行加权,该方法与所使用的架构无关。类似的研究建议使用各种方法来衡量任务损失,例如任务的不确定性(Kendall等人,2018年)、梯度的规范(Chen等人,2018)、随机权重(Lin等人,2021)和梯度的相似性(Du等人,2018;Suteu&Guo,2019)。这些方法大多是启发式的,可能具有不稳定的性能(Liu等人,2021a)。最近,一些研究提出了基于多重梯度下降算法(MGDA)的多目标优化MTL方法(Desid´eri´,2012)。这是一种很有吸引力的方法,因为在温和的条件下,可以保证收敛到帕累托稳定点。Sener&Koltun(2018)将多目标问题转化为多任务问题,并建议基于Frank Wolfe算法的任务加权(Jaggi,2013)。Liu等人(2021a)在平均梯度的邻域中搜索使任何任务的最差改进最大化的更新方向。与这些研究不同,我们提出了一种基于Bargaining博弈的MTL方法,该方法可以找到帕累托最优和比例公平的解决方案。
据我们所知,最接近我们方法的工作是Liu等人(2021b)。在那里,作者建议寻找一个公平的梯度方向,其中所有余弦相似性都相等。我们注意到,这个更新方向满足除帕累托最优外的所有纳什公理。因此,与我们的比例公平方法不同,为了公平,它可以选择次优解决方案。
最后,我们注意到纳什Bargaining解决方案有效地应用于各种领域的问题,如通信(Zhang et al.,2008;Leshem&Zehavi,2011;Shi et al.,2018)、经济学(Dagan&Volij,1993)和计算(Grosu et al.,2002),以及一些学习设置,如强化学习(Qiao et al.,2006)、贝叶斯优化(Binois et al.,2020)、,集群(Rezaee等人,2021)、联合学习(Kim,2021)和多武装匪徒(Baek&Farias,2021)
5.分析
我们现在分析我们的方法在凸和非凸情况下的收敛性。由于即使是单任务非凸优化也可能只收敛到一个稳定点,所以我们将证明收敛到帕累托稳定点,即某个梯度的凸组合为零的点。如上所述,我们还假设梯度是独立的,而不是在帕累托稳定点。梯度的独立性是比帕累托平稳性稍强的假设,但需要排除退化边缘情况,例如两个相同的任务。
我们注意到,通过将假设5.1中的局部帕累托最优替换为帕累托平稳性,我们可以证明收敛到局部帕累托最优点。然而,这一假设具有强烈的含义,因为它意味着我们避免任何特定任务的局部最大值和鞍点。由于我们的更新规则是所有任务的下降方向,我们可以合理地假设我们的算法避免了局部最大点。此外,研究表明,一阶方法避免了鞍点(Panageas等人,2019),从而证明了这一更强的假设。然而,我们采取保守的方法,并用较弱的假设陈述我们的结果
7.结论
在这项工作中,我们提出了Nash-MTL,这是一种新的、有原则的多任务学习方法。我们将MTL中的梯度组合步骤构建为一个Bargaining博弈,并使用纳什Bargaining解来找到最优更新方向。我们强调了尺度不变性方法对于多任务学习的重要性,特别是对于具有不同损失尺度和梯度大小的设置。我们提供了纳什MTL的理论收敛分析,表明它分别在凸和非凸设置下收敛到帕累托最优点和帕累托稳定点。最后,我们的实验表明,Nash MTL在多个领域的各种基准上取得了最先进的结果。
网友评论