美文网首页
DRO怎么解

DRO怎么解

作者: 顾劝劝 | 来源:发表于2020-08-27 12:47 被阅读0次
  1. 通过求内层对偶把minimax转换成min
    1.1 gurobi的内点法
    1.2 梯度下降,对梯度用二分法计算
  2. Mirror Descent轮换优化,每次只更新一个p_i

随机梯度

原文:Stochastic Gradient Methods for Distributionally Robust Optimization with f-divergences,NIPS 2016
作者:Hongseok Namkoong, John C. Duchi

用非参不确定集的最坏情况构建新的分布,让更多的权重放在损失大的点上。
每轮迭代的计算成本是\mathcal{O}(\log n),所以可以证明,本文的方法只比SGD和ERM多一点点额外的计算成本。

DRO有三好:

  • 给随机问题交代一个最优解的置信度
  • 相当于经验目标函数加一个方差版本的正则项
  • 很好地折中方差和偏差,比ERM所需快速收敛的条件更普适。

损失函数要

  • 凸 convex
  • 次可微 subdifferentiable

这个minimax的优化问题的内层max是『经验目标函数加一个类似根号方差加小o(1)』的凸近似[1]

不过在大规模数据中,这个minimax的计算量也是很大的。
内层max写成对偶后进行随机梯度下降时,当\lambda趋近于0时方差会爆炸。


  1. Duchi, John, Peter Glynn, and Hongseok Namkoong. "Statistics of robust optimization: A generalized empirical likelihood approach." arXiv preprint arXiv:1610.03425 (2016).

相关文章

网友评论

      本文标题:DRO怎么解

      本文链接:https://www.haomeiwen.com/subject/iwsughtx.html