- 通过求内层对偶把minimax转换成min
1.1 gurobi的内点法
1.2 梯度下降,对梯度用二分法计算 - Mirror Descent轮换优化,每次只更新一个
随机梯度
原文:Stochastic Gradient Methods for Distributionally Robust Optimization with f-divergences,NIPS 2016
作者:Hongseok Namkoong, John C. Duchi
用非参不确定集的最坏情况构建新的分布,让更多的权重放在损失大的点上。
每轮迭代的计算成本是,所以可以证明,本文的方法只比SGD和ERM多一点点额外的计算成本。
DRO有三好:
- 给随机问题交代一个最优解的置信度
- 相当于经验目标函数加一个方差版本的正则项
- 很好地折中方差和偏差,比ERM所需快速收敛的条件更普适。
损失函数要
- 凸 convex
- 次可微 subdifferentiable
这个minimax的优化问题的内层max是『经验目标函数加一个类似根号方差加小o(1)』的凸近似[1]。
不过在大规模数据中,这个minimax的计算量也是很大的。
内层max写成对偶后进行随机梯度下降时,当趋近于0时方差会爆炸。
-
Duchi, John, Peter Glynn, and Hongseok Namkoong. "Statistics of robust optimization: A generalized empirical likelihood approach." arXiv preprint arXiv:1610.03425 (2016). ↩
网友评论