简 介: 在标准 SGD
优化算法中, L2 正则 等效于 Weight decay , 但在自适应梯度下降算法中, 如 Adam
, 这种情况不再成立。 现有流行深度框架对 Adam
的 weight decay
的实现均是错误的, 我们对其做了一个简单的修正, 将 weight decay
和损失函数解耦, 提升了 Adam
的泛化性能。
简 介: 在标准 SGD
优化算法中, L2 正则 等效于 Weight decay , 但在自适应梯度下降算法中, 如 Adam
, 这种情况不再成立。 现有流行深度框架对 Adam
的 weight decay
的实现均是错误的, 我们对其做了一个简单的修正, 将 weight decay
和损失函数解耦, 提升了 Adam
的泛化性能。
本文标题:论文泛读:《Fixing Weight Decay Regula
本文链接:https://www.haomeiwen.com/subject/iwtfkqtx.html
网友评论