文章提出,在小样本数据下,基于梯度的优化算法失败的原因:
1、梯度优化算法无法在几步之内完成优化,特别是非凸问题,各种超参的选取无法保证收敛的速度。
2、不同任务随机初始化会影响任务收敛到好的解上。尽管迁移学习能缓解这个问题,但新数据与原始数据偏差较大时,迁移学习的性能就会大大降低。
LSTM内部的更新非常类似于梯度下降的更新,因此利用LSTM的结构训练一个meta-learner模型,用于学习另一个神经网络的参数,既学习优化参数规则,也学习权重初始化。
文章提出,在小样本数据下,基于梯度的优化算法失败的原因:
1、梯度优化算法无法在几步之内完成优化,特别是非凸问题,各种超参的选取无法保证收敛的速度。
2、不同任务随机初始化会影响任务收敛到好的解上。尽管迁移学习能缓解这个问题,但新数据与原始数据偏差较大时,迁移学习的性能就会大大降低。
LSTM内部的更新非常类似于梯度下降的更新,因此利用LSTM的结构训练一个meta-learner模型,用于学习另一个神经网络的参数,既学习优化参数规则,也学习权重初始化。
本文标题:OPTIMIZATION AS A MODEL FOR FEW-
本文链接:https://www.haomeiwen.com/subject/rgjqmqtx.html
网友评论