一、 模型选择、过拟合和欠拟合
权重衰减、重置⻔有助于捕捉时间序列⾥短期的依赖关系;权重衰减等价于 L2。L2 范数正则化(regularization)。正则化通过为模型损失函数添加惩罚项使学出的模型参数值较小,是应对过拟合的常用手段。
二、梯度消失和梯度爆炸
深度模型有关数值稳定性的典型问题是消失(vanishing)和爆炸(explosion)。
当神经网络的层数较多时,模型的数值稳定性容易变差。
三、更新⻔有助于捕捉时间序列⾥⻓期的依赖关系。
载入数据集、初始化参数
四、LSTM:长短期记忆long short-term memory :
遗忘门:控制上一时间步的记忆细胞
输入门:控制当前时间步的输入
输出门:控制从记忆细胞到隐藏状态
记忆细胞:⼀种特殊的隐藏状态的信息的流动
网友评论