神经元
神经网络的基本模型是神经元,神经元的基本模型就是数学中的乘、加运算:

神经网络

更进一步地,过激活函数以提高表现力的神经元模型:
常用的激活函数有:
- relu
- sigmoid
- tanh
损失函数loss
计算得到的预测值与已知答案
的差距:
- 均方误差MSE
- 自定义损失函数:根据问题的实际情况
- 交叉熵CE(Cross Entropy)
反向传播训练中,以减小loss值为优化目标,有梯度下降,momentum优化器,adam优化器等优化方法。
学习率
决定每次参数更新的幅度。在训练过程中,参数的更新向着损失函数梯度下降的方向。参数更新的公式为:
- 指数衰减学习率:
其中,为学习率初始值(如0.1),
为学习率衰减率(如0.99),
记录了当前训练轮数,
表示喂入多少轮
后,更新一次学习率(一般设为:
)。
滑动平均
记录一段时间内模型中所有参数和
各自的平均值。利用滑动平均值可以增强模型的泛化能力。计算公式:
其中,,
。
表示滑动平均衰减率,一般会赋接近1的值。
正则化
在损失函数中给每个参数加上权重,引入模型复杂度指标,从而抑制模型噪声,减小过拟合:
其中,第一项是预测结果与标准答案之前的差距(如交叉熵、均方误差);第二项是正则化计算结果。
网友评论