为什么需要非线性激活函数
如果使用线性,例如a[1]=z[1],那么隐层就没用了,因为组合起来仍是线性,通常只有在输出层才会使用线性
激活函数的导数
自己也可以简单地求导推导一下以下公式
屏幕快照 2018-02-20 下午11.05.03.png
屏幕快照 2018-02-20 下午11.04.51.png
屏幕快照 2018-02-20 下午11.05.09.png
神经网络地梯度下降法
类比单神经元,只是要算两步,以下列出正向和反向传播的公式
屏幕快照 2018-02-20 下午11.06.41.png
随机初始化
若w初始化为0矩阵,那么不同的特征x(i)对应节点的输出相同,因为wx+b,但b就无所谓了
以下是如何随机初始化w:
屏幕快照 2018-02-20 下午11.07.05.png
网友评论