1. 为毛标准正态分布的初始化方法不太好?
大概就是这么回事2. 一种解决方法:
改变w的初始化方式,减小正态分布中的标准差,如,根据输入张量的长度n,把标准差改为1/√n。
其实就是进一步收紧w的分布3. 一种缓解的方法:S型函数取tanh函数可能会比sigmoid好。(只是针对中间层和输出层)
直观来看:sigmoid函数输出恒正的值,加权求和后更容易落到饱和区,而tanh输出-1~1的值,有正有负则有利与抵消,落到0附近的概率更大一些。
就是这个意思4. 另一种解决方法:干脆不用S型激活函数了,用ReLu这种没有饱和区的激活函数。
美滋滋
网友评论