问题一:为什么神经网络的损失函数用交叉熵而不是均方误差?
答:理想情况下理想情况下,我们希望神经网络能够快速地从错误中学习,并且错误越大,下降速度越快。
但有时候采用均方误差时loss很大,下降速率却很慢。对sigmoid激活函数而言,在输出神经元接近0或1时,梯度几乎为0,如果是错误结果,则无法正常更新参数。同时,交叉熵函数收敛更快。
参考:http://flyrie.top/2018/06/23/LossFunction/
问题二:模型蒸馏的关键soft label的理论依据?
答:作者认为一般的概率输出忽略了不同错误分类间的信息,如:输出[0.9,0.1,0.0001,0.000001,........],虽然正确的是第一类,但是错误输出之间也有数量级的差别,这部分信息应该被充分利用。
补充:teacher net可以是多个不同的net 做融合。
问题三:
网友评论