隐含层权重的初始化方式的对比实验

作者: 林檎果 | 来源:发表于2018-03-21 11:25 被阅读23次

隐含层权重的初始化方式的对比实验
TensorFlow 基础(5)
学习笔记TF026:多层感知机
深度学习最佳实践系列——权重w初始化
Kotlin学习之初探——类的构造和初始化、成员
人工智能 - 多层感知机 MLP [3]
股票学习之路2018-04-12选股方法探索
神经网络
JAVAEE与人工智能实战之--神经网络的结构
BP神经网络流程

全1或全0初始化

全1或全0初始化的训练效果

After 858 Batches (2 Epochs):
Validation Accuracy
   11.260% -- All Zeros
    9.900% -- All Ones
Loss
    2.300  -- All Zeros
  372.644  -- All Ones

全1和全0的方式都不好，因为大家都一样，反向传播算法不知道更新哪一个

Uniform Distribution

Uniform Distribution的训练效果

After 858 Batches (2 Epochs):
Validation Accuracy
   65.340% -- tf.random_uniform [0, 1)
Loss
   64.356  -- tf.random_uniform [0, 1)

设置Uniform Distribution权重的方式

通用的方法是，设置一个0左右的不太小的区间。

一个好的选择起点是从 $ y=\frac 1 {\sqrt{n}} $ 公式选取[−y, y],公式里的n是神经元输入的个数。

y的不同区间值的效果

After 858 Batches (2 Epochs):
Validation Accuracy
   91.000% -- [-1, 1)
   97.220% -- [-0.1, 0.1)
   95.680% -- [-0.01, 0.01)
   94.400% -- [-0.001, 0.001)
Loss
    2.425  -- [-1, 1)
    0.098  -- [-0.1, 0.1)
    0.133  -- [-0.01, 0.01)
    0.190  -- [-0.001, 0.001)

如果设置的太小会有问题

Normal Distribution

Normal Distribution的训练效果

After 858 Batches (2 Epochs):
Validation Accuracy
   96.920% -- Uniform [-0.1, 0.1)
   97.200% -- Normal stddev 0.1
Loss
    0.103  -- Uniform [-0.1, 0.1)
    0.099  -- Normal stddev 0.1

比Uniform Distribution稍微有所提高

Truncated Normal Distribution

Truncated Normal Distribution的训练效果

After 858 Batches (2 Epochs):
Validation Accuracy
   97.020% — Normal
   97.480% -- Truncated Normal
Loss
    0.088  — Normal
    0.034  -- Truncated Normal

模型再大点差别会更明显，因为正态分布有些过大过小的数会影响模型，而截断他就少受影响

结论

一般来说就用Truncated Normal Distribution，效果是最好的

关于我：

linxinzhe，全栈工程师，目前供职于某世界500强银行的金融科技部门（人工智能，区块链）。

GitHub:https://github.com/linxinzhe

欢迎留言讨论，也欢迎关注我~
我也会关注你的哦！

网友评论

本文标题：隐含层权重的初始化方式的对比实验

本文链接：https://www.haomeiwen.com/subject/twybqftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

隐含层权重的初始化方式的对比实验

全1或全0初始化

Uniform Distribution

Normal Distribution

Truncated Normal Distribution

结论

相关文章