深度学习调优

作者: 陆号 | 来源:发表于2018-01-25 10:59 被阅读13次

深度学习调优
深度学习参数调优
SpringBoot 深度调优，JVM 调优（低调，深度好文）
2020最新调优、微服务、框架、分布式指南，我的“大厂”不是梦！
iOS性能调优
tensorflow命令行参数
深度学习调优基本问题
深度学习算法调优trick总结
JVM调优
Twitter 工程师谈 JVM 调优

回归问题中用到的L2范数损失，比分类问题中的Softmax分类器用到的损失函数，更难优化。直观想一想这个问题，一个神经网络最后输出离散的判定类别，比训练它去输出一个个和样本结果对应的连续值，要简单多了。
我们前面的博文中提到过，其实Softmax这种分类器，对于输出的打分结果具体值是不怎么在乎的，它只在乎各个类别之间的打分幅度有没有差很多(比如二分类两个类别的得分是1和9，与0.1和0.9)。
再一个，L2范数损失健壮性更差一些，异常点和噪声都可能改变损失函数的幅度，而带来大的梯度偏差。
一般情况下，对于回归问题，我们都会首先考虑，这个问题能否转化成对应的分类问题，比如说我们把输出值划分成不同的区域(切成一些桶)。举个例子，如果我们要预测一部电影的豆瓣打分，我们可以考虑把得分结果分成1-5颗星，而转化成一个分类问题。
如果你觉得问题确实没办法转化成分类问题，那要小心使用L2范数损失：举个例子，在神经网络中，在L2损失函数之前使用dropout是不合适的。

Batch-Normalization.png

关于Batch Normalization:通常在全连接层后（此时输出值可能会很大），激励层前做
 激励层(实际经验)
1 不要用sigmoid!不要用sigmoid!不要用sigmoid!
2 首先试RELU，因为快，但要小心点
3 如果2失效，请用Leaky ReLU或者Maxout
4 某些情况下tanh倒是有不错的结果，但是很少
池化层 / Pooling layer
夹在连续的卷积层中间,压缩数据和参数的量，减小过拟合