A Deep Neural Network’s Loss Surface Contains Every Low-dimensional Pattern
概
作者关于Loss Surface的情况做了一个理论分析, 即证明足够大的神经网络能够逼近所有的低维损失patterns.
相关工作
文中多处用到了universal approximators.
主要内容
引理1
定义了universal approximators, 即同一定义域内的任意函数
都能用
中的元素来逼近.
则是将值域进行了扩展, 而这并不影响其universal approximator的性质.
定理1

证明:
假设神经网络的第一层的权重矩阵为, 偏置向量为
, 神经网络剩余的参数为
, 记
. 则网络的输出为:
个样本点的损失就是
现在假设目标维loss pattern为(应当为连续函数)
我们现在, 希望将网络中的某些参数视作变量, 得以逼近
.
令 (这样网络的输出与
无关),
(这隐含了
的假设).

根据universal approximation theorem我们可以使得成为approximator. 相对应的
定义, 只需要
满足引理1中的条件, 就存在
, 使得
逼近
.
定理2

说实话, 这个定理没怎么看懂, 看证明, 这个global minimum似乎指的是的最小值.
证明:
不变,
只令前
列为0, 则第一层(未经激活)的输出为
, 于是

令, 并假设
(?). 假设损失
, 可逆且逆函数光滑(这个性质对于损失函数来讲很普遍).
在这个假设下, 我们有
文中说这个也是因为逼近定理, 固定的时候, 这个自然是成立的, 如何能保证对于所有的
成立, 我有一个思路.
假设二者的距离(范数)为
, 则

所以
且此时.
我比较关心的问题是, 能否选择合适的loss patterns (相当于选择合适的空间) 使得网络在某些性能上比较好(比方防过拟合, 最优性).
网友评论