A Deep Neural Network’s Loss Surface Contains Every Low-dimensional Pattern
概
作者关于Loss Surface的情况做了一个理论分析, 即证明足够大的神经网络能够逼近所有的低维损失patterns.
相关工作
文中多处用到了universal approximators.
主要内容
引理1
在这里插入图片描述定义了universal approximators, 即同一定义域内的任意函数都能用中的元素来逼近. 则是将值域进行了扩展, 而这并不影响其universal approximator的性质.
定理1
在这里插入图片描述证明:
假设神经网络的第一层的权重矩阵为, 偏置向量为, 神经网络剩余的参数为, 记. 则网络的输出为:
个样本点的损失就是
现在假设目标维loss pattern为(应当为连续函数)
我们现在, 希望将网络中的某些参数视作变量, 得以逼近.
令 (这样网络的输出与无关), (这隐含了的假设).
根据universal approximation theorem我们可以使得成为approximator. 相对应的
在这里插入图片描述
定义, 只需要满足引理1中的条件, 就存在, 使得逼近.
定理2
在这里插入图片描述说实话, 这个定理没怎么看懂, 看证明, 这个global minimum似乎指的是的最小值.
证明:
不变, 只令前列为0, 则第一层(未经激活)的输出为, 于是
令, 并假设(?). 假设损失, 可逆且逆函数光滑(这个性质对于损失函数来讲很普遍).
在这个假设下, 我们有
文中说这个也是因为逼近定理, 固定的时候, 这个自然是成立的, 如何能保证对于所有的成立, 我有一个思路.
假设二者的距离(范数)为, 则
所以
且此时.
我比较关心的问题是, 能否选择合适的loss patterns (相当于选择合适的空间) 使得网络在某些性能上比较好(比方防过拟合, 最优性).
网友评论