2019-12-01

作者: 苏格兰低地弟弟打滴滴 | 来源:发表于2019-12-01 23:57 被阅读0次

如果拿系统输入补足，会不会有点不好解释为什么这么做？我和学弟对激活函数是仿射函数算了好像不行（下图），我们现在考虑把文章中的gradient看成subgradient能不能处理，不过也碰到一些问题。

在约束误差传播算法里 $\boldsymbol{x}_{i}=f_{i}\left(\boldsymbol{w}_{i}, \boldsymbol{x}_{\mathrm{in}(i, 1)}, \cdots, \boldsymbol{x}_{\mathrm{in}\left(i, k_{i}\right)}\right), i=1, \cdots, n$

希望同时有 $\frac{\partial \tau_{i}\left(x_{i}\right)}{\partial x_{i}}=M_{i} f_{i}^{-1}\left(x_{i}\right)--（1）$

$f^{-1}:x_i\rightarrow \left(\boldsymbol{w}_{i}, \boldsymbol{x}_{\mathrm{in}(i, 1)}, \cdots, \boldsymbol{x}_{\mathrm{in}\left(i, k_{i}\right)}\right)$ 低维到高维

和 $\frac{\partial \varphi_{i}\left(w_{i} x_{i n(i, 1)} \cdots x_{i n(i, j)} \cdots x_{i n\left(i, k_{i}\right)}\right)}{\partial\left(\left(w_{i}\right)^{T},\left(x_{i n(i, 1)}\right)^{T} \ldots\left(x_{i n\left(i, k_{i}\right)}\right)^{T}\right)^{T}}=M_{i}^{T} f_{i}\left(\boldsymbol{w}_{i}, x_{\text {in }(i, 1)}, \cdots, x_{\text {in }\left(i, k_{i}\right)}\right)---（2）$

$f: \left(\boldsymbol{w}_{i}, \boldsymbol{x}_{\mathrm{in}(i, 1)}, \cdots, \boldsymbol{x}_{\mathrm{in}\left(i, k_{i}\right)}\right) \rightarrow x_i$ 高维到低维

如果考虑取 f 和LPOM里面一样的形式 $X^{i}=\phi\left(W^{i-1} X^{i-1}\right)$ ，那么这里对应的f应该是以下映射的复合:

$(W^{i-1},X^{i-1})\rightarrow W^{i-1}X^{i-1}\rightarrow \phi(W^{i-1}X^{i-1})$

我们算了下这时候取 $\phi$ 是简单的仿射函数也是不行的

我觉得原因是f 定义域空间 $\left(W^{i-1}, X^{i-1}\right)$ 维度太高了，要让一个映射是这上面的一个gradient很难成立

LPOM里面能work的原因大概是它不是直接从 $\left(W^{i-1}, X^{i-1}\right)$ 所在空间到 $X^{i}=\phi\left(W^{i-1} X^{i-1}\right)$ 所在空间的映射，而是从 $W^{i-1} X^{i-1}$ 所在空间到 $X^{i}=\phi\left(W^{i-1} X^{i-1}\right)$ 所在空间的映射，而这两个的维度一样。

老师现在的意思应该是既然 $\left(W^{i-1}, X^{i-1}\right)$ 和 $X^{i}$ 维度不一致，我们应该用一些方法补足缺失的维度，补足后两个都是跟那个大维度是一样的。我觉得补足之后我们可能还要面临”在大维度下一个映射要成为gradient会比较苛刻“这个困难（毕竟对两个不同的方向i j，构造出来的函数应该要 j 分量求偏 i 导和 i 分量求偏 j 导相同，这里有很多方程）。我们可以往这个方向考虑考虑。

2019-12-01

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读