美文网首页
2019-12-01

2019-12-01

作者: 苏格兰低地弟弟打滴滴 | 来源:发表于2019-12-01 23:57 被阅读0次

    如果拿系统输入补足,会不会有点不好解释为什么这么做?我和学弟对激活函数是仿射函数算了好像不行(下图),我们现在考虑把文章中的gradient看成subgradient能不能处理,不过也碰到一些问题。

    在约束误差传播算法里\boldsymbol{x}_{i}=f_{i}\left(\boldsymbol{w}_{i}, \boldsymbol{x}_{\mathrm{in}(i, 1)}, \cdots, \boldsymbol{x}_{\mathrm{in}\left(i, k_{i}\right)}\right), i=1, \cdots, n

    希望同时有\frac{\partial \tau_{i}\left(x_{i}\right)}{\partial x_{i}}=M_{i} f_{i}^{-1}\left(x_{i}\right)--(1)  

    f^{-1}:x_i\rightarrow \left(\boldsymbol{w}_{i}, \boldsymbol{x}_{\mathrm{in}(i, 1)}, \cdots, \boldsymbol{x}_{\mathrm{in}\left(i, k_{i}\right)}\right) 低维到高维

    \frac{\partial \varphi_{i}\left(w_{i} x_{i n(i, 1)} \cdots x_{i n(i, j)} \cdots x_{i n\left(i, k_{i}\right)}\right)}{\partial\left(\left(w_{i}\right)^{T},\left(x_{i n(i, 1)}\right)^{T} \ldots\left(x_{i n\left(i, k_{i}\right)}\right)^{T}\right)^{T}}=M_{i}^{T} f_{i}\left(\boldsymbol{w}_{i}, x_{\text {in }(i, 1)}, \cdots, x_{\text {in }\left(i, k_{i}\right)}\right)---(2)

    f: \left(\boldsymbol{w}_{i}, \boldsymbol{x}_{\mathrm{in}(i, 1)}, \cdots, \boldsymbol{x}_{\mathrm{in}\left(i, k_{i}\right)}\right) \rightarrow x_i高维到低维

    如果考虑取 f 和LPOM里面一样的形式X^{i}=\phi\left(W^{i-1} X^{i-1}\right),那么这里对应的f应该是以下映射的复合:

    (W^{i-1},X^{i-1})\rightarrow W^{i-1}X^{i-1}\rightarrow \phi(W^{i-1}X^{i-1}) 

    我们算了下这时候取\phi是简单的仿射函数也是不行的

    我觉得原因是f 定义域空间\left(W^{i-1}, X^{i-1}\right)维度太高了,要让一个映射是这上面的一个gradient很难成立

    LPOM里面能work的原因大概是它不是直接从\left(W^{i-1}, X^{i-1}\right)所在空间到X^{i}=\phi\left(W^{i-1} X^{i-1}\right)所在空间的映射,而是从W^{i-1} X^{i-1}所在空间到X^{i}=\phi\left(W^{i-1} X^{i-1}\right)所在空间的映射,而这两个的维度一样。

    老师现在的意思应该是既然\left(W^{i-1}, X^{i-1}\right)X^{i}维度不一致,我们应该用一些方法补足缺失的维度,补足后两个都是跟那个大维度是一样的。我觉得补足之后我们可能还要面临”在大维度下一个映射要成为gradient会比较苛刻“这个困难(毕竟对两个不同的方向i j,构造出来的函数应该要 j 分量求偏 i 导和 i 分量求偏 j 导相同,这里有很多方程)。我们可以往这个方向考虑考虑。

    相关文章

      网友评论

          本文标题:2019-12-01

          本文链接:https://www.haomeiwen.com/subject/nfqzwctx.html