美文网首页
论文整理 Predictive Uncertainty Quan

论文整理 Predictive Uncertainty Quan

作者: WilliamY | 来源:发表于2019-12-20 11:39 被阅读0次
0.背景

论文地址
我正在研究BNN(贝叶斯网络)的工作,而这篇文章提到的几个概念对这一研究,极为重要。这里截取论文的几部分加以整理。

1.probabilistic hypernetwork(超网络)

定义:NN(神经网络,后文同用这一简称)的参数为另一NN产生。
例如,h_L=f(h_{L-1};\theta_L),其中的参数\theta_L为另一网络\theta_L=g(h_{L-1};\psi)的输出。假如我们用两层NN,示意图就是下面这样。


其中和分别是和的概率密度函数。
【不得不说这玩意和Attention很像。】
(主干)网络参数的联合概率密度为:
2.matrix variate normal(矩阵正态分布)

【你看的没错,不是multivariate,是matrix variate。二者差别不大】
\begin{aligned} \mathbf{X} & \sim \mathcal{M} \mathcal{N}(\mathbf{X} ; \mathbf{M}, \mathbf{A}, \mathbf{B}) \\ & \Longleftrightarrow \operatorname{vec}(\mathbf{X}) \sim \mathcal{N}(\operatorname{vec}(\mathbf{X}) ; \operatorname{vec}(\mathbf{M}), \mathbf{B} \otimes \mathbf{A}) \end{aligned}
其中vec表示将某矩阵排成一列(vectorization,向量化),叉乘表示克罗内克积,AB都是向量。
\begin{aligned} p(\boldsymbol{\theta} ; g(\mathbf{x} ; \psi)) &=\prod_{l=1}^{L} \mathcal{M} \mathcal{N}\left(\mathbf{W}_{l} ; g_{l}\left(\mathbf{h}_{l-1} ; \psi_{l}\right)\right) \\ &=\prod_{l=1}^{L} \mathcal{M} \mathcal{N}\left(\mathbf{W}_{l} ; \mathbf{M}_{l}, \operatorname{diag}\left(\mathbf{a}_{l}\right), \operatorname{diag}\left(\mathbf{b}_{l}\right)\right) \end{aligned}
其中\{M_l,a_l,b_l\}就是第l层的参数,它的先验为:
p(\boldsymbol{\theta} ; g(\mathbf{x} ; \psi)) =\prod_{l=1}^{L} \mathcal{M} \mathcal{N}(\mathbf{W}_{l} ;\bf{0,I,I})

3. 损失

D_{\mathrm{KL}}[p(\mathbf{W}|\mathbf{M}, \mathbf{A}, \mathbf{B}) \| \mathcal{M} \mathcal{N}(\mathbf{W} |\mathbf{0}, \mathbf{I}_r, \mathbf{I}_c)]=\frac{1}{2}\left(\sum_{i=1}^{r} a_{i} \sum_{j=1}^{c} b_{j}+\|\mathbf{M}\|_{F}^{2}-r c-c \sum_{i=1}^{r} \log a_{i}-r \sum_{j=1}^{c} \log b_{j}\right)
其中\mathbf{I}_{r} \in \mathbb{R}^{r \times r}, \mathbf{I}_{c} \in \mathbb{R}^{c \times c}是单位矩阵。

4.重参数化

如果 \mathbf{W}\sim \mathcal{MN}(\bf 0,I,I),则
\begin{array}{l}{\mathcal{E} \sim \mathcal{M} \mathcal{N}(\mathbf{0}, \mathbf{I}, \mathbf{I}) \Longleftrightarrow \epsilon_{i j} \sim \mathcal{N}(0,1) \quad\forall i=1, \ldots, r \quad\forall j=1, \ldots, c} \\ {\mathbf{X}=\mathbf{M}+\operatorname{diag}(\mathbf{a})^{\frac{1}{2}} \mathcal{E} \operatorname{diag}(\mathbf{b})^{\frac{1}{2}}}\end{array}

5.算法
image.png

相关文章

网友评论

      本文标题:论文整理 Predictive Uncertainty Quan

      本文链接:https://www.haomeiwen.com/subject/rnomnctx.html