论文阅读“Multi-VAE: Learning Disenta

作者: 掉了西红柿皮_Kee | 来源:发表于2022-07-05 16:54 被阅读0次

论文阅读“Multi-VAE: Learning Disenta
25组-Deep Residual Learning for I
论文阅读笔记 RPT: Learning Point Set R
DeepMVS: Learning Multi-view Ste
深度学习经典论文Top100 系列之优化-Dropout(1)
下一个购物篮推荐中的层次表达模型
【ICLR2020】通过强化学习和稀疏奖励进行模仿学习
联邦学习论文阅读
【论文阅读】Unsupervised Learning of M
论文阅读：Learning in the Frequency D

Xu J, Ren Y, Tang H, et al. Multi-VAE: Learning disentangled view-common and view-peculiar visual representations for multi-view clustering[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2021: 9234-9243.

摘要导读

作者表示当前的多视图聚类任务经常通过融合多个视图表示或在一个共同的特征空间中处理聚类，这可能会导致各种特征纠缠在一起，特别是在视觉表示中。本文提出了一个基于VAE的多视图聚类框架来学习视图表示，总体来说在生成模型中引入了一个视图共有变量和多个视图特有变量。具体来说，视图共有变量先验近似服从离散的Gumbel Softmax分布，用于抽取多个视图中共享的类簇因子。同时，视图特有变量先验服从连续高斯分布，以学习各视图的特定的视觉特征。通过控制互信息来解耦视图共享表示和视图特有表示，这样离散的类簇信息和连续的视图信息将会被很好的挖掘。

模型浅析

问题声明
给定多视图图像数据集 $\{x_i^1,x_i^2, \cdots,x_i^V\}_{i=1}^N$ ，每个样本包含 $V$ 个视图分别包含不同的视觉信息， $N$ 是数据集的大小。多视图聚类的目的是将综合给定的视图特征降样本分配到 $K$ 个类簇中。
网络结构
整体的动机是通过VAE学习解耦的多视图表示，具体做法是引入相互独立的视图共有变量 $c \in \mathbb{R}^K$ 和视图特有变量 $\{z^v \in \mathbb{R}^{Z_v}\}_{v=1}^V$ 来建模多视图数据。也就是说，整个模型需要考虑如下的生成模型（联合概率）： $p(x^v,z^v,c)\\=p(x^v|z^v,c)p(z^v,c)\\=p(x^v|z^v,c)p(z^v)p(c)$ 其中， $c$ 对应数据的类簇信息，由所有视图共享。 $z^v$ 则是每个视图对应的不同的特征。由此，可以得出， $c$ 和 $z^v$ 的后验分别可以写成 $p(c|\{x^v\})$ 和 $p(c|x^v)$ ，考虑到在VAE中难以计算后验的积分。在模型中使用 $\phi$ 和 $\phi^v$ 参数化 $q_{\phi}(c|\{x^v\})$ 和 $q_{{\phi}^v}(z^v|x^v)$ 来近似真正的后验。

推断过程
在推断过程中，所有视图的嵌入表示被拼接到一起以学习数据的共有信息。随后，通过 $K$ （i.e. $s=\{s_1,s_2, \cdots, s_K\}$ ）个神经元获取视图共有向量 $c$ 。具体地说，为了轻松地表示数据的聚类分配，期望 $c$ 是一个one-hot表示。然而，离散随机变量对于神经网络的参数是不可微的。因此，本文中， $p(c)$ 被表示为相互独立均匀的Gumbel Softmax分布的乘积 $p(c)=p(c_1)p(c_2)\cdots p(c_K)$ ，其中 $p(c_k) \sim Gumbel(0,1 )$ 。因此，近似后验 $q_{\phi}(c|\{x^v\})$ 表示为如下： $q_{\phi}(c|\{x^v\}) = \prod_{k=1}^{K}q_{\phi}(c_k|\{x^v\}$ 。为了让整个过程变得可微，本文引入了Gumbel-Max重参数技巧：
其中， $g_k∼Gumbel(0,1)$ 和 $\tau$ 是温度参数。
不同于类簇信息，模型假设其他的视图特有信息是连续的，每个变量的先验是标准正太分布， $p(z^v)=\mathcal{N}(0,I)$ 。 $q_{\phi^v}(z^v|x^v)$ 被参数化为高斯因子乘积：同理，根据重参数技巧，有如下的等价表示：
生成过程
在生成的过程中，视图共有特征 $c$ 和视图特有特征 $z^v$ 拼接在一起生成对应的样本 $\hat{x}^v$ 。即，给定视图 $v$ 的生成如下：
在整个结构中，参数 $\phi, \{\phi^v\}, \{\theta^v\}$ 是部分共享的。
Multi-VAE-C：
由于 $c$ 是one-hot表示的近似值，因此第 $i$ 个样本的类簇预测可以通过：
Multi-VAE-CZ：
鉴于多个视图的视觉信息可能是类簇信息的补充，分离出的视图表示被缩放到[0,1]，并将它们拼接起来形成一个全局潜在表示 $[c; {z^v}]$ , 然后将其喂入 $K$ -means得到聚类分配。

变分下界
变分推理的目的是最大化观察到的多视图数据的似然函数。作者在后续的推导中假设 $c$ 和 $z^v$ 是相互独立的，这一点我有点不理解。

论文阅读“Multi-VAE: Learning Disenta
Xu J, Ren Y, Tang H, et al. Multi-VAE: Learning disentang...
25组-Deep Residual Learning for I
“Deep Residual Learning for Image Recognition” 阅读笔记论文作者：...
论文阅读笔记 RPT: Learning Point Set R
论文阅读笔记 RPT: Learning Point Set Representation for Siamese...
DeepMVS: Learning Multi-view Ste
title: 'DeepMVS: Learning Multi-view Stereopsis论文阅读'date:...
深度学习经典论文Top100 系列之优化-Dropout(1)
深度学习经典论文Top100(Most Cited Deep Learning Papers) 阅读笔记. 论文集...
下一个购物篮推荐中的层次表达模型
最近准备主讲阅读到了一篇论文“Learning Hierarchical Representation Model...
【ICLR2020】通过强化学习和稀疏奖励进行模仿学习
论文题目：SQIL: Imitation Learning via Reinforcement Learning ...
联邦学习论文阅读
最近阅读了两篇关于联邦学习的论文，《Communication-Efficient Learning of Dee...
【论文阅读】Unsupervised Learning of M
简介这篇文章使用了双目的视频流进行学习图像深度预测和视觉里程计。其中的主要贡献有两点，第一点是将单目视图的深度以...
论文阅读：Learning in the Frequency D
最近真的有点懒漫无目的在家待了半年多了没有开学导致寒假连着暑假但任务还是一个连着一个今天打算简要记录...