Wang Q, Ding Z, Tao Z, et al. Partial multi-view clustering via consistent GAN[C]//2018 IEEE International Conference on Data Mining (ICDM). IEEE, 2018: 1290-1295.
关键词
不完整多视图聚类
一致的对抗生成网络
编码多视图common表示
推断缺失的视图
本文主要提出了一个新的深度生成模型--consistent GAN,主要包含两个encoders,两个GANs和一个clustering layer。
模型简记
给定包含两个视图的数据。该数据可以被分为两个部分,成对的数据表示对于-th样本而言,两个视图的表示是完整的;非成对数据表示仅包含两个视图的其中之一。和分别表示视图1和视图2缺失或生成的数据。
该网络主要包含7个子组件:
- 堆叠的全连接编码器
该部分主要用于学习原始数据到低维空间的映射:, 。该网络通过共享参数达到学习common信息的效果。 - 生成器(解码器)
该部分用于通过和重构原始的输入。网络结构与编码器部分对称,但是在生成中,作者使用的是二对一的模式,即:使用两个视图的中间表示和通过生成视图1的重构表示,因此可以对应两项和。对于视图2的生成也是同理。 - 辨别器
其值域为。每个辨别器包含3层堆叠的全连接层,用于辨别生成样本和。单独来说,主要用于识别是生成样本,而是真实样本。然后使用该结构反调生成网络中的参数,直到辨别器没办法区分生成样本和真实样本。 - 深度嵌入聚类层
详见DEC。
目标函数
-
Total Loss
包含重构误差,cycleGAN损失以及聚类损失:
-
AE Loss
其实就是重构误差:
-
Cycle GAN Loss
表示将视图1的样本映射到视图2的数据分布--使用视图1的数据去生成对应视图2的数据。
该损失主要针对的是非成对数据的生成,主要运用于图像的风格迁移。
其主要目的是使用一个分布去生成另一个。假设两个视图所对应的数据分布为。使用
接着使用辨别器和去识别生成样本和真实样本。
因此,cycle GAN的损失可以形式化为:
其中,GAN的loss为: 生成样本和原始样本的一致性损失为:
下面给出一点例子的分析:
- KL Clustering Loss
该损失主要是对聚类分配的调整和对视图表示的优化。
对于来自多视图的表示,使用了一个共享的隐含空间来表示: 并在该common空间中计算聚类损失。聚类损失的构造这里就不再赘述。
巧妙的利用了cycle GAN对unpair data的生成能力来解决缺失视图的生成工作。
网友评论