Geng Y, Han Z, Zhang C, et al. Uncertainty-aware multi-view representation learning[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2021, 35(9): 7545-7553.
摘要导读
通过探索不同的数据视图之间的潜在互补信息,可以赋予视图表示更强的表达能力。然而,高维特征往往包含噪声,而且,数据的质量通常因不同的样本(或不同的视图)而不同,也就是说,一个视图可能对一个样本提供信息,但却不能对另一个样本提供足够的信息。因此,在无监督设置下集成学习多视图噪声数据是极具挑战的任务。传统的多视图方法要么简单地将每个视图看做同等重要,要么将不同视图的权重调整为固定值,这些做法不足以捕捉多视图数据中的动态噪声。在本论文中,作者设计了一种新的无监督多视图学习方法,成为动态不确定性感知网络((DUA-Nets)。从生成角度估计数据的不确定性,整合来自多个视角的内在信息,获得无噪声的样本表示。在这种不确定性的帮助下,DUA-Nets根据数据质量对单个样本的每个视图进行加权,从而可以充分利用高质量的样本(或视图),同时减轻来自噪声样本(或视图)的影响。
问题定义
MvRL的重点是学习编码多视图内在信息的统一表示。形式化的来说,给定包含V个视图的多视图数据集,多视图是为了为每个样本推断一个潜在表示h。
模型浅析
在实际生活的应用中,数据不可避免的包含了噪声信息,这使得学习数据的表示具有巨大的挑战。为了建模数据中潜在的噪声信息,假设不同的观测样本采样自不同的高斯分布:
由此,每个观测样本可以由下述公式进行建模: 其中均值变量代表样本的本身特性,而则表示该观测样本在视图中的不确定性。基于该假设,本文的目标是编码样本的多个视图到一个统一的表示。将统一的表示看做隐变量,从贝叶斯的角度来说,关于隐变量和多个视图的观测变量的联合分布可以被分解为 其中是关于的先验。
由于通常没有关于潜在表征的先验知识,在实际建模中一般忽略了先验,而只是关注likelihood。likelihood的目的是从统一的表示中重建对每个视图的观测。其基本的假设是,给定潜在变量,没有每个视图的观测是条件独立的,因此其likelihood可以再次分解为: 这意味着可以通过多个神经网络将统一的潜在表示解码到不同的视图。设对应于视图的神经网络为,其重构的高斯分布为: 为捕获在每个观测样本中内在的不确定性,作者将也建模为变量,因此上式表示为:
将样本观测本身作为重构的目标,可以得到下述likelihood: 在实际的操作中,需要最大化如下的对数似然: 因常数项并不影响优化,所以这里直接进行了忽略。方差的大小决定了高斯分布的锐度。方差越大,观测结果的不确定性就越大。一般来说,大的不确定性总是可以减少重构损失,因此在目标函数中引入的第二项作为一个正则化项,以限制不确定性增加过多,避免得到平凡的解。
重构网络被用于使包含来自不同视图的内在信息,使得更易于推断观测样本。通过这种方式,就可以重构每个视图,并且来自不同视图的信息可以很好地编码到中。
与传统的重构损失相反,这里使用潜在表示作为输入,而将重构作为输出。可以被称为decoder-like框架,Reversal Network (R-Net)。因此,对于多视图数据的设定,整体最小的目标函数为:整体而言,一方面,DUA-Nets估计了多视图数据中的不确定性:根据不同样本的质量学习输入相关的不确定性。另一方面,在DUA-Nets中,潜在变量作为输入,旨在以反转的方式重建原始视图。每个视图的不确定性表明了观测中可能存在的噪声,从而可以指导重建过程。
整体的学习过程如下: 通过这种方式对多视图数据中的噪声进行建模并减少其影响,以获得统一的鲁棒表示。
注: 由高斯分布随机进行初始化。
从想法上来说,使用这种对每个样本的每个视图进行不确定性建模的方式,根据数据的质量学习多视图统一的样本表示是比较有价值的。以这种统一的样本表示为输入,也避免了多视图过程融合中可能出现的偏差问题。
网友评论