Zhao G, Peng Y. Semisupervised SAR image change detection based on a siamese variational autoencoder[J]. Information Processing & Management, 2022, 59(1): 102726.
摘要翻译:
在合成孔径雷达(SAR)图像变化检测中,深度学习由于传统无监督技术的差分图像(DIs)容易产生散斑噪声而受到越来越多的关注。然而,现有的深度网络大多不限制隐藏空间的分布特征,这可能会影响特征表示性能。本文提出了一种具有连体结构的变分自编码器(VAE)网络来检测SAR图像的变化。VAE将输入编码为隐藏空间中的概率分布,以获得具有良好表示能力的正则隐层特征。此外,参数和结构相同的子网可以提取出原始图像的空间一致性特征,有利于后续的分类。该方法包括三个主要步骤。首先,根据聚类算法生成的假标签来选择训练样本。然后使用半监督的学习策略来训练所提出的模型,包括无监督的特征学习和有监督的网络微调。最后,在训练后的网络中输入原始数据代替DIs,得到变化检测结果。在四个真实SAR数据集上的实验结果表明了该方法的有效性和鲁棒性。
关于基础模型VAE到现有任务的过渡写法
A variational autoencoder (VAE) (Kingma & Welling, 2014) is a generative model proposed by Kingma et al. in 2014. Compared with the autoencoder (AE) (Hinton & Salakhutdinov, 2006), a VAE reduces the data dimensionality and can describe the potential space using probability. By learning the probability distribution of each potential attribute, a VAE can obtain the continuous space to which a feature belongs, so it has good feature representation capabilities. Since the VAE was proposed, it has been applied to tasks such as image clustering (Prasad, Das, & Bhowmick, 2020), medical image registration (Dalca, Balakrishnan, Guttag, & Sabuncu,2018), and point cloud segmentation (Meng, Gao, Lai, & Manocha, 2019). //To the best of our knowledge, there are relatively few studies on using the VAE for SAR image change detection. In addition, most of the change detection methods based on a deep network framework send the corresponding two samples into the network in series or parallel. Because the bitemporal images are fused as input before being fed into the networks, the networks fail to provide the depth feature information of individual raw images to help classification (Zhang et al., 2020). The siamese structure (Bromley et al., 1993) with the same structure and parameter sharing subnetwork can extract individual image information separately and maintain the spatial consistency of the extracted features, which is beneficial to identify the different information between images.
论文的主要贡献点:
- 本文将VAE网络引入到特征学习的SAR图像变化检测任务中。通过约束空间特征服从特定的分布,保证了隐藏空间的连续性和完整性。
- 设计了一个连体变分自编码器网络,以保证学习的图像特征的空间一致性,有助于识别图像之间变化和不变的信息。
- 半监督学习可以在有限的标记数据的情况下获得良好的分类结果。此外,贪婪的分层训练可以更好地初始化网络参数。
方法浅析
首先对该任务给出简介。
考虑预先配准的SAR图像和,它们分别在不同的时间点 从同一区域捕获。变化检测的目的是确定两幅图像中的每个像素是否发生了变化,这本质上是一个分类问题。通过分类算法生成与和大小相同的二进制映射,其中和分别表示不变的类别和改变的类别。
使用这种传统的方法,当散斑噪声影响时,检测任务的精度会降低。
对于该任务,传统的做法如下图所示:
本文的方法从原始图像中提取特征,并直接生成分类结果,避免了传统方法的缺点。
Preclassification and sample selection
由于FCM在DI分类中没有考虑空间信息,因此结果会受到散斑噪声的严重影响。如果不使用优秀的样本选择策略,训练集将包含许多低质量的样本。因此,需要使用FCM预分类标记来选择一些“高质量”的像素来训练网络。考虑到图像的空间连续性,每个像素标签附近的相同标签的数量应该更大。作者选择一个包含满足下图所示条件的训练集: 其中图中(a)-(c)显示,中心像素的类别与周围大部分像素的类别相同,符合图像的空间连续性,并被选择作为训练样本中心。相比之下,如果一个中心像素类与邻域中的大多数类不同,它可能被认为是噪声如图中的(d)-(f)。
取样步骤如下:
- 计算邻域中标签与中心像素相同的像素数,并将其数字记录为;
- 使用计算了邻域中相同像素数与总像素数之比;
- 如果该比例大于设定的阈值𝛼,则使用该中心对应的原始图像位置作为所选的样本中心。𝛼的值越小或越大都不合适。较小的𝛼很容易导致选择不正确的样本。较大的𝛼值确保了样品的准确性,但会牺牲多样性。本文中的𝛼值为0.75。
Siamese variational autoencoder
该框架由编码层、信息融合层和分类层组成。
给定数据 和 为待检测的SAR图片。表示位置上的灰度值。网络的输入是由两幅图像中对应位置的列矢量,分别记录为和。两个权重和结构相同的子网表示为非线性映射。
编码层的主要功能是通过多层次网络学习bitemporal images
的非线性特征。浅层网络学习了图像的主要特征,深度网络描述了图像的正则分布特征:
The above formula shows that the subnetwork with the same structure and shared parameters will output the image features with the same spatial structure and produce different corresponding responses to the changed samples.
信息融合层将从两幅原始图像中提取的特征合并,得到数据之间的差异,类似于传统方法中的DI生成:。
分类层的目的是分析差异信息,并通过非线性分类器将差异信息映射到属于特定类别的概率:
Subnetwork
该子网是一个深度变分自动编码器。该网络包括一个编码器(即推理模型)和一个解码器(即生成模型),它们分别进行特征学习和图像重建。因为整个网络就是原始的VAE网络的学习,所以这里将不进行赘述。并且作者指出:VAE可以学习特定目标的特征和目标所属的分布。对于变化检测任务,由于相似的目标属于同一类别,因此VAE比AE具有更好的鉴别特征。
Semisupervised learning
在SAR图像变化检测任务中,获取大量的标记数据是非常昂贵的。
在该算法的模型中,作者首先对特征提取器进行了分层训练。作者这里的分层训练和堆叠自编码器有点相似。即:在对前一层进行训练后,在前一层的固定参数下进行下一层的学习。 由图中前两层的输出可以得出前两层的重建损失为: 经过重采样之后的损失则分为两个部分: 依次训练多对未标记的训练样本。训练后,丢弃解码层,保留编码层。 无监督特征提取器训练完成了网络参数的初始化。此外,有监督的网络微调和分类器训练也是至关重要的。在此过程中,将预分类选择的高质量标签数据作为先验信息来指导学习。整个网络采用交叉熵误差反向传播策略对权值进行微调,以实现最优分类。Extracting valuable features from unlabeled data or determining the initial parameters of supervised learning processes in an unsupervised way can help obtain a good classifier with a small number of labels.
通过训练和微调,建立了一个深度连体变分自动编码器网络。将原始图像中每个位置的邻域特征输入到训练后的网络中,并输出像素的类标签。
作者的整个想法很自然。基本来说是对VAE的一种应用。前期对于特征学习的工作相对较多。而在半监督的过程中,重点介绍的是分类层之前的模型使用无监督的样本进行预训练的部分。在预训练完之后,保留encoder部分并增加分类器(使用选择好的质量高的样本)对整个模型进行微调。最终用于所有样本的分类预测。
网友评论