本文是ECCV2018年一篇oral,提出了一个新的loss函数Contextual Loss应用在图像翻译领域。这个loss与其他loss相比最大好处就是图像不用对齐,解决了很多训练样本不足的问题,并扩大了图像翻译的应用领域。
图像翻译,风格转换和低水平的超分等领域目前已存的各种loss都是对齐型的,比如最常用的L1和L2 loss,还有perceptual loss都是对齐之后针对单个像素的处理;另外风格转换中有gram loss全局处理,保留纹理特性;另外对于纹理特征保留较好的就是GAN的对抗损失。这些loss对于某些任务(去噪,风格转换等)是有效的,因为这些任务需要训练图像和目标像素对齐,但是对于超分辨、语义样式转移,单图像动画,木偶控制和不成对域转换之类的任务效果就很一般,存在着各种问题。因此,作者提出了Contextual Loss。
未对齐的图像应当怎样判定相似性,作者认为:两幅图像A,B,只要A中的大多数特征能够在B中找到,位置不用对应,他们就是相似的。至于怎么定义两幅图像中特征的相似性,作者使用了余弦相似度(NLP中引用而来):
上式是计算xi和yj之间余弦相似度的公式,xi和yj分别是x和y图像中的任意特征,然后通过归一化,取幂,规范化的处理,获得两个特征之间尺度不变的相似性公式:
据此,ContextualLoss定义为:
x是输入图像,y是目标图像,Φ是VGG预训练提取。作者应用该loss分别在语义风格转移,单图像动画,木偶控制和不成对域转换上进行试验,结果都很amazing。仅仅一个CNN和Contextual Loss就可以达到cyclegan的效果。
网友评论