这是发在 CVPR 2019 的文章
Abstract
神经风格的转换已经引起了学术界和工业界的极大关注。尽管视觉效果和效率已得到显着改善,但是现有方法无法协调内容图像和样式化图像之间视觉注意力的空间分布,或无法通过不同的笔触绘制出不同程度的细节。
在这篇文章中,通过一个注意意识的多重笔触样式转换消除了这些限制。
首先提出将自我注意机制组装到与风格无关的重构自动编码器框架中,从中可以导出内容图像的注意图
通过对内容特征和样式特征执行多尺度样式交换,我们生成了反映不同笔触样式的多个特征图。
进一步提出了一种灵活的融合策略,以融合注意力图中的显着特征,从而可以整合多个笔画模式和谐地输出到输出图像的不同空间区域。
1. Introduction
尽管已经取得了重大进展,但是这些方法仍受模型与特定风格之间的绑定限制。最近,提出了Arbitrary-Style-Per-Model 快速风格迁移方法(ASPM)来克服这一难题。
一种可能的解决方案是融合内容特征和样式特征之间的高级统计分布。
尽管可以极大地改善视觉质量和效率,但是由于以不加区别的方式处理不同的图像区域,例如AdaIN和WCT,(如图1所示)它们意外地将意想不到的或失真的模式引入了风格化的结果。
image.png另一种解决方案是在训练有素的自动编码器的中间层将内容特征补丁与最接近的样式特征补丁交换。
但是当内容图和风格图具有巨大差异的时候,这个方法可能会生成无效的风格结果,如图1中的 Style-Swap。与StyleSwap相比,Avatar-Net进一步消除了内容和样式特征之间的领域差距,从而带来了更好的风格化结果,但仍保持视觉注意力与内容图像的空间分布不一致,因此在语义感知方面表现出失真。
笔直纹理在自然图像中被称为基本的微观结构,反映了感知的风格模式。Jing等人首先提出通过将多个笔划大小合并到一个StrokePyramid模型中来实现连续的笔划大小控制。
图1所示的StrokePyramid结果是通过混合两种不同大小的笔划产生的。
但是,由于缺乏对内容图像的局部了解,因此无论区域多样性如何,它们都以整体方式执行笔划插值,从而导致细节水平不足(细节不足针对的是风格图像的细节不足吗?)。 此外,
这些方法一成不变地用一个前向计算处理任意样式。
几个问题:
- 失真
- 变换后体现不出来风格图的风格,不充分的变换
- 细节不足
作者为了任意的风格变换提出了 attention-aware multi-stroke (AAMS)模型。
*模型鼓励内容图像和风格化图像之间对应区域的注意力一致性(指视觉注意力分布的空间一致性),并且一次即可实现可扩展的多笔画融合控制和自动空间笔画大小控制。
*具体来说,引入了自我注意机制作为自动编码器框架的补充。 自我注意模块将某个位置的响应计算为所有位置的特征的加权总和,这有助于捕获整个图像区域的长期依赖关系。通过对自注意力组装的自动编码器执行重建训练过程,注意力图可以掌握任何内容图像中的显着特征。
基于感受野与笔划大小之间的相关性,提出了一种多尺度样式交换模块,通过在高级表示中通过将内容特征与多尺度样式特征交换来融合不同的笔划样式。
(说实话,这个笔划大小到底是什么??)
将注意力图注入到多笔划融合模块中,以和谐地合成不同的笔划模式,从而实现自动的空间笔划大小控制。
主要贡献:
- 把注意力机制加入到自动编码器网络,能够捕获重要特征和长区域的输入图片的相关性
- 提出了多尺度样式交换,以打破高级特征空间中固定感受野的限制,并生成反映不同笔划样式的多个特征图
- 通过与注意力图结合,提出了一种灵活的融合策略,可以将多个笔划模式和谐地整合到输出图像的不同空间区域中,从而使内容图像和风格化图像之间的注意力保持一致。
2. Related Work
Neural Style Transfer
Attention Models
3. Proposed Approach
输入内容图,风格图,输出风格话的图
在一次前馈中满足任意样式转移,通过整合具有多个笔划样式的图像时,我们在瓶颈层开发了三个模块(多尺度样式交换,多笔划融合和自我关注模块)以进行特征处理
image.png假设和表示分别对应于和从编码器提取的特征图
自我注意力模块能够学习的显著特征,在重建训练处理之后,对于任何内容能够生成自我注意力特征图。
在测试阶段通过 WCT 转换将转移到fs的中间过程中,首先设计一个多尺度样式交换模块,以合成多个笔划大小的特征,和是输入。该模块同时对内容特征和K样式特征执行样式交换过程。
为了执行功能的灵活集成,提出了多笔触融合模块来处理可控的融合。
从过滤得到的特征图以指导内容特征和个交换笔划特征之间的融合,其中$$K是用户提供的聚类数。然后,将合成特征馈送到训练有素的解码器中,以在一次前馈中生成样式化图像。
跳跃连接以通过将多个合成特征级别与样式特征相适应来增强样式效果。
3.1. Self-Attention Autoencoder
,表示编码器,解码器。
通过把输入图片投影到中间激活空间,编码器能够得到
表示沿着通道维度的flatten操作。在第个位置计算的自我注意特征为:
其中,表示卷积操作(使用1x1的卷积),是权重。表示两个区域之间的依赖关系,而不仅仅是相邻位置。 它是使用softmax函数计算的:
是通过兼容函数获得的,该函数通过按比例的点积比较元素: image.png
从自我注意模块解码的自我注意特征图是
给定自注意力特征图,通过将隐藏特征图 与 相乘来获得自注意残差。r然后把加到特征图中。
其中,表示点积。
把作为解码器的输入,得到重构图像。
以这种方式,每个空间位置的变化程度可以通过揭示出来,从而在合成图像时表现出显着区域。
定义语义内容损失是感知损失和像素重建损失的总和,以生成视觉上无法区分的图像输入图像:
image.png
其中,是处理图像时候VGG-19中第层的激活。是平衡两个损失的权重。
除此之外,在自注意力特征图上引入了稀疏性,以鼓励自注意力自动编码器更多地关注小区域而不是整个图像:
image.png再加上重变分损失,让空间区域更平滑,那么总损失函数为:
image.png是平衡因子。
3.2. Multi-scale Style Swap
风格交换是逐个补丁替换最接近的风格特征的内容特征的过程。
给定特定的补丁大小,风格交换过程可以有效地实现为两个卷积操作和一个通道方式的argmax操作。卷积层的过滤器是从提取的风格补丁中导出的。
注意到较大的补丁尺寸会相应地导致较大的接收场和样式笔触。 但是,补丁大小规模的增加会受到网络结构的严格限制,并且在补丁大小大于网络的固定接收范围时,很容易饱和。
为了有效地解决上述问题,我们建议在更改样式激活特征图的比例的同时固定补丁大小,以便在与相同样式交换后引入多比例笔划样式
内容特征。
首先对内容特征和样式特征进行美白变换,以在保留全局结构的同时剥离其样式信息,结果分别表示为和。然后,通过将变白的样式特征转换为多个比例来获得一系列的多尺度样式特征:
image.png其中,表示放缩比例,是控制不同笔画大小的比例系数。
最后,通过同时在和多个之间执行样式交换过程来产生多个交换特征。
其中,表示可并行化样式交换过程
3.3. Multi-stroke Fusion
在重建过程中,残差学会通过增加变化来微调内容特征的内在关键部分,因此残差的非平凡(零)部分值得特别注意。
利用注意力过滤器,首先执行绝对运算以突出显示中的这些非平凡部分,然后是高斯核卷积层以增强特征的区域均一性。
在标准化到区域为[0,1]后,得到了特征图。
图3显示了中间结果的可视化图像。
image.png注意到,注意图可以扩大显着区域的参与影响,同时保持遥远区域之间的相关性。
需要多笔触融合的特征总共有个。
为了在可伸缩框架中集成任意笔画,我们提出了一种灵活的融合策略,首先根据提供的笔画数将注意力图划分为多个簇。
使用k-means方法对注意力图进行聚类,目的是迭代找到K + 1个强度中心,以最小化每个聚类中中心与元素之间的欧几里得距离。
image.png表示簇中所有关注点的平均强度值。
然后,可以将多行程融合公式化为在注意力图的指导下将内容特征与多个交换特征集成在一起:
image.png其中,
是对应于第个笔触大小的权重图,表示细颗粒笔划。权重图由softmax函数得到:
其中,是测量绝对值距离。因此,可用于指示每个笔划大小在多大程度上有助于特征的综合。
这个柔顺因子是用来控制融合的柔顺度。
在馈入解码器以生成样式化结果之前,我们通过对合一特征进行着色变换以将特征统计信息与样式特征相匹配来导出。
image.png参考资料:
Attention-aware Multi-stroke Style Transfer
网友评论