语义分割应用场景:
自动驾驶(Autonmous Driving)
面部分割(Facial Segmentation)虚拟改造
室内实体分割(Indoor Object Segmentation)AR、VR技术
地理板块感知(Geo Land Sensing)防风护林
摘要
- 深度学习在视觉任务上应用很成功,但也容易受到来自输入的对抗干扰
- 这种扰动被定义为添加到输入的噪音,人类无法觉察,然而可以欺骗神经网络
- 不仅如此,通用的干扰也存在
- 近来的工作都集中在图片分类上,本文工作针对图片的语义分割
- 展示了一种生成通用干扰的方法,使得网络输出指定的分割结果
1. Introduction
- 图片语义分割重要性
- 对于自动驾驶、视频监控、机器人技术中感知场景的重要方法
- 通过移除所有行人欺骗刹车器
- 对于自动驾驶、视频监控、机器人技术中感知场景的重要方法
- 物理世界的对抗攻击
- 物理可行,且人类不易发觉
- 物理可行,即输入是事先(在对抗干扰生成前)不可知的
- 物理可行,且人类不易发觉
- 通用对抗干扰
- Moosavi-Dezfooli-Dezfooli提出
- 本文将其延伸扩展到语义分割领域
- 干扰的不易察觉
- 通过移除所有行人,从而欺骗制动系统。那么需要保持对所有其他类别的预测不变而只隐藏目标类别
- 本文提出动态定向分割场景(Dynamic target segmentation scenario)
- 对于任意场景,均输出指定的分割结果
- 本文提出静态定向分割场景(Static target segmentations)
- 隐藏小偷盗窃活动
- 通过移除所有行人,从而欺骗制动系统。那么需要保持对所有其他类别的预测不变而只隐藏目标类别
- 贡献
- 证明通用对抗样本在语义分割中的存在性(定向攻击场景)
- 图像语义分割的对抗扰动空间可能比图像分类识别的空间小
- 提出两种通用对抗样本生成方法
- 一种方法的目的是生成指定的对抗样本
- 另一种方法的目的是移除指定类别而保持其他部分不变
- 证明其迁移性
- 可从小数据集上训练,泛化至其他数据
- 定向扰动与目标场景具有相似的局部结构
- 证明通用对抗样本在语义分割中的存在性(定向攻击场景)
2. Background
- 定义声明
- :参数为的网络分类器,对输入所产生的输出,即,类别概率向量
- :真实标签,one-hot编码的类别
- :分类器基本损失(如交叉熵损失)
2.1 图像语义分割
- 图像语义分割被定义为一个稠密的预测任务
- What is where in an image?
- 需要为图像中的每个像素分配一个类别标签
- 神经网络中,采用最棒的FCN-8s网络(基于VGG16模型),包含两部分
- 编码部分,将输入图片转换为低分辨率语义表示(在ImageNet上训练好的VGG16,最后几个全连接层被重新修改为卷积层)
- 解码部分:提高定位精准度,并在输入图像分辨率下产生最终语义分割
2.2 对抗样本
- 定义声明
- :扰动量
- :对抗样本
- 对抗样本发展
- Szegedy提出L-BFGS
- Goodfellow提出FGSM
- Kurakin扩展FGSM,提出BIM、LLM
- (上述方法中扰动量均基于输入)
- Moosavi-Dezfooli提出通用对抗样本(Universal,迭代使用DeepFool)
- 不足,此类攻击时非定向的
3. 图像语义分割中的对抗样本
- 定义声明
- :损失函数
- :目标函数
3.1 对抗目标类别生成
- 原则上,可以随便选
- 但实际上,攻击者可能不会根据选,应为攻击者也不知道是什么
- 通常来讲,攻击者会使用作为基准(假设攻击者可以获取)
- 本文定义两种方法来生成定向攻击分割结果
- Static target segmentation
- 攻击者预先定义一个固定的分割结果(时刻)作为目标分割结果
- 攻击那些基于静态摄像头的系统,攻击者希望隐藏可以活动
- Dynamic target segmentation
- 在涉及自我运动的情况下,static方法不适用,因为它为考虑场景中由于相机运动产生的变化
- Dynamic方法目标就是除去指定实体,保持网络其他实体分割结果不变
- :网络中攻击者想隐藏的实体类别
- for all
-
for all
- Static target segmentation
3.2 针对图片的干扰
- 声明定义
- 给定
- :目标函数
- :约束条件
- 静态定向迭代干扰
- 动态考虑背景的定向迭代干扰
-
- =1时,攻击者仅关注移除目标类别
- =0时,攻击者仅关注保持目标类别
-
3.3 通用干扰
- 声明定义
- 包含m个实例的训练集:
- 由3.1中的方法生成
- 包含m个实例的训练集:
- 通用干扰迭代生成方法
-
- 为在整个训练集上的平均损失梯度,容易出现过拟合
- 如何防止过拟合怎么看懂。。。
-
4. 实验结果
- 实验设置
- 数据集:Cityscapes dataset(3475张公开有标签图片,每张图片2048*1024像素,来自44个不同城市,2975张训练,500张验证)
- 预处理:将图片缩放至1024*512像素(双线性差值算法),使用最邻近算法来进行下采样
- 网络模型:FCN-8s来实现图像分割
- 效果:在所有训练集上训练,在验证集上获得64.8%的交并比
- 超参数设置:,迭代次数60
- Static Target Segmentation
- Ciryscapes数据集不包含静态数据,文章选择了一张与原始图像毫无关系的的目标分割结果
- 用于训练的数据为2975张图片,使用不带权重的损失函数,未使用periodic tiles
- 使用在训练集上生成的通用对抗扰动,在测试集上攻击效果几近完美
- 真是图像中低对比度的比高对比度的噪音结构影响更明显
- image-20191127192914333.png
- 定量分析与成功率关系
- image-20191127193229059.png
- Dynamic Target Segmentation
- 攻击者目的为尝试隐藏图片中的行人类别,并保持其他部分尽量不变
- 用于训练的数据为1700张图片,periodic tile尺寸为h=w=512,损失函数权重为
- 结果显示,虽然攻击者成功地删除了几乎所有行人像素,且保持背景基本不变,但稍微仔细检查就能引起怀疑,因为分割看起来并不均匀
- image-20191204204645530.png
- 噪声对分割结果的影响
- image-20191204205249985.png
- 权重对分割结果的影响
- image-20191204205603473.png
- 泛化性
- 在CityScapes数据集上训练对抗扰动,在CamVid数据集(与CityScapes相似)上测试
- 静态定向分割中,平均78%的像素攻击成功
- 动态定向分割中,平均84.5%的行人像素攻击成功,79.6%的背景像素完好保留
- 在FCN网络上训练对抗扰动,在PSPNet网络上测试,静态定向分割攻击
- 与真实像素的交并比从74.8%降低至8.8%
- 跨网络时,通用干扰更适合非定向攻击,而不适合定向攻击
- 在CityScapes数据集上训练对抗扰动,在CamVid数据集(与CityScapes相似)上测试
网友评论