一:介绍
这篇文章提出了一个基于强化学习的自动种子生成技术去解决交互分割问题。
交互分割问题的主要难点之一是如何在减少人工参与的同时保持被提取物体的鲁棒性和连续性。
目前大部分存在的算法都高度依赖与输入的分布。不同的人会有不同的输入,从而导致不同的结果。
而本文提出的系统中,用户只需要在一开始的时候指定一个背景里的点和一个目标物体的点,剩下的都会自动生成.
对于本文,主要贡献有两个:
- 把自动种子生成问题数学化一个MDP问题来求解
- 提出了比较新颖的 reward 函数
二:相关工作
交互分割
交互分割是计算机视觉的只要问题之一。目前,大量的交互分割算法都用用户提供的contour, scribble, bounding box作为输入,然后尝试去分割出目标物体。
目前, 基于学习的交互分割算法也逐渐吸引大家的眼球。同时,已经有大量的研究提出了拓展种子信息的算法。而这些工作跟本位比较相像。
强化学习
本文采用的强化学习方法是 DQN,由于本系列文章都是基于强化学习的文章,所以强化学习的历史不赘述。
三:自动种子生成系统
系统概述
本文中提出的自动种子生成系统是为了解决交互分割问题,我们把这个系统叫做 SeedNet.
简单的说,往系统中的输入放入一张图片和离散的种子信息,最后的结果是创建一个新的种子点以及一个准确的分割结果。其系统的核心部分是产生人工种子点的深度强化学习大脑。
大概流程如上图。值得注意的是,文中使用 Random Walk(RW)分割算法作为现成的交互分割算法。通过这个算法得到的二值图和原图像合并在一起作为DQN网络的输入,然后DQN网络输出新的种子信息。新的种子信息包括位置和标签(目标物体还是背景)。结果,新产生的种子点加入到原先的种子中,从而更新原来的种子信息。此外,再把更新完的种子信息和原图像放在一起,用分割算法求出新的二值图。而这个新的二值图有两个用处:
- 用于计算 reward
- 作为下一次迭代的输入
MDP
State
状态必须包含足够的信息,这样强化学习的Agent才能作出比较好的动作。为了保证这一点,状态必须包含整张图片的信息。其次,再加上当前的二值图就可以了
Action
动作空间要决定两个信息:
- 种子点的坐标
- 种子点的标签:目标点还是背景点等
为了这个目的,本文创建一个20x20网格放在原图片上,每一个小网格表示一个点的信息,包括坐标和标签。最后的动作空间的大小为:800
因为不太方便定义终止动作,所以设置当系统创建第10个种子后自动停止。
reward
对于 reard 的计算,计算 IoU是一种可行的方法:
image.png
其中 M 表示分割产生的二值图, G 表示真实的二值图。此外,reward还可以定义为:
image.png
其中 k 是常数。而本文采用的回报函数:
image.png
这里需要解释以下。我们把GT划分为四个区域并且同种子标签进行比较。为了将GT掩码划分为四个区域,我们在对象内部和外部创建附加的边界,这些边界从对象边界给出一些余量。也就是说,从三个边界生成四个区域,包括现有的对象边界。这四个区域按从图像中心到边缘的顺序依次称为强前景(SF)、弱前景(WF)、弱背景(WB)和强背景(SB)。当分配新种子点时,根据种子类型将不同的奖励函数应用于划分区域。
网友评论