本文是MICCAI 17年的文章,作者是北大的几名学生,本文所提出的模型在LUNA 16比赛中拿到了第一名,当时的得分是0.893,现在这个排名又被刷,这个是比赛排名的连接,https://luna16.grand-challenge.org/results/,目前第一名是平安科技的0.951,已经是一个非常理想的成绩了。
本文的结构图如下图所示,输入图片到VGG 16,用前五层提取特征,然后反卷积作为共享特征层输入给Faster RCNN结构然后生成对应的B BOX候选者,然后将候选者输入到3维DCNN网络,得到对应得分。具体会在后文介绍。
第一个阶段,反卷积的faster RCNN。为了节省计算成本,作者舍弃原始CT扫描图像,转而使用轴向切片作为输入。作者将CT切片进行轴向连接,将像素缩放至600*600*3像素值。
接着讲轴向切片输入到VGG 16网络中,本文只采用了5个卷积层进行特征提取,为了解决肺结节尺寸过小难以提取特征的问题,本文采用了一个反卷积层结构加到VGG的卷积层之后,作为共享特征层。接着按照Faster RCNN的思想,在反卷积层的特征图上滑动小窗口,滑动窗口映射512维特征到分类层和回归层两个并行的全连接层,同时,滑动窗还会每个位置预测出6个anchor,大小分别为 4×4, 6×6, 10×10, 16×16, 22×22,和32×32。
反卷积特征层的另一部分用于ROI分类。首先是一个ROI pooling层将图像变成7*7的特征图,然后经过两个4096的全连接将特征输入到BBox Reg和BBox Cls,分别回归候选者的边界框并预测候选置信度分数。
在上述的RPN和ROI阶段,作者定义了损失函数:
这里有四个损失函数组成,分别是RPN的分类和回归,B Box的分类和回归损失。ˆ和∗分别代表预测值和真实值,各个变量的具体含义与faster rcnn里一样。
本文选择3D DCNN进行了假阳性减少的网络,假阳性和肺结节检测是两个独立的网络结构。DCNN网络结构如下图所示,卷积层,最大池,dropout,全连接,最后用softmax进行分类,当然都是三维的。
网络的输入是经过归一化处理的CT扫描,裁剪成40*40*24的切片,然后进行数据增强。本文用了三种数据增强手段,首先,将40*40*24的切片裁剪成36*36*20,那么一张40*40的切片我们就会有(40-36+1)*(40-36+1)*(24-20+1)=125张新的切片;然后,将36*36*20的切片在三个维度上进行翻转,这样我们就有了125*8=1000张切片;最后,为了平衡训练集中正负样本数量,作者将正样本重复8次,这样就是1000*8=8000个新样本。
实验
数据集是LIDC-IDRI,总共包含1018个CT扫描。为了进行肺结节检查,排除了切片厚度大于3mm,切片间距不一致或缺失的CT扫描,最后选择888个CT扫描。在LUNA16的比赛里,用FROC(自由响应接收器操作特性)衡量检测性能,结果如下表。
从上表可以看出本文所提出的方法灵敏度最高,而且用的扫描数量最少。针对假阳性这一任务结果如下图,本文的方法性能最好。
网友评论