美文网首页嵌牛IT观察
北邮夺冠CVPR 2018 DeepGlobe比赛,他们是这样做

北邮夺冠CVPR 2018 DeepGlobe比赛,他们是这样做

作者: 莫斯科的雨夜 | 来源:发表于2018-11-01 21:30 被阅读2次

    姓名:闫伟  学号:15020150038

    转载自:https://zhuanlan.zhihu.com/p/38607998,有删节。

    【嵌牛导读】:在刚刚结束的CVPR2018: DeepGlobe Road Extraction Challenge(全球卫星图像道路提取)比赛中,北京邮电大学信息与通信工程学院模式识别实验室张闯老师指导的研究生周理琛同学,脱颖而出,取得第一名的好成绩。本届CVPR规模浩大,有超过3309篇论文投稿,接收979篇论文。此次DeepGlobe道路检测比赛参加队伍众多,包括许多专业级的卫星公司和研究机构(其中,Road Extraction Challenge比赛的第2-4名都来自专业的地图和导航公司)。

    【嵌牛鼻子】:CVPR DeepGlobe

    【嵌牛提问】:北邮CVPR夺冠的制胜法宝

    【嵌牛正文】:

    赛题和数据

    基于卫星图像的道路检测在城市规划,自动驾驶,应急指挥等领域有很广泛的应用场景。此次比赛的任务是将卫星图像中的道路部分提取出来,即将每个属于道路部分的像素点标注为道路,其他部分标注为背景(属于一个二元分割的问题)。

    比赛的数据由全球知名的卫星数据公司数字地球(DigitalGlobe)提供,由FACEBOOK, UBER, IEEE GRSS, DigitalGlobe, CrowdAI, OVSI, Kitware等公司赞助。

    比赛分为三个子任务:卫星图像道路提取(84队参与)、房屋提取(26队参与)以及地表覆盖分类(38队参与)。参赛队伍包括MIT, CrowdAI, MapBox, Neuromation公司,EOS数据分析中心,清华大学、同济大学、哈工大、国立台湾大学、商汤科技等团队。

    数据集和道路检测示例

    比赛数据集包含6226张训练图像,1243张验证图像,以及1101张测试图像。所有的图像尺寸均为1024*1024,图像来源于泰国、印度、印度尼西亚,图像场景包括城市、乡村、荒郊、海滨、热带雨林等多个场景。

    从卫星图像中分割道路是一项十分具有挑战的任务,该任务可以应用于地图生成、汽车自动驾驶与导航等多个场景。同时,卫星图像道路分割相较于一般的分割任务,有其独特性和困难性,具体表现为:在卫星图像中,目标道路所占据画幅比例普遍偏小;河流、铁路等又与道路过于相似,甚至人眼也难以判别;道路分叉连通情况也很复杂,这对于道路提取的识别精度有着相当高的要求。

    另外,在卫星图像中,道路往往狭窄、且具有先验的连通性,几条道路可能会互相交叉连通,且整体跨度覆盖整张图片,传统的图像分割方法很难适用。这都给卫星图像中的道路检测带来了难度。

    夺冠方法详解

    数据扩增-图像形态变换:

    ①、随机翻折:包含水平、竖直、对角线三种翻折方式,每张图片扩增为原来的8倍。

    ②、随机缩放:将图像随机缩放至多10%。

    ③、随机偏移:将图像随机上下左右偏移至多10%。

    ④、随机拉升:将图像随机沿竖直方向或水平方向拉升至多10%。

    经过以上四种变换之后,再截取图像中心1024*1024的部分,不足的部分补0。

    数据扩增-图像色彩变换:

    使用OpenCV,在HSV空间对图像进行色彩变换。在OpenCV中,每个像素的HSV保存在uint8的数据类型中(0~255)。

    ①、H空间,随机变换(-15~15)。

    ②、S空间,随机变换(-15~15)。

    ③、V空间,随机变换(-30~30)。

    数据扩增示意图:中心处为原图

    模型结构D-LinkNet

    北京邮电大学模式识别实验室提出了融合的D-LinkNet方法,该方法在提升网络识别精度的同时,增加网络接收域,保留图像的空间细节信息,并实现多尺度特征融合,有效提升了识别精度、缓解道路连通性问题。

    模型总体结构如下:

    D-LinkNet34示意图

    D-LinkNet使用LinkNet作为基本骨架,使用在ImageNet数据集上与训练好的ResNet作为网络的encoder,并在中心部分添加带有shortcut的dilated-convolution层,使得整个网络识别能力更强、接收域更大、融合多尺度信息。

    网络的中心部分可以展开如下图,图中所示的并联结构可以有效的融合多尺度特征。Dilated-convolution可以有效扩张接收域,从上到下对应的接收域分别是31、15、7、3、1,最后将每条支路的结果相加,便得到融合的特征。

    网络中心部分展开示意图

    损失函数/测试时扩增(TTA)

    损失函数的公式如下所示。损失函数包含两部分,其中红框部分是dice coeff loss,绿框部分是Binary cross entropy loss。公式中P指代网络输出的预测结果,GT指代真实标签,N指代batchsize。

    损失函数

    由于卫星图像具有翻折和旋转不变性,在测试时,我们将图像进行水平、竖直、对角线三种翻折,每张图片预测8次,然后将8次的结果平均。(我们没有旋转图片是出于预测时间的考虑)

    比赛结果和技术分享

    测试集上最终结果

    各项比赛任务优胜者排名表

    论文链接:

    http://openaccess.thecvf.com/content_cvpr_2018_workshops/w4/html/Zhou_D-LinkNet_LinkNet_With_CVPR_2018_paper.html

    代码及PPT:

    https://github.com/zlkanata/DeepGlobe-Road-Extraction-Challenge

    北京邮电大学模式识别实验室介绍

    北京邮电大学模式识别实验室由郭军教授(日本东北学院大学博士、博士生导师、北京邮电大学副校长)于1998年依托信号与信息处理国家重点学科以及模式识别与智能系统信息产业部重点学科而创建,是国内较早开展人工智能领域研究的著名实验室之一,也是信息内容安全技术国家工程实验室的组成部分。

    实验室长期从事模式识别、机器学习、数据挖掘、网络搜索等方面的研究,在国际顶级期刊及会议TPAMI、PR、PRL、SCIENCE、 TIP、TIFS、CVPR、ECCV、SIGIR上发表论文多篇,参加人工智能领域国际评测NIST-TREC评测、AI CHALLENGER、阿里天池大数据比赛、863评测等也多次获得优异成绩。实验室的马占宇、高升、郭军、徐雅静、蔺志青老师获得2017年吴文俊人工智能科技进步一等奖。

    有心的同学可能也注意到了,由大数据文摘字幕组推出的三门火爆的网红课程就是和北邮模式识别实验室合作进行的。

    感兴趣的同学通过以下链接就可以进行学习啦~~~

    牛津大学xDeepMind 自然语言处理

    https://study.163.com/course/introduction/1004336028.htm

    MIT6.S094深度学习与自动驾驶

    https://study.163.com/course/introduction/1004938039.htm

    斯坦福李飞飞-深度学习计算机视觉

    https://study.163.com/course/introduction/1003223001.htm

    相关文章

      网友评论

        本文标题:北邮夺冠CVPR 2018 DeepGlobe比赛,他们是这样做

        本文链接:https://www.haomeiwen.com/subject/munztqtx.html