【数据集】一文道尽医学图像数据集与竞赛

作者: 有三AI | 来源:发表于2019-01-16 08:10 被阅读14次

【数据集】一文道尽医学图像数据集与竞赛
训练和测试数据的观察
cifar 图像分类
ncnn上基于Caffe用MobileNet_SSD训练和测试自
深度学习|Keras识别MNIST手写数字（一）
泰坦尼克（Titanic）的数据分析(特征工程部分）
机器学习数据集汇总（附下载地址）
人工智能机器学习数据集收集整理--持续更新中
caffe数据集格式转换—图像格式到LMDB/LEVELDB
采用Oxford-IIIT Pets数据训练Object-Det

本文首发于微信公众号《与有三学AI》

在AI与深度学习逐渐发展成熟的趋势下，人工智能和大数据等技术开始进入了医疗领域，它们把现有的一些传统流程进行优化，大幅度提高各种流程的效率、精度、用户体验，同时也缓解了医疗资源的压力和精确度不够的问题。

01医学数据集

智能医疗有很多的发展方向，例如医学影像处理、诊断预测、疾病控制、健康管理、康复机器人、语音识别病历电子化等。当前人工智能技术新的发力点中的医学图像在疾病的预测和自动化诊断方面有非常大的意义，本篇即针对医学影像中的病例分析，降噪，分割，检索等领域来介绍一些常用的数据集。

1.1 病例分析数据集

1.1.1 ABIDE

数据集地址：

http://preprocessed-connectomes-project.org/abide/

发布于2013年，这是一个对自闭症内在大脑结构的大规模评估数据集，包括539名患有ASD和573名正常个体的功能MRI图像。

1.1.2 OASIS

数据集地址：http://www.oasis-brains.org/

OASIS，全称为Open Access Series of Imaging Studies，已经发布了第3代版本，第一次发布于2007年，是一项旨在使科学界免费提供大脑核磁共振数据集的项目。它有两个数据集可用，下面是第1版的主要内容。

(1) 横截面数据集：年轻，中老年，非痴呆和痴呆老年人的横断面MRI数据。该组由416名年龄在18岁至96岁的受试者组成的横截面数据库组成。对于每位受试者，单独获得3或4个单独的T1加权MRI扫描包括扫描会话。受试者都是右撇子，包括男性和女性。100名60岁以上的受试者已经临床诊断为轻度至中度阿尔茨海默病。

(2) 纵向集数据集：非痴呆和痴呆老年人的纵向磁共振成像数据。该集合包括150名年龄在60至96岁的受试者的纵向集合。每位受试者在两次或多次访视中进行扫描，间隔至少一年，总共进行373次成像。对于每个受试者，包括在单次扫描期间获得的3或4次单独的T1加权MRI扫描。受试者都是右撇子，包括男性和女性。在整个研究中，72名受试者被描述为未被证实。包括的受试者中有64人在初次就诊时表现为痴呆症，并在随后的扫描中仍然如此，其中包括51名轻度至中度阿尔茨海默病患者。另外14名受试者在初次就诊时表现为未衰退，随后在随后的访视中表现为痴呆症。

1.1.3 DDSM

数据集地址：

http://marathon.csee.usf.edu/Mammography/Database.html

发布于2000年，这是一个用于筛选乳腺摄影的数字数据库，是乳腺摄影图像分析研究社区使用的资源。该项目的主要支持来自美国陆军医学研究和装备司令部的乳腺癌研究计划。DDSM项目是由马萨诸塞州综合医院（D. Kopans，R. Moore），南佛罗里达大学（K.Bowyer）和桑迪亚国家实验室（P. Kegelmeyer）共同参与的合作项目。数据库的主要目的是促进计算机算法开发方面的良好研究，以帮助筛选。数据库的次要目的可能包括开发算法以帮助诊断和开发教学或培训辅助工具。该数据库包含约2,500项研究。每项研究包括每个乳房的两幅图像，以及一些相关的患者信息（研究时间，ACR乳房密度评分，异常微妙评级，异常ACR关键字描述）和图像信息（扫描仪，空间分辨率等）。包含可疑区域的图像具有关于可疑区域的位置和类型的像素级“地面真实”信息。

1.1.4 MIAS

数据集地址：

http://peipa.essex.ac.uk/pix/mias/all-mias.tar.gz

https://www.repository.cam.ac.uk/handle/1810/250394?show=full

MIAS全称为MiniMammographic Database，是乳腺图像数据库。

乳腺MG数据（Breast Mammography）有个专门的database，可以查看很多数据集，链接地址为：

http://www.mammoimage.org/databases/

1.1.5 MURA

数据集地址：

https://stanfordmlgroup.github.io/competitions/mura/

发布于2018年2月，吴恩达团队开源了 MURA 数据库，MURA 是目前最大的 X 光片数据库之一。该数据库中包含了源自14982项病例的40895张肌肉骨骼X光片。1万多项病例里有9067例正常的上级肌肉骨骼和5915例上肢异常肌肉骨骼的X光片，部位包括肩部、肱骨、手肘、前臂、手腕、手掌和手指。每个病例包含一个或多个图像，均由放射科医师手动标记。全球有超过17亿人都有肌肉骨骼性的疾病，因此训练这个数据集，并基于深度学习检测骨骼疾病，进行自动异常定位，通过组织器官的X光片来确定机体的健康状况，进而对患者的病情进行诊断，可以帮助缓解放射科医生的疲劳。

公开可用的医学射线照相图像数据集概述

参考2018年论文：MURA: Large Dataset for Abnormality Detection inMusculoskeletal Radiographs.

1.1.6 ChestX-ray14

数据集地址：

https://www.kaggle.com/nih-chest-xrays/data

https://nihcc.app.box.com/v/ChestXray-NIHCC

参考论文：

CheXNet: Radiologist-Level Pneumonia Detection on Chest X-Rays with DeepLearning

ChestX-ray14 是由NIH研究院提供的，其中包含了30,805名患者的112,120个单独标注的14种不同肺部疾病（肺不张、变实、浸润、气胸、水肿、肺气肿、纤维变性、积液、肺炎、胸膜增厚、心脏肥大、结节、肿块和疝气）的正面胸部 X 光片。研究人员对数据采用NLP方法对图像进行标注。利用深度学习的技术早期发现并识别胸透照片中肺炎等疾病对增加患者恢复和生存的最佳机会至关重要。

1.1.7 LIDC-IDRI

数据集地址：

https://wiki.cancerimagingarchive.net/display/Public/LIDC-IDRI

LIDC-IDRI数据集是由美国国家癌症研究所(National Cancer Institute)发起收集的，目的是为了研究高危人群早期肺结节检测。该数据集中，共收录了1018个研究实例。对于每个实例中的图像，都由4位经验丰富的胸部放射科医师进行两阶段的诊断标注。该数据集由胸部医学图像文件(如CT、X光片)和对应的诊断结果病变标注组成。

1.1.8 LUNA16

数据集地址：

https://luna16.grand-challenge.org/Home/

发布于2016年，是肺部肿瘤检测最常用的数据集之一，它包含888个CT图像，1084个肿瘤，图像质量和肿瘤大小的范围比较理想。数据分为10个subsets，subset包含89/88个CT scan。

LUNA16的CT图像取自LIDC/IDRI数据集，选取了三个以上放射科医师意见一致的annotation，并且去掉了小于3mm的肿瘤，所以数据集里不含有小于3mm的肿瘤，便于训练。

1.1.9 NSCLC

数据集地址：

https://wiki.cancerimagingarchive.net/display/Public/NSCLC+Radiogenomics

发布于2018年，来自斯坦福大学。数据集来自211名受试者的非小细胞肺癌（NSCLC）队列的独特放射基因组数据集。该数据集包括计算机断层扫描（CT），正电子发射断层扫描（PET）/ CT图像。创建该数据集是为了便于发现基因组和医学图像特征之间的基础关系，以及预测医学图像生物标记的开发和评估。

1.1.10 DeepLesion

数据集地址：

https://nihcc.app.box.com/v/DeepLesion

DeepLesion由美国国立卫生研究院临床中心（NIHCC）的团队开发，是迄今规模最大的多类别、病灶级别标注临床医疗CT图像开放数据集。在该数据库中图像包括多种病变类型，目前包括4427个患者的32,735 张CT图像及病变信息，同时也包括肾脏病变，骨病变，肺结节和淋巴结肿大。DeepLesion多类别病变数据集可以用来开发自动化放射诊断的CADx系统。

1.1.11 ADNI

数据集地址：

http : //adni.loni.usc.edu/data-samples/access-data/

ANDI涉及到的数据集包括如下几部分Clinical Data（临床数据）、MR Image Data（磁共振成像）、Standardized MRI Data Sets、PET Image Data（正电子发射计算机断层扫描）、Gennetic Data（遗传数据）、Biospecimen Data（生物样本数据）。

1.2 医学降噪数据集

1.2.1 BrainWeb数据集

数据集地址：

http://brainweb.bic.mni.mcgill.ca/brainweb/

发布于1997年，这是一个仿真数据集，用于医学图像降噪。研究者可以截取不同断层的正常脑部仿真图像，包括T1，T2，PD3种断层，设置断层的厚度，叠加高斯噪声或者医学图像中常见的莱斯噪声，最终会得到181×217大小的噪声图像。

1.3 医学分割数据集

1.3.1 DRIVE数据集

数据集地址：

http://www.isi.uu.nl/Research/Databases/DRIVE/download.php

发布于2003年，这是一个用于血管分割的数字视网膜图像数据集，它由40张照片组成，其中7张显示出轻度早期糖尿病视网膜病变迹象。

1.3.2 SCR数据集

数据集地址：

http://www.isi.uu.nl/Research/Databases/SCR/

发布于2000年，胸部X光片的分割，胸部X光片中解剖结构的自动分割对于这些图像中的计算机辅助诊断非常重要。SCR数据库的建立是为了便于比较研究肺野，心脏和锁骨在标准的后胸前X线片上的分割。

本着合作科学进步的精神，我们可以自由共享SCR数据库，并致力于在这些分割任务上维护各种算法结果的公共存储库。在这些页面上，可以在下载数据库和上载结果时找到说明，并且可以检查各种方法的基准结果。

1.3.3 医学图像分析benchmark

在网址https://grand-challenge.org/challenges/提供了时间跨度超过10年的医学图像资料。

1.3.4 Ardiac MRI

数据集地址：

http://www.cse.yorku.ca/~mridataset/

ardiac MRI 是心脏病患者心房医疗影像数据，以及其左心室的心内膜和外膜的图像标注。包括33位患者案例，每个受试者的序列由沿着长的20帧和8-15个切片组成，共7980张图像。

1.3.5 NIH

数据集地址：

https://www.kaggle.com/nih-chest-xrays

发布于2017年，这是一个胸部X射线数据集，包含30,805个患者，14个疾病图像标签（其中每个图像可以具有多个标签），112,820个正面X射线图像，标签是使用自然语言处理从相关的放射学报告中自动提取。十四种常见的胸部病变包括肺不张，巩固，浸润，气胸，水肿，肺气肿，纤维化，积液，肺炎，胸膜增厚，心脏扩大，结节，肿块和疝。由于许多原因，原始放射学报告（与这些胸部X射线研究相关）并不是公开分享的。所以文本挖掘的疾病标签预计准确度 > 90％，这个数据集适合做半监督的学习。

1.4 List of Open Access

在List of Open Access Medical Imaging Datasets网站上可以看到更多的相关方向的数据集。

数据集地址：

http://www.radrounds.com/profiles/blogs/list-of-open-access-medical-imaging-datasets

02医学竞赛

2.1 VISCERAL

地址链接：http：//www.visceral.eu/

VISCERAL 是Visual Concept Extraction Challenge in Radiology的缩写，是放射学中的视觉概念提取挑战赛。他们提供几种不同成像模式（例如CT和MR）的几种解剖结构（例如肾，肺，膀胱等）的放射学数据以及一个云计算实例。

2.2 Grand Challenges

地址链接：

https://grand-challenge.org/challenges/

提供了医学图像分析领域内所有挑战的概述，下面举的例子是2019年的医学图像方面将要举办的竞赛。

2.3 Dream Challenges

地址链接：http : //dreamchallenges.org/

这个挑战赛中包括有数字乳腺摄影梦想挑战；ICGC-TCGA DREAM体细胞突变称为RNA挑战（SMC-RNA）等等。

03总结

最后提供给对医学影像处理感兴趣的童鞋一个超级赞的github链接如下：

https://github.com/beamandrew/medical-data

这是Github上哈佛 beamandrew机器学习和医学影像研究者贡献的数据集，包括了医学影像数据、竞赛数据、来自电子健康记录的数据、医疗数据、UCI数据集、生物医学文献等。

如果想了解更多，欢迎关注知乎。

十月开始，我们有三AI学院开启了“稷”划和“济”划，帮助想入行以及想取得更多实战经验的同学。内容覆盖从自动驾驶到美颜直播等领域的实战项目，从图像基础到深度学习理论的系统知识，欢迎关注。

有三AI“【济】划”，从图像基础到深度学习

有三AI“十一月【稷】划”，从调参大法到3D重建

有三AI“十月【稷】划”，从自动驾驶到模型优化

另外，有三AI学院也开设了自己的深度学习公开课，我们的特点是 (1) 内容更广：覆盖开源框架以及几乎所有主流的图像领域。 (2) 案例更丰富：我们从工业界的实际需求出发，精选从低，中，高各种难度的任务来进行技术细节的讲解，当然周期也会更长。

如果想加入我们，后台留言吧

转载后台联系，侵权必究

有三精选

【技术综述】一文道尽softmax loss及其变种

学员分享

开源框架

【pytorch速成】Pytorch图像分类从模型自定义到测试

【paddlepaddle速成】paddlepaddle图像分类从模型自定义到测试

【caffe速成】caffe图像分类从模型自定义到测试

【tensorflow速成】Tensorflow图像分类从模型自定义到测试

行业分析

【行业进展】国内自动驾驶发展的怎么样了？

【行业进展】AI：新药研发的新纪元

【行业进展】哪些公司在搞“新零售”

【行业趋势】国内这10个AI研究院，你想好去哪个了吗？

模型精选

【模型解读】“全连接”的卷积网络，有什么好？

【模型解读】“不正经”的卷积神经网络

【模型解读】resnet中的残差连接，你确定真的看懂了？

【模型解读】pooling去哪儿了？

更多请移步

1，我的gitchat达人课

龙鹏的达人课

2，AI技术公众号,《与有三学AI》

【深度学习图像项目实战-从入门到上线1】怎样学会科学的调研并启动一个项目

3，以及摄影号，《有三工作室》

【2018有三工作室-摄影师分享篇8】这是一期"不笑”的人像写真

【数据集】一文道尽医学图像数据集与竞赛
本文首发于微信公众号《与有三学AI》【数据集】一文道尽医学图像数据集与竞赛在AI与深度学习逐渐发展成熟的趋势下...
训练和测试数据的观察
训练和测试数据集的分布在开始竞赛之前，我们要检查测试数据集的分布与训练数据集的分布，如果可能的话，看看它们之间有...
cifar 图像分类
前言 cifar-9 分类图像数据集是从cifar10图像数据集中提取出的包含9个分类的图像数据集，cifar图像...
ncnn上基于Caffe用MobileNet_SSD训练和测试自
1.数据集标注 a.采用VoTT用于图像检测任务的数据集制作voc格式 2.lmdb数据集制作 a.采用 weil...
深度学习|Keras识别MNIST手写数字（一）
数据和方法 MNIST数据集是收集的手写字体，为单色图像，共有训练集60000项，测试数据集10000项。建模方法...
泰坦尼克（Titanic）的数据分析(特征工程部分）
泰坦尼克数据集是一个好的可选数据集对于kaggle的新手，而且很多获胜的kaggle竞赛的团队都对这个数据集有很好...
机器学习数据集汇总（附下载地址）
大学公开数据集 (Stanford)69G大规模无人机(校园)图像数据集【Stanford】 http://cvg...
人工智能机器学习数据集收集整理--持续更新中
关键词：机器学习；人工智能；数据集；标准数据集；自然语言处理；图像识别自然语言处理相关数据集 1、实体/名词语义...
caffe数据集格式转换—图像格式到LMDB/LEVELDB
使用caffe的图像分类模型来训练自己的数据集时，数据集如何制作是一个问题。我们通常收集到的是图像数据(如.jp...
采用Oxford-IIIT Pets数据训练Object-Det
1. 数据集介绍 The Oxford-IIIT Pet Dataset是一个宠物图像数据集，包含37种宠物，...