1. Backgroud

机器学习中有一个假设：所有的样本都是独立同分布的。基于这个假设，如果一个模型在dataset1上表现的很好，那么在其他的数据集上它也理应表现的很好。但事实上，所有的样本不可能是独立同分布的。比如differences in image acquisition, demographics, disease characteristics and other factors。这些图像分布上的差异性可能就导致模型不能具有良好的generalization。那常用的图像预处理的方法能否消除这些差异性对机器学习的影响呢？其实这个问题也是医学图像处理中domain adaption的源头问题。

在NeurIPS Workshop 2019 Ben Glocker等人从Cambridge Centre for Ageing and Neuroscience study (Cam-CAN)和UKBiobank两个脑部MRI数据集中各取296个subjects，并对592个subjects进行一系列的图像预处理操作后，再用分类器判断预处理后的592subject来自哪个数据库，最后发现分类器仍然能够准确的分辨出每个subject的来源。

论文链接：Machine Learning with Multi-Site Imaging Data: An Empirical Study on the Impact of Scanner Effects

2. Dataset and method

数据参数：

Cam-CAN: 3T Siemens TIM Trio scanner with a 32-channel receive head coil; 3D MPRAGE, TR=2250ms, TE=2.99ms, TI=900ms; FA=9 deg; FOV=256x240x192mm; 1mm isotropic; GRAPPA=2; TA=4mins 32s

UKBiobank: 3T Siemens Skyra scanner with a 32-channel receive head coil; 3D MPRAGE, R=2, TR=2000ms, TE=385ms, TI=880ms; FOV=208x256x256mm; 1mm isotropic; Duration 4mins 54s.

step 1预处理：

1）reorientation 2）Skull stripping 3）Bias field correction 4）Intensity-based linear registration (rigid and affine) to MNI space 5) whitening (zero-mean/unit-variance)

step 2 随机森林对预处理之后的数据进行分类：

Table 1的分类结果表明，即便是经过careful pre-processing之后，分类器仍然能够很容易将来自不同sites的数据区分开，并且分类的准确率很高。