Zhou2016 交叉验证的2种方法和矫正相关系数

作者: 董八七 | 来源:发表于2018-11-12 15:21 被阅读0次

Zhou2016 交叉验证的2种方法和矫正相关系数
深度学习知识点汇总-机器学习基础（15）
机器学习笔记（一）——交叉验证
嵌套交叉验证（Nested cross-validation）
十一、交叉验证和网格搜索
k折交叉验证
如何进行变量筛选和特征选择(三)？交叉验证
决策数02
CH1 统计学习方法概论|1.5.2交叉验证《统计学习方法》-学
理解「交叉验证」(Cross Validation)

Zhou Y, Isabel Vales M, Wang A, et al. Systematic bias of correlation coefficient may explain negative accuracy of genomic prediction. Briefings in Bioinformatics, 2016, (June): bbw064. DOI: 10.1093/bib/bbw064.

相关系数的系统偏差可以解释基因组预测的负准确性

摘要

基因组预测的准确性通常通过使用交叉验证分析计算为推断群体中预测和观察到的表型之间的Pearson相关系数。比预期更频繁地，在基因组选择研究中已经报道了基因组预测的显着阴性准确性。考虑到当分析随机置换的数据集时，预测准确度的最小值应该在零附近徘徊，这些负值是令人惊讶的。我们回顾了计算Pearson相关性的两种常用方法，并假设这些负精度值反映了由于用于计算预测精度的数学公式引起的假值而导致的潜在偏差。第一种方法即时准确度计算每个折叠的相关性，并将预测准确度报告为折叠相关的平均值。另一种方法，保持准确性，预测所有折叠中的所有表型，并计算在交叉验证过程结束时观察到的和预测的表型之间的相关性。使用模拟和真实数据，我们证明了我们的假设是正确的。在某些条件下，这两种方法都会向下偏向。当采用更多折叠以及预期精度低时，偏差都会变大。使用修改后的公式可以校正即时准确度的偏差。
关键词：基因组选择;基因组预测;皮尔逊相关;准确性;交叉验证

介绍

基因组研究的最终目标之一是从基因型预测表型。这些预测的好处包括改善人类医疗保健管理，以降低疾病风险，提高植物和动物的繁殖效率，以实现农业可持续性[1？]。预测准确度通常表示为观察到的和预测的表型之间的Pearson相关系数[5]。与该计算相关的一个问题是过度拟合，其发生在使用观测表型推导预测公式时[5,6]。
通过使用交叉验证[7？]可以消除过度拟合问题。在交叉验证方案中，整个群体被分为两个群体，称为参考和推理。推理群体通常包括较小的比例，例如总群体的五分之一。仅使用参考群体的表型来推导预测公式。除了评估推断群体的预测值之外，不使用推断群体的表型。在针对该第一推断群体完成预测之后，将推断个体切换到参考群体，并且将另一小部分参考个体切换到推断群体。重复该过程直到所有个体都转换为推理个体。如果推理总体占总群体的五分之一，则需要五次重复才能完成所有个体的预测。在这种情况下，交叉验证也称为5倍验证[10]。
交叉验证过程创建了两种计算Pearson相关系数的方法[11]。【1】首先，以5倍交叉验证方案为例，将整个群体平均分为五组。使用其他四组作为参考群体来预测用作推断群体的一组的表型值。可以立即针对推断组计算观察到的和预测的表型之间的相关性。在将每个组视为推断之后计算一个相关系数。五个系数的平均值等于预测精度。 Daetwyler等人详细审查了这种方法并提出了建议。（2013）[12]作为报告预测准确性的标准。我们命名以这种方式计算的准确度，即时准确性。【2】其次，可以保持相关性的计算，直到所有组中的所有个体都接受表型预测[13,14]。在这种情况下，在过程结束时计算所有观察到的和预测的表型之间的单一相关性。我们命名以这种方式计算的精度，保持精度。
虽然Pearson相关系数可以从-1到1，当表型不可遗传时，或表型和基因型完全断开时，预计基因组预测的最低准确度将在零附近徘徊。实际上，据报道，负面准确度处于显着水平[15？7]。例如，在玉米的基因组预测研究中报道了显着的负相关系数，范围从？.24到？.42 [15]。这种现象表明，当前程序中可能存在向下偏差，以评估基因组预测的准确性。鉴定和纠正这种偏倚对于消除基因组预测的不同设置和方法之间的无效比较是必要的。
在这里，我们回顾了交叉验证的过程以及计算Pearson相关性作为预测精度的常用方法。我们的目标是（1）评估保持和即时准确度方法之间的差异; （2）评估这两种方法在不同情况下的潜在偏差; （3）如果确认偏差，提供克服偏见的解决方案。

结果

为了评估Pearson相关性的潜在偏差，我们使用三种类型的数据（真实的，模拟的和随机的）和四种物种 - 拟南芥，玉米，小鼠和火炬松 - 来检查由Hold和Instant准确度计算的基因组预测准确度的方法。使用最常用的方法进行基因组预测，基因组最佳线性无偏预测（gBLUP）[18,19]。来自拟南芥，玉米，小鼠和火炬松的真实基因型和表型数据分别用于比较开花时间（FT10），雌性开花（天丝，DTS），重量和总茎高的表型性状的预测准确性的经验差异（ THT）。使用真实基因型模拟的表型来比较遗传结构对Hold和Instant方法之间预测准确性的影响（图1）。随机改组真实表型会破坏表型和基因型之间的关联，并作为阴性对照。

引用方式和推论之间的人为负相关

我们使用玉米雌性开花（DTS）表型来证明通过使用随机数据的保持相关方法可以获得基因组预测的人为负的准确性。通过随机改组260个玉米自交系的真实表型，我们打破了表型和基因型之间的关联。基因型数据集包含跨越玉米基因组的51 742个单核苷酸多态性（SNP）。我们将260种表型随机聚类成5个大小均匀的组。选择一组作为推理人群;其他四个作为参考人群。我们迭代推理群体，直到所有群体都作为推理群体。个体表型显示在图2A中。组内表型的分布如图2B所示。我们记录了每次迭代的推断和参考群体的表型手段（图2C）。我们观察到两组平均值100％负相关（图2D）。

保持精度的负偏差

我们还记录了遗传力估计值，预测的表型以及参考群体中观察到的和预测的表型之间的相关系数（图3A瑿）。由于真实表型随机改组，遗传力估计值接近于零。由于收缩，预测的表型也接近于零。然而，参考中观察到的和预测的表型之间的相关性远远高于零（平均值0.84），这绝对是人为的。推论的预测是参考预测的函数（参见“材料和方法”部分中的公式（4））。例如，参考的预测值越高，推断的预测值越高。参考方法和推论之间的完全负相关导致推断群体中观察到的和预测的表型之间的人为负相关。实际上，推理群体中相关性的分布表现出负偏差（图3D璅）。
因此，观察到的和预测的表型之间的这种人为的负相关可以导致显着的负基因组预测准确性，并且可以部分地解释为什么在文献中已经报道了这些负值。特别是，当预期的预测准确度低时（例如由于低标记密度，小种群大小，低特征遗传力或这些因素的组合），使用保持方法将有更大的机会产生负精确度结果。

使用保持精度，更多折叠会导致更多偏差

使用所有四个物种的表型的随机数据集来评估交叉验证中使用的倍数（2,5,10,20和64）对即时和保持方法的预测准确度的影响（图4）。再次，真实的表型被随机改组以打破与基因型的关联。我们对推理总体中基因组预测准确性的期望为零。对于所有检查的四个物种，我们发现当使用保持精度方法时，负相关偏差增加的趋势更多。相比之下，即使准确度方法产生了无偏的相关值，尽管折叠的数量越来越多 - 所有四个物种的预期准确度接近零。

Hold和Instant方法之间预测准确性的差异

我们通过使用从真实玉米基因型模拟的表型将我们的检查扩展到预期预测准确度高于零的情景。使用了四种不同的性状遗传力和四种不同的种群大小。计算瞬时和保持精度，并使用5倍交叉验证进行比较（图5和补充表S1）。保持精度始终低于即时准确度，特别是当特质遗传力较低和/或群体规模较小时。例如，当性状遗传力较低（例如0. 125或0.25）时，我们观察到使用Hold方法时的负精确度。该结果类似于上述实验，其使用随机改组的真实表型来打破表型和基因型之间的关联。
我们还将保持和即时准确度之间差异的检查扩展到基因组预测之外的预测。我们使用常见的预测方法，即一般线性模型，来评估在116个个体上测量的45个拟南芥性状。这45个特征中的每一个都被视为因变量，其余的作为解释变量来预测特征（补充图S1）。通过5倍交叉验证评估预测准确性。尽管相关性水平在性状之间变化，但我们随机改组因变量以打破因变量和解释变量之间的相关性。因此，我们预计即时准确度的准确度为零，这通过所有45个特征的计算预测准确性得到证实。但是，与即时准确度相比，保持精度向下偏差。这一发现表明，保持精度的偏差不仅适用于基因组预测，也适用于其他类型的预测。

即时准确性独有的问题

我们还发现了Instant方法独有的预测准确性问题。当只有一个人在推理人群中时，即时准确性方法无效。例如，当使用Jackknife重采样方法时，省略一种表型作为推断。此外，即时准确度可以是1还是-1只有两个人在推理人群中。每当预测的表型与观察到的表型具有相同的顺序时，Pearson相关系数为1;否则，是-1。相反，Hold方法可以在任何情况下计算准确度，因为它总是使用所有个体来计算相关系数。
除极端情况外，较大折叠的交叉验证会导致推理总体中的样本量较小。我们观察到使用Instant方法严重低估了准确性，仅仅是因为样本量不足以计算Pearson相关系数（补充图S2）。我们在四种物种的数据集中实施了Jackknife交叉验证。我们预计这些真实性状的潜在真实准确度应该至少等于Hold的准确度，分别为拟南芥，玉米，小鼠和松树的0.758,0.867,0.367和0.429。我们从总共192个个体中随机抽取n对（范围从2到192）观察到的和预测的表型。当样本大小（每个人的个体数量）很小时，100个重复的相关性意味着严重低估了即时准确性。例如，样本量为3时，即时准确度方法得到的Pearson相关系数分别对拟南芥，玉米，小鼠和松树减少了41.62％，20.37％，41.75％和35.18％。

将即时准确性修正为无偏估计

1915年，R.A费舍尔发现Pearson相关系数存在偏差：预期样本相关系数不等于总体相关系数[20]。偏倚程度取决于样本大小和群体相关系数值。较小的样本会导致更多偏差。尽管瞬态精度和保持精度都使用Pearson相关系数，但我们预计瞬态精度会更成问题，因为它使用的样本数小于保持精度。我们模拟了具有不同种群相关系数的成对随机变量，范围从0到1.皮尔逊相关系数是根据样本大小2,5,10和50计算的。采样重复100次。 100个重复的平均相关系数在补充图S3中说明。当样本量较小且总体相关性远离0或1时，偏差增加。在交叉验证中，用于计算即时准确度的样本大小取决于折叠数。当折叠数量很大时，推理总体包含较少的用于计算Pearson相关系数的个体，导致负偏差。
这些现象解释了我们用实际数据观察到的情况（图6）。我们发现Hold方法的预测精度随着交叉验证中折叠数的增加而增加。因为折叠的样本大小对于计算保持精度是恒定的，所以参考群体大小随着折叠次数而增加。反过来，预测准确度随着参考群体的大小增加而增加。该观察结果表明，使用Hold方法，改进的预测准确性是由于较大的参考群体。这种改进可能足以抵消由于折叠次数增加而导致的低估精度。
与保持精度不同，由于大量折叠，即时准确度没有表现出向下偏差;因此，我们预计即时准确度估计值至少与保持精度估计值一样高。但是，随着折叠次数增加到一定水平以上，即时准确度低于保持精度。我们怀疑后一种情况是由于推理群体的样本量较小所引起的偏差。幸运的是，通过将Olkin＆Pratt的校正[21]应用于Pearson相关系数，我们能够在使用Instant方法时补偿小的推理群体样本量。也就是说，校正的即时准确度估计值随着倍数的增加呈现增加的趋势（图6）。当校正应用于模拟数据时，使用不同样本大小的成对变量，校正的Pearson相关系数几乎是无偏的（补充图S3）。

讨论

与连锁分析和全基因组关联研究等其他替代方法一起，基因组预测正成为预测基因型表型的主要工具之一[22]。对预测准确性的有效评估对于开发可最终降低人类疾病风险和增加粮食产量的统计方法和应用系统至关重要。文献中报道的显着负面准确性引起了巨大的混乱和担忧。简单地将这些负精度值更改为正（切换符号）将不太可能在实践中转化为相同的预测水平。可以在交叉验证分析中以多种方式计算相关系数，以估计预测准确度。因此，了解这些计算方法的差异及其潜在偏倚有助于减少混淆，对于在基因组预测研究中进行有效比较至关重要。
在这项研究中，我们发现计算预测准确度的两种常用方法，即Hold和Instant，可以产生不同的结果。也就是说，根据研究设计或某些情况，一种方法可以产生比另一种更高或更低的精度。例如，我们证明当精度预期为零时（在置换数据的情况下），Hold方法表现出负偏差，这可能解释了文献中报告的显着的负精度（图4）。我们还证明，当推理群体的规模很小时，即时方法表现出负偏差，尤其是<30个人。我们还发现，纠正用于计算即时准确度的公式可以弥补小的推理群体规模，并且是减少或消除负偏差的潜在可行解决方案。

零假设下的偏差保持准确度

尽管瞬时和保持准确度是计算基因组预测准确度的两种最常用的方法，但先前的研究已经交替使用它们而不考虑每种方法是否产生不同的结果。我们清楚地证明了这两种阴性对照方法在准确度偏差方面的差异。在该实验中，当观察到的表型随机改组以打破它们与基因型的关联时，观察到的和预测的表型之间的预期准确度（相关性）为零（图2和4）。在这种情况下，瞬态精度没有偏差，但保持精度确实如此。此外，保持精度偏差随着折叠次数的增加而增加。随着折叠次数的增加，即时准确度保持不变，直到推理种群大小变得非常小（例如<30个人）。

保持和即时准确度方法产生不同的结果

在先前的研究中使用保持和即时准确度方法来使用交叉验证来评估基因组预测准确性。然而，我们发现文献中通常省略了所使用的确切方法 - 最有可能的原因是两种方法都可以得到相同的结果。评估这两种方法的差异相对于真实表型的预测是复杂的，因为研究因子通常是病例特异性的。许多因素影响预测准确性，包括种群大小，分子标记数，连锁不平衡程度，种群结构，性状遗传力，基因型与环境的相互作用，上位性和预测方法[11,23]。其中一些因素已经过模拟数据[12,24]和实际数据集[25]。我们根据样本量和遗传力来改变我们的环境，这是控制可预测性的两个主要因素。当可预测性较低时，保持和即时准确度之间的差异较大，例如，当样本量较小或特征遗传率较低时（图5）。

与即时准确度相比，保持精度向下偏差

如图2所示，推断和参考的表型手段总是100％负相关。如果推断的预测与参考的预测正相关，则使用保持准确度向下偏差预测准确度。事实上，这种相关性总是如此。尽管有多种预测方法可供使用，但所有方法都有一个共同的特征 - 对没有表型的个体的预测是具有表型的个体预测的函数。以gBLUP为例，对具有表型（参考）的个体的基因组预测进行加权以确定没有表型（推断）的个体的预测。请参阅“材料与方法”部分中的公式（4）。权重是没有表型的个体之间的子亲属矩阵乘以具有表型的个体中的子亲属矩阵的倒数。具有表型的个体的预测值越高，对没有表型的个体的预测值越高。
此外，参考个体的预测总是与其表型正相关（图3C）。即使当表型被随机改组并且估计遗传力接近于零时，由于收缩，表型和它们的预测之间仍然存在强相关性，其接近于零。这些研究结果表明一致的趋势 - 减少推理表型意味着，增加参考表型意味着;增加参考预测手段，增加推理预测手段。因此，使用保持精度总是存在推理表型装置和推理预测装置之间的负相关。

即时准确性在大多数情况下都很有效

当推理总体的大小足够大时，即时准确性是评估预测准确性的有效方法。首先，即时准确性在零假设下是无偏的。其次，即时准确度高于真实表型的保持精度。并且，我们预计即时准确性不会过高估计预测准确性（图5）。相反，保持精度低估了预测精度。仅当推断的样本量太小时，即时准确度低于保持精度（图6）。在这种情况下，根据样本大小，需要对即时准确性进行更正。

校正的即时准确性几乎完美

可以轻松纠正即时准确度，以实现几乎无偏估计。对于真实的表型，较大的参考群体大小为预测提供了更多信息，并且应该导致更高的准确性。尽管我们观察到未校正的瞬态精度遵循相反的趋势，但校正的瞬态精度遵循我们预期的趋势。对于模拟数据，我们观察到校正后即时准确度偏差消失。推理总体的大小（每倍样本大小）是校正所需的唯一附加参数。虽然有几种方法可用于校正Pearson相关系数偏差，但我们推荐使用Olkin＆Pratt方法[9]。偏差校正方法对于小样本大小最有用，并且几乎不会改变大样本的原始相关系数。 Olkin＆Pratt方法需要最小样本量为5;其他方法需要或多或少。

避免折刀

在基因组预测的交叉验证中使用大折叠对于维持较大的参考群体大小是优选的，并且反过来，实现更高的预测准确性。最极端的交叉验证方案，称为Jackknife重采样方法，是仅留下一个人作为推理的策略。该方法基于其他个体对该个体进行预测。然后将个体换成下一个人，直到预测所有个体。在这种情况下，当新个体用作推理并且其余现有个体用作参考时，可预测性更接近于未来预测。然而，Jackknife方法也给出了最大的偏差。由于推理总体中只有一个人，因此无法应用“校正即时”准确度来减少或消除这种偏差。

研究局限

尽管在我们的研究中仅使用了一种基因组预测方法（尽管是最广泛使用的gBLUP），但我们有理由相信其他预测方法会产生类似的结果。然而，只有在使用其他方法[26？0]进行综合研究（类似于我们的研究）之后，才能得出可靠的结论。我们也承认，大多数先前发表的研究可能不会受到我们研究中描述的偏差的不利影响。当评估高度遗传性状时，偏差问题是最小的，原始种群大小很大并且使用有限数量的折叠（通常为5或10倍，这导致可接受的推理群体大小）。在这种情况下，保持和即时精度之间的差异很小，不需要即时精度校正。
我们建议在推理总体较大时使用未校正的即时准确度，在推理总体较小时使用校正的即时准确度。遵守这些指南将为比较基因组预测的不同设置下的准确性提供一致的标准。我们的研究结果揭示了可能导致负面准确性的偏见，并且应该有助于减少在实践和已发表的文献中滥用显着的负面准确性。尽管如此，通过应用我们推荐的标准，只有在有限的情况下才能获得负的准确性 - 使用较小的原始种群大小和/或遗传率低的特征。

结论

用于计算Pearson相关系数的保持和即时方法导致不同的预测准确度，尤其是对于低遗传性状，小群体和/或小推断群体大小。两种方法在某些情况下都表现出偏差当预期的准确度为零时，即时准确度保持不偏不倚，而保持精度则是负偏差，尤其是更多的折叠。当预期精度低时，负预测精度可以是用于计算相关系数的数学公式的伪像。只有当预期的准确度远离0和1且推理总体很小时，即时准确性才表现出偏差。通过修改用于计算即时准确度的公式，可以将此偏差校正为几乎无偏估计。

材料和方法

基因组预测

使用最广泛使用的方法gBLUP [18,19]进行基因型表型的预测。该方法可以表示为混合线性模型：
$y=Xb+Zu+e$
（1）

其中y是观察到的表型的载体; b是固定效应，仅包含本研究中的总体平均值; X是关联矩阵，是本研究中的一个向量;并且u是具有和不具有表型的所有个体的随机加性遗传效应的载体。个体方差结构由关系矩阵（K）和加性遗传方差的方差定义。 K使用VanRaden算法从所有可用的遗传标记中获得; Z是标记效应的关联矩阵。我们使用0和2表示两个纯合基因型类别，1表示杂合子类别; e是具有残差方差的随机残差效应。 e中的元素被假定为独立的。在给定未知参数的情况下，通过EMMA算法[34]优化残差方差和加性遗传方差的比率，以最大化数据的受限可能性（Y，X，Z，K）。使用以下工作模型，通过R-package GAPIT [35,36]对具有表型的个体进行求解方程（1）：
$y_R=X_Rb_R+Z_Ru_R+e_R$
（2）

其中所有项均如式（1）中所定义，并且“R”下标仅表示具有表型的个体（参考）。根据参考个体和没有表型（推论）的个体，亲属关系（K）也被分为子矩阵，如下：
$k= \left[\begin{array}{c} K_{RR}&K_{IR}\\ K_{RI}&K_{II} \end{array}\right]$
（3）

其中KRR是参考中个体的子亲属矩阵，KIR和KRI是推理和参考中个体之间的子亲属矩阵，KII是推理中个体的子亲属矩阵。推理个体（uI）的基因组预测来源于亨德森的公式[37]如下：
$u_I=K_{IR}K_{RR}^{-1}u_R$
（4）

基因组预测在软件包GAPIT中实施[35,36]。源代码，演示脚本和帮助文档可在ZZLab.Net/GAPIT在线获取。

交叉验证的预测准确性

预测的准确性通常被定义为推断群体中预测和观察到的表型之间的相关性。在交叉验证分析中，Pearson相关系数（即预测准确度估计）通常以两种方式计算。首先，以5倍交叉验证为例，将整个群体分成五个相等的组。一组名为推理总体，基于其他四组（参考人群）进行预测。对于推断组，立即计算观察到的和预测的表型之间的相关性。类似地，在将四个参考组中的每一个作为推断处理之后立即计算相关系数，得到五个相关系数;五个系数的平均值等于预测精度。我们命名以这种方式计算的准确度，即时准确性。其次，可以保持相关性计算，直到所有组中的所有个体都接受表型预测。然后，计算所有组中所有观察到的和预测的表型之间的单一相关性。我们命名以这种方式计算的精度，保持精度（图1）。

修正Pearson相关系数

因为与皮尔逊系数相关的偏差是由R.A.发现的。 Fisher于1915年[20]，已经开发出许多修正方法。我们使用Olkin和Pratt的方法[21]来校正从具有n个个体的样本计算的Pearson相关系数（r），如下：
$\hat{\rho}=r[1+\frac{1-r^2}{2(n-4)}]$

Zhou2016 交叉验证的2种方法和矫正相关系数
Zhou Y, Isabel Vales M, Wang A, et al. Systematic bias of...
深度学习知识点汇总-机器学习基础（15）
2.15 交叉验证和k折交叉验证交叉验证是为了提高模型的泛华能力。方法主要有：留一交叉验证 k折交叉验证这...
机器学习笔记（一）——交叉验证
交叉验证问题什么是交叉验证交叉验证是在机器学习建立模型和验证模型参数时常用的办法。交叉验证，顾名思义，...
嵌套交叉验证（Nested cross-validation）
传统交叉验证和嵌套交叉验证的区别在开始分享嵌套交叉验证前，首先以K-Fold为例，区分K-Fold交叉验证和嵌套...
十一、交叉验证和网格搜索
1交叉验证 1）评估方法一般有留出法，交叉验证法，自助法，这里我们介绍交叉验证法。2）k折交叉验证法：将数据集D划...
k折交叉验证
k折交叉验证参考: 求解神经网络做十字交叉验证k=10，这种方法到底是得到十个模型还是一个模型。? - 王赟 ...
如何进行变量筛选和特征选择(三)？交叉验证
01 模型简介交叉验证是机器学习中常用的一种验证和选择模型的方法，常用的交叉验证方法是K折交叉验证。将原始数据...
决策数02
建树全参一、交叉验证交叉验证是用来观察模型的稳定性的以一种方法，我们将数据划分为N份，依次使用其中的一份作为测...
CH1 统计学习方法概论|1.5.2交叉验证《统计学习方法》-学
文章原创,最近更新：2018-06-11 1.什么是交叉验证法？2.为什么用交叉验证法？3.交叉验证主要有哪些方法...
理解「交叉验证」(Cross Validation)
交叉验证是机器学习中常用的一种验证模型的方法，使用这种方法，你可以准确的调整模型的超参数（Hyperparame...