|
在选择诊断试验时,许多研究者会在灵敏度和特异度之间进行艰难的取舍。那么,是否可以综合考虑灵敏度和特异度的特点,根据一个指标评价诊断试验的准确性呢?Lusted于1971年提出受试者工作特征曲线(receiver operating characteristic curve,简称ROC曲线),用来描述诊断试验的内在真实程度,应用十分广泛。
ROC曲线是以真阳性率(灵敏度)为纵坐标,假阳性率(1-特异度)为横坐标绘制的。每一个点都对应诊断试验的一个截点,我们将这些可能的点连接起来即可制作出经验ROC曲线(empirical ROC curve)。该方法可以帮助研究者简单、直观地分析诊断试验的临床准确性,选择更加合适的截点。
那么,ROC曲线应该如何绘制呢?
第一个栗子
有20位受试者体内含有植入式人工心脏瓣膜,现拟采用数字成像诊断试验检查瓣膜的断裂情况。常用的检查方法是测量阀门支架之间的距离,距离越大,瓣膜断裂的可能性越大。经手术发现,这20位受试者的瓣膜断裂情况和阀门支架距离的关系如图1。
image手术证实,20位受试者中有10位存在瓣膜断裂的情况,而另外10位瓣膜完好。瓣膜断裂受试者的阀门支架距离在0.03到0.58之间,瓣膜完好受试者的阀门支架距离在0.0到0.13之间。为了评价该数字成像诊断试验的灵敏度和特异度,我们设置诊断截点为0.05,即认为阀门支架距离大于0.05的受试者是瓣膜断裂阳性,小于或等于0.05的受试者是瓣膜断裂阴性。从而计算出该诊断试验的灵敏度为0.80,特异度为0.70。
当然,我们知道如果我们选择其他截点,该诊断试验的灵敏度和特异度都会发生相应变化。如果我们选择比较大的阀门支架距离为诊断截点,如0.13,那么灵敏度就会下降到0.50,而特异度会增加到1.0。如果我们选择比较小的阀门支架距离为诊断截点,如0.03,那么灵敏度会增加到0.90,而特异度会降低到0.60。这个例子说明,在同一诊断试验中,灵敏度和特异度之间存在内在联系,即一个增加,另一个就会减低。在这项诊断试验中,设置不同截点时灵敏度和特异度的变化情况如表1。
image接下来,我们就可以根据该诊断试验中灵敏度和假阳性率(1-特异度)相应的数值来绘制ROC曲线了。例如,当截点为0.07时,该诊断试验的灵敏度为0.6,假阳性率为0.2,即我们可以在坐标上取点(0.2,0.6)。再如,当截点为为0.05时,该诊断试验的灵敏度为0.8,假阳性率为0.3,即我们可以在坐标上取点(0.3,0.8)。以此类推,我们可以得到很多这样的坐标点,并将他们连接起来,绘制出经验ROC曲线。但同时,我们也可以根据这些坐标点绘制出拟合ROC曲线,如图2。
image注:经验ROC曲线是在计算出诊断试验不同截点对应的假阳性率(1-特异度)和灵敏度坐标点的基础上,将这些坐标点连接起来的曲线。
拟合ROC曲线是指根据诊断试验不同截点计算出的假阳性率(1-特异度)和灵敏度的坐标点拟合出来的平滑曲线。
第二个栗子
心脏瓣膜诊断试验中的测量指标是连续变量。那么,如果测量指标是分类变量,ROC曲线的绘制过程又是怎样的呢?
现有一项研究,研究者以甲状旁腺CT为诊断试验对连续就诊的97位患者进行分析。根据CT的结果,研究者将患者甲状旁腺的病变情况分为1-5五个等级。1级为完全没有甲状旁腺病变,2级为可能没有甲状旁腺病变,3级为可能存在甲状旁腺病变,4级为疑似甲状旁腺病变,5级为确诊甲状旁腺病变。经手术发现,这97位患者的CT诊断结果与实际甲状旁腺病变的关系如表2。
image如果研究者设置4级为诊断截点,即认为4、5级为阳性,1-3级为阴性,那么该诊断试验的灵敏度为0.70、特异度为0.963。同时,如果研究者设置3级为诊断截点,即认为3-5级为阳性,1、2级为阴性,那么该诊断试验的灵敏度为0.729、特异度为0.889。可见,在该诊断试验中,当灵敏度从0.70增加到0.729时,特异度从0.963下降到0.889。
与心脏瓣膜诊断试验的例子一样,在计算出不同截点的灵敏度和特异度之后,我们就可以绘制该诊断试验的ROC曲线了。但是由于甲状旁腺CT的结果指标是分类变量,所以该诊断试验可能应用的截点数比较少,只能是1-5级这几个固定的点,如图3。
image其中,A点是以5级(确诊甲状旁腺病变)为截点计算出的坐标位置。可见,当以5级诊断结果为截点时,该诊断试验的假阳性率很低,但是灵敏度也不高。B点是以4级(疑似甲状旁腺病变)为截点计算出的坐标位置,灵敏度水平比A点好一些,但是假阳性率也出现少量增加。B点是以3级(可能存在甲状旁腺病变)为截点计算出的坐标位置,灵敏度更好,但是假阳性率也增加得更加明显。
因此,在不考虑误诊和漏诊影响的情况下,我们应当以ROC曲线上离左上角(0,1)最近的点为诊断试验的截点,从而保证最佳的灵敏度和特异度。
|
网友评论