
一、开门见山:敏感度,特异度 or ROC曲线,它反应的都是某种检验指标或者模型对正常/疾病 人群的分类能力,而这种分类能力是什么?就是
指标分布重叠越少,该指标对人群的分类能力越强,该指标越好;反之越差
二、真实分布:对于一个检验指标,其真实人群的分布几乎都是如此:得病的人群分布相对右偏,无病的人分布相对低,两者间有重叠。给指标设定任意一个cutoff值,都会得到对应的敏感度,特异度,进而对应ROC曲线上的一个点; 对cutoff取连续值(通常是取所有的观察结果或预测概率值),即得到ROC曲线,而ROC曲线的本质含义就是反应指标的分类能力。
三、理想分布:理想的指标是两个人群分布完全没有重叠,此时ROC曲线下面积为1,不过理想指标往往仅仅存在于“理想”中。之所以ROC曲线下面积为1,是因为此时一定存在一个连续区间(即两分布中间的那个区间),以此连续区间内的值作为cutoff时,敏感度和特异度均为100%。
四、敏感度、特异度的含义(从混淆矩阵出发)

-
敏感度 = TP/(TP+FP);提升敏感度是为了更好地将有病的人筛选出来
-
特异度 = TN/(TN+FN);提升特异度是为了更好地将正常的人筛选出来
-
要同时提升敏感度和特异度,就是指标/模型本身足够好,在人群中的分布重叠足够小。这样的指标/模型对人群的分类能力强,敏感度和特异度自然高。可以说,
-
然而对于同一指标/模型,不同的cutoff值情况下,其敏感度和特异度是可以动态变化的:
- 不同cutoff值对应不同敏感度和特异度,进行描点即得到ROC曲线,曲线下面积体现的是指标/模型的固有分类能力大小;
- 不同cutoff值对应不同敏感度和特异度,经过权衡选取一cutoff值用作最终分类标准
- 不同cutoff值对应不同敏感度和特异度,在一定区间内,敏感度和特异度的增长呈现相反趋势:原因在于降低cutoff值使得指标/模型更倾向于将结果预测为positive:TP、FP都提升,当然TP/(TP+FP)整体是提升的;与之俱来的是预测结果Negative的减少,TN和FN同步减少,在某些情况下会导致特异度降低
-
图一出发理解cutoff值的变化对敏感度和特异度的影响:
图三、高铁呕吐袋所作不同cutoff下的敏感度和特异度变化曲线
-
1.敏感度在cutoff小于2的时候,恒为1,cutoff在2-100之间上升时,敏感度单调下降直至0。
- Cutoff小于0时,特异度为0,cutoff在0-10之间增长时,特异度单调递增至1。
- 最佳cutoff值应在2-10之间,在这个区间内,敏感度和特异度的变化趋势相反,敏感度降低特异度增高
网友评论