医学数据统计和临床试验统计文献当中经常提及某个因素A在校正了 (adjusted for) 因素B的情况下的效应是多大,那么校正是什么意思呢?又如何选择校正变量呢?
1. 校正的含义。从回归的角度来说,某效应是在其他校正变量取值不变的情况下而言的。这样就通过引入条件控制了其他效应对目标效应的影响。这个就是校正的含义。
2. 什么情况下需要纳入校正变量呢?可以从两个角度去看。第一是考虑混淆效应。如果未纳入某些变量时目标效应的估计是有偏差的,此时为了取得目标效应的无偏估计,就需要引入校正变量。第二是从预测能力的角度去看。如果某些自变量和因变量有较强的关联,那么引入这些自变量会有助于降低未解释的因变量变异,从而可能提高统计推断的把握度。
3. 应该引入多少校正变量呢?以Logistic回归为例,一般每增加一个自变量,需要有10个事件的样本量增加以保证对参数估计的精度。对于医学大数据预测性建模来讲,如果是采用交叉验证,很多情形下最终的模型是中度复杂程度的。引入的变量太多可能是过度拟合的结果。
ref:
https://www.sohu.com/a/371326662_120558739
网友评论