本文内容简介:
包括应用TCGA数据预处理,应用LASSO回归筛选变量,构建多基因预测模型,绘制风险因子关联图,时间依赖ROC曲线评估模型。
lasso筛选基因变量
生存资料的经典方法是Cox
- 比例风险回归模型,Cox模型要求自变量之间相互独立,且样本量大于预测变量,很明显在高通量基因表达谱资料中,预测变量(基因数)远远大于样本含量且各变量之间常具有强相关,呈现高维度和共线性,此时传统Cox模型就不再适用。可根据现有研究状况,大部分研究人员仍然使用的是Cox模型,对Lasso法的了解并不多见。
Lasso法的优势
-
LASSO的作用其实就是在系数的绝对值之和上增加一个约束条件来对高维资料进行降维,减少一些不必要的干扰,噪声,来得到更好的拟合效果。
-
由Tibshirani教授提出,由于它是对系数的绝对值而非系数的平方项进行惩罚,也叫L1 惩罚,它是在回归系数的绝对值之和小于等于一个常数λ 的约束条件下,使logL( β) 达到最大来产生某些严格等于0的回归系数。
-
对于高维度纬度、强相关的高通量基因表达数据,LASSO方法在将许多没有意义的
解释变量压缩为0 之后,模型反而更优,在Cox 模型中进行变量筛选用LASSO 方法要比逐步筛选更具有竞争力。
网友评论