美文网首页生信工具生信必备生物知识生信分析流程
COX 比例风险回归模型(一起学生信)

COX 比例风险回归模型(一起学生信)

作者: vegene | 来源:发表于2019-03-19 15:54 被阅读107次

    不知道这个方法是干什么的童鞋请先行百度,这里不做百科

    1.数据下载

    从 TCGA 下载 level3 的 RNA-seq 数据,筛选条件:剔除生存时间不完整的

    样本,筛选生存时间小于

    30 天的数据,得到 xxx 个样本作为研究对象,样品的临

    床数据统计结果如下表。

    注:

    Covariates 参数

    Type 类型

    Patients 病人数目、百分比

    fustat 生存状态

    2.差异表达

    使用 edgeR R 包

    (http://www.bioconductor.org/packages/release/bioc/html/edgeR.html)计算正

    常组织和肿瘤组织的差异表达情况(|logFC|>2 & FDR<0.01),所有差异基因保存

    在 01.diff/diff.xlsx

    3.热图

    使用 pheatmap R 包(https://cran.r-project.org/web/packages/pheatmap/)对差异基因进

    行聚类分析(Bidirectional hierarchical clustering),差异基因聚类图如(保存在

    02.heatmap/heatmap.tiff)。在聚类图中,红色代表基因在该样品中高表达,绿色代表基因在

    该样品中低表达。

    图 1 红色代表高表达,绿色代表低表达。图形上方正方形颜色代表样品,蓝色代表 AIP 样品,红色代表 PP样品

    4.单因素 Cox 分析

    使用 Survival 包对 ceRNA 网络中的 lncRNA 做单因素 Cox 分析,筛选条件 P<0.05,

    网 络 中 的 44 个 DElncRNA 中 有 28 个 lncRNA 符 合 条 件

    ( 保 存 在7Cox/1UnivariateCox/UnivariateCox.xlsx)。

    5.多因素 Cox 分析

    使用 Survival 包对挑选出来与单因素显著差异的 lncRNA 进行多因素分析,

    根据 Akaike Information Criterion(AIC)查找最优的模型。得到风险模型:risk

    socre=ARHGAP31-AS1*(-0.3577)+ LY86-AS1*(0.1551)+WARS2-IT1*(0.2064)。

    使用 Kaplan-Meier 方法对高低风险组的生存期进行比较,统计学方法选用

    log-rank 。 根 据 高 低 风 险 , 绘 制 生 存 曲 线 , 如 图 12( 保 存 在 保 存 在 7Cox/

    2MultiCox/survival.pdf)。

    横坐标是生存时间,纵坐标是生存率。根据风险值的中位值,将病人分为高低两组图中,红色代表高表达组,蓝色代表低表达组。从图中可以看出,p<0.001,说明高低组差异显著

    6.ROC 曲线

    使用 survival R 包对差异绘制 ROC 曲线(保存在 07.ROC/ROC.tiff),同时计算

    AUC 值。得到 AUC 值大于 0.7,说明我们的模型可以很好的预测病人的生存。

    ROC 曲线下的面积值在 1.0 和 0.5 之间。在 AUC>0.5 的情况下,AUC 越接近于 1,

    说明诊断效果越好。AUC 在 0.5~0.7 时有较低准确性,AUC 在 0.7~0.9 时有一

    定准确性,AUC 在 0.9 以上时有较高准确性。我们分析得到三个 lncRNA 的 AUC

    都大于 0.7,说明我们的模型可以很好的预测病人的生存。

    7.风险曲线和热图

    对于每个样品,根据公式和每个样品的 lncRNA 表达量得到每个样本的生存

    打分,再根据 ROC 曲线,得到 Risk score=3.400 时敏感性和特异性最高。以 3.400

    作为临界值,将病人分别分为高低风险组。然后按照病人风险值由低到高绘制下

    列图形,结果保存在 07.RiskPlot 中

    8.独立预后因子

    将临床数据和 risk score 一起做多因素 cox 分析,得到 risk Score 多因素分析

    结果(08.Independence/Independence.xlsx)。从表 4 可以看出,无论单因素还

    是多因素分析,Risk score 风险值的 p 值都小于 0.05,说明我们模型得到的 Risk

    score 可以癌症独立的预后因子。

    根据基因的 GO 注释,选择本物种的所有基因作为背景基因,使用统计方

    法计算 P 值,通过设定显著性阈值分别得到相对于背景具有统计意义的高频率

    注释,从而得到基因集合在 GO 类别上的分布信息和显著性情况。

    使用 DAVID 对甲基化差异基因进行 GO 功能富集分析,P<0.05 被作为筛选

    条件。同时,绘制富集结果的图形。我们找到了显著富集的 GO,富集的表格如

    表(05.GO/GO.xlsx),GO 的富集图形如图(05.GO/GO.tiff)。

    PATHWAY 分析

    从复杂调控网络的角度出发,基于常见生物学通路数据库,对正常组和癌症组差异甲基

    化基因集合进行基于

    PATHWAY 数据库的生物通路富集分析,从而提取出最相关的生物通

    路上的基因,更加有利于下游实验的开展。

    对差异甲基化基因进行

    PATHWAY 通路富集分析,p-value <0.05 被作为筛选条件。富

    集的通路保存在

    06.PATHWAY/PATHWAY.xlsx,图形保存在 06.PATHWAY/PATHWAY.png

    相关文章

      网友评论

        本文标题:COX 比例风险回归模型(一起学生信)

        本文链接:https://www.haomeiwen.com/subject/jaxnmqtx.html