不知道这个方法是干什么的童鞋请先行百度,这里不做百科
1.数据下载
从 TCGA 下载 level3 的 RNA-seq 数据,筛选条件:剔除生存时间不完整的
样本,筛选生存时间小于
30 天的数据,得到 xxx 个样本作为研究对象,样品的临
床数据统计结果如下表。
![](https://img.haomeiwen.com/i12662217/24e6934331553d61.png)
注:
Covariates 参数
Type 类型
Patients 病人数目、百分比
fustat 生存状态
2.差异表达
使用 edgeR R 包
(http://www.bioconductor.org/packages/release/bioc/html/edgeR.html)计算正
常组织和肿瘤组织的差异表达情况(|logFC|>2 & FDR<0.01),所有差异基因保存
在 01.diff/diff.xlsx
![](https://img.haomeiwen.com/i12662217/7183116e5d77ea8f.png)
3.热图
使用 pheatmap R 包(https://cran.r-project.org/web/packages/pheatmap/)对差异基因进
行聚类分析(Bidirectional hierarchical clustering),差异基因聚类图如(保存在
02.heatmap/heatmap.tiff)。在聚类图中,红色代表基因在该样品中高表达,绿色代表基因在
该样品中低表达。
![](https://img.haomeiwen.com/i12662217/7cfd7409643b5e70.png)
4.单因素 Cox 分析
使用 Survival 包对 ceRNA 网络中的 lncRNA 做单因素 Cox 分析,筛选条件 P<0.05,
网 络 中 的 44 个 DElncRNA 中 有 28 个 lncRNA 符 合 条 件
( 保 存 在7Cox/1UnivariateCox/UnivariateCox.xlsx)。
![](https://img.haomeiwen.com/i12662217/203be4198da1f4cc.png)
5.多因素 Cox 分析
使用 Survival 包对挑选出来与单因素显著差异的 lncRNA 进行多因素分析,
根据 Akaike Information Criterion(AIC)查找最优的模型。得到风险模型:risk
socre=ARHGAP31-AS1*(-0.3577)+ LY86-AS1*(0.1551)+WARS2-IT1*(0.2064)。
使用 Kaplan-Meier 方法对高低风险组的生存期进行比较,统计学方法选用
log-rank 。 根 据 高 低 风 险 , 绘 制 生 存 曲 线 , 如 图 12( 保 存 在 保 存 在 7Cox/
2MultiCox/survival.pdf)。
![](https://img.haomeiwen.com/i12662217/9f4932a9b844a647.png)
6.ROC 曲线
使用 survival R 包对差异绘制 ROC 曲线(保存在 07.ROC/ROC.tiff),同时计算
AUC 值。得到 AUC 值大于 0.7,说明我们的模型可以很好的预测病人的生存。
ROC 曲线下的面积值在 1.0 和 0.5 之间。在 AUC>0.5 的情况下,AUC 越接近于 1,
说明诊断效果越好。AUC 在 0.5~0.7 时有较低准确性,AUC 在 0.7~0.9 时有一
定准确性,AUC 在 0.9 以上时有较高准确性。我们分析得到三个 lncRNA 的 AUC
都大于 0.7,说明我们的模型可以很好的预测病人的生存。
![](https://img.haomeiwen.com/i12662217/f931d195926f9515.png)
7.风险曲线和热图
对于每个样品,根据公式和每个样品的 lncRNA 表达量得到每个样本的生存
打分,再根据 ROC 曲线,得到 Risk score=3.400 时敏感性和特异性最高。以 3.400
作为临界值,将病人分别分为高低风险组。然后按照病人风险值由低到高绘制下
列图形,结果保存在 07.RiskPlot 中
![](https://img.haomeiwen.com/i12662217/9b271e0ccb9b2d76.png)
8.独立预后因子
将临床数据和 risk score 一起做多因素 cox 分析,得到 risk Score 多因素分析
结果(08.Independence/Independence.xlsx)。从表 4 可以看出,无论单因素还
是多因素分析,Risk score 风险值的 p 值都小于 0.05,说明我们模型得到的 Risk
score 可以癌症独立的预后因子。
根据基因的 GO 注释,选择本物种的所有基因作为背景基因,使用统计方
法计算 P 值,通过设定显著性阈值分别得到相对于背景具有统计意义的高频率
注释,从而得到基因集合在 GO 类别上的分布信息和显著性情况。
使用 DAVID 对甲基化差异基因进行 GO 功能富集分析,P<0.05 被作为筛选
条件。同时,绘制富集结果的图形。我们找到了显著富集的 GO,富集的表格如
表(05.GO/GO.xlsx),GO 的富集图形如图(05.GO/GO.tiff)。
![](https://img.haomeiwen.com/i12662217/a8c27f7945be53fe.png)
PATHWAY 分析
从复杂调控网络的角度出发,基于常见生物学通路数据库,对正常组和癌症组差异甲基
化基因集合进行基于
PATHWAY 数据库的生物通路富集分析,从而提取出最相关的生物通
路上的基因,更加有利于下游实验的开展。
对差异甲基化基因进行
PATHWAY 通路富集分析,p-value <0.05 被作为筛选条件。富
集的通路保存在
06.PATHWAY/PATHWAY.xlsx,图形保存在 06.PATHWAY/PATHWAY.png
![](https://img.haomeiwen.com/i12662217/acc1269f470acc66.png)
![](https://img.haomeiwen.com/i12662217/483f3cdd3c84e853.png)
网友评论