美文网首页
TCGA多肿瘤mRNA, lncRNA, miRNA数据挖掘

TCGA多肿瘤mRNA, lncRNA, miRNA数据挖掘

作者: 纪伟讲测序 | 来源:发表于2020-12-03 13:41 被阅读0次

导 读

对于大多数常见疾病,GEO或TCGA等数据库有许多可用的原始数据,我们在寻找一个重要的mRNA/lncRNA/miRNA/circRNA进行研究,或者自己高通量测序找到一部分基因,需要扩大样品验证该基因差异的可靠性,我们可以借助于已有数据。之前我们推送过乳腺癌的数据分析“TCGA乳腺癌mRNA, lncRNA, miRNA数据挖掘”,肝癌的数据分析TCGA肝癌mRNA, lncRNA, miRNA数据挖掘,肺腺癌的数据分析“TCGA肺腺癌mRNA, lncRNA, miRNA数据挖掘”受到广大老师的喜爱,本文我们整理了TCGA胃癌的转录组数据,分析mRNA/lncRNA/miRNA的表达谱,以供老师研究参考。

介 绍

肿瘤基因组图谱 (TCGA) 计划由美国 National Cancer Institute(NCI) 和 National Human Genome Research Institute(NHGRI)于 2006 年联合启动的项目,目前共计研究 36 种癌症类型,包括详细病人资料,基因表达,突变,甲基化等数据。本文对胃癌数据进行整理分析。 

材料方法

TCGA胃癌数据:

    1)临床资料

    443个病人临床资料包括性别,年龄,病理分期,生存时间,存活状态。

    2)基因表达数据

    407个病人癌组织与癌旁组织基因表达count值,fpkm值数据。

    3)miRNA表达数据

    477个病人癌组织与癌旁组织miRNA表达count值,tpm值数据。

分析结果

1   mRNA癌与癌旁差异表达分析

 1)差异表达基因火山图图

对癌与癌旁样品基因表达数据进行差异分析,取|log2(FoldChange)|≥1, padj<0.01 且至少有一个分组样品FPKM≥1(去掉表达丰度较低的基因),得到有效差异表达的mRNA,火山图如下:

2)差异表达基因聚类热图

对差异表达mRNA进行聚类,做热图(前200个差异mRNA)。

3)GO富集分析分子功能展示

GO富集分析分析得到的分子功能(Molecular Function)具体term。

4)KEGG pathway通路富集分析

应用超几何检验,找出与整个基因组背景相比,在差异表达基因中显著性富集的Pathway。富集到的Pathway通路:

5)pathway通路图标注

为便于查看 mRNA 所在基因在通路图中的分布情况,将差异表达mRNA标注到通路图其中包含上调基因的 KO 节点标红色,包含下调基因的 KO 节点标绿色(此图为Cell Cycle通路,可以看出显著激活)。

2    lncRNA癌与癌旁差异表达分析

1)差异lncRNA火山图

设定阈值|log2(FoldChange)|≥1, padj<0.01筛选有效差异的lncRNA,火山图如下:

2)差异lncRNA聚类热图

 对差异表达lncRNA进行聚类,做热图(前200个差异lncRNA)。

3)差异表达lncRNA cis靶基因预测

cis 作用靶基因预测认为lncRNA的功能与其坐标临近的蛋白编码基因相关,将 lncRNA 临近位置的(上下游100kb)蛋白编码基因(仅选择有差异的mRNA)筛选出来作为其靶基因。cis 作用靶基因预测结果如下表所示:

4)差异表达 lncRNA 保守性分析

lncRNA保守性普遍较低, 但仍有部分lncRNA具有较高的保守性, 或者具有较高的保守区域。这种多物种保守区域暗示其具有保守的功能。本分析对差异表达lncRNA进行保守性分析,以供后续挑选lncRNA参考,保守性得分最大值为1, 越接近1保守性越高。

3    miRNA癌与癌旁差异表达分析

1)差异表达miRNA火山图

设定阈值|log2(FoldChange)|≥1, padj<0.01筛选有效差异的miRNA,火山图如下:

2)差异表达miRNA聚类热图

对差异表达miRNA进行聚类,做热图。

4    生存曲线分析

将差异表达的 mRNA, lncRNA, miRNA 使用 FPKM 或 TPM 值,以中位值为标准将基因的表达量分为低表达组与高表达组,并采用 Kaplan-Meier 和 log-rank 检验法进行生存曲线分析。

相关文章

网友评论

      本文标题:TCGA多肿瘤mRNA, lncRNA, miRNA数据挖掘

      本文链接:https://www.haomeiwen.com/subject/iuemwktx.html