美文网首页生物信息学从零开始学R. python新手日记R语言从零开始
一文解决TCGA任意肿瘤的差异lncRNA,miRNA,mRNA

一文解决TCGA任意肿瘤的差异lncRNA,miRNA,mRNA

作者: 柳叶刀与小鼠标 | 来源:发表于2019-07-08 14:36 被阅读100次

    解读文献题目:

    TCGA based integrated genomic analyses of ceRNA network and novel subtypes revealing potential biomarkers for the prognosis and target therapy of tongue squamous cell carcinoma
    这是一篇2019年发表在plos one 的纯生信文章。

    摘要

    • 目的
      该研究旨在研究舌鳞状细胞癌(TSCC)生物学发展中的ceRNA网络,通过使用基于癌症基因组图谱(TCGA)的整合基因组分析来鉴定TSCC的新分子亚型,以筛选靶向治疗和预后的潜在生物标志物。数据库。
    • 材料与方法
      从TCGA和GEO数据库下载基因表达数据。差异表达的RNA(DERNAs)由R中的DESeq2来定义。功能富集分析使用R中的聚集体进行.PPI网络通过参考String网站建立。通过R中的survival包进行DERNA的生存相关分析。从Starbase v3.0数据框获得mRNA,miRNA和lncRNA之间的相互作用并构建ceRNA网络。 Consensus Cluster Plus软件包用于识别分子亚型。通过将它们与GEO微阵列数据进行比较来验证所有关键基因。使用SPSS 22.0对不同亚型的临床特征进行统计分析。
    • 结果
      从肿瘤和正常组织中鉴定出总共2907个mRNA(1366个上调和1541个下调),191个miRNA(98个上调和93个下调)和1831个lncRNA(1151个上调和680个下调) 。基于上述的差异RNA成功构建了ceRNA网络,并使用了15个DEmRNA,1个DEmiRNA,2个与预后相关的DElncRNA。
    • 结论
      该研究构建了一个ceRNA网络并鉴定了TSCC的分子亚型,我们的研究结果为这种难治性癌症潜在的治疗靶点和预后指标提供了新的标志物。

    方法和材料

    • 1.数据收集和预处理
      从TCGA数据库(https://portal.gdc.cancer.gov/)获得TSCC的基因表达数据(lncRNA、mRNA和miRNA表达谱数据)和相应的TSCC临床数据,收集126个TSCC样品和13个正常对照样品。在这些数据中,mRNA和lncRNA表达数据是基于Illumina HiSeqRNASeq平台获得的,而miRNA数据是从Illumina HiSeqmiRNASeq平台收集的。

    首先对TCGA的RNA表达预处理,筛选掉其中的低表达基因(count<10)进行预处理。根据GENCODE Release 29(GRCh38.p12)(https://www.gencodegenes.org/human/)注释mRNA和lncRNA。 而miRNA是基于miRbase v22数据库(http://www.mirbase.org/index.shtml#opennewwindow)进行注释。

    通过搜索“舌鳞状细胞癌”,从Gene Expression Omnibus(GEO)数据库(http://www.ncbi.nlm.nih.gov/geo/)下载TSCC(GSE30784,GSE13601和GSE28100)的3个基因表达谱。 “(2019年1月)。基于Affymetrix Human Genome U133 Plus 2.0 Array和U95 Version 2 Array确定GSE30784和GSE13601。 GSE28100的平台是Agilent-021827人miRNA微阵列(V3)(miRBase释放12.0 miRNA ID版本)。

    • 2.鉴定TSCC中差异表达的mRNA,miRNA和lncRNA
      使用R软件的DESeq2包鉴定TSCC样品和正常对照样品中差异表达的lncRNA(DElncRNA),mRNA(DEmRNA),miRNA(DEmiRNA)。将P值设置为FDR, | log2(FC)| > 1.5且P值<0.05被设定为差异基因的阈值。随后根据R的pheatmap包绘制热图。

      1. GO注释和KEGG途径的功能富集分析
        R的ClusterProfiler v3.8包用于分析和可视化基因的功能谱(基因本体论(GO)注释和京都基因和基因组百科全书(KEGG)途径)以确定DEmRNA之间的共享功能。 P <0.05被认为是GO和KEGG富集分析的阈值。
    • 4.建立蛋白质 - 蛋白质相互作用(PPI)网络
      为了理解DEmRNA的潜在相互作用,STRING网站被用于构建PPI网络,该网络由Cytoscape软件可视化。

    • 5.与预后相关的DEmRNA,DElncRNA和DEmiRNA
      通过使用R的survival包进行生存分析以评估差异表达的RNA在TSCC患者中的预后价值。根据每一个DEmRNA,DElncRNA和DEmiRNA的各自表达量数据,将所有样品分成高表达组(大于中位数)或低表达组(小于中位数)。使用Kaplan-Meier方法绘制生存曲线。采用对数秩检验来评估统计学显著性。 P <0.05被认为具有统计学意义。

    • 6.预测lncRNA-miRNA和miRNA-mRNA相互作用
      我们通过使用starBase数据库预测DElncRNA和DEmiRNA或DEmRNA和DEmiRNA之间的相互作用,starBase记录了来自许多个测序数据的超过110万个miRNA-ncRNA,250万个miRNA-mRNA和150万个RNA-RNA相互作用。此外,starBase整合了来自miRanda,Targerscan和miRmap数据库的预测结果。只有被记录为负向相关关系的DEmiRNA和DEGs,DElncRNAs和DEmiRNAs被包括在ceRNA网络中。

    • 7.构建ceRNAs网络
      根据ceRNA理论,使用Cytoscape软件v3.6.1整合DEmiRNA和DEmRNA以及DE1ncRNA和DEmiRNA的选择的相互作用以构建DElncRNAs-DEmiRNAs-DEmRNAs ceRNA网络。

    结果

    TSCC中的DElncRNA,DEmiRNA和DEmRNA

    总共鉴定出总共2907个差异表达的mRNA(1366个上调和1541个下调),191个miRNA(98个上调和93个下调)和1831个差异表达的lncRNA(1151个上调和680个下调)。 miRNAseq数据| log2(FC)|> 1.5和P值<0.05。 具有差异表达的RNA在热图中可视化(图1)。 表1中列出了前10个DElncRNA,DEmiRNA和DEmRNA。



    相关文章

      网友评论

        本文标题:一文解决TCGA任意肿瘤的差异lncRNA,miRNA,mRNA

        本文链接:https://www.haomeiwen.com/subject/wkwthctx.html