简介
Immugent今天要介绍的是2020年发表在Bioinformatics(6.94)杂志上的一个R包--MOVICS,作者是国人(药大博士)。小编之前有一个推文介绍的IOBR包(IOBR:一个R包带你走进数据挖掘的殿堂)也是国人开发的,想到这内心犹生一股豪情,中华生信领域崛起的任务非我辈莫属!因为这个包的功能太多,本篇推文只是开个头,后续还有几篇进行实操来介绍这个包的使用方法。
图片近些年产生了大量的高通量测序数据,新开发出的生物技术如新一代测序、微阵列和质谱技术使高维分子数据的不同形态的生成和收集成为可能。采用多组学数据进行聚类有潜力进一步的揭示系统水平的研究发现,但同时提出了巨大的计算和生物学的挑战。MOVICS包旨在展示如何使用其对癌症分型研究进行多组学综合聚类和可视化。这个R包为10种最先进的多组聚类算法提供了统一的接口,并对每个算法的输出进行了标准化,从而形成了下游分析的管道。10种算法是CIMLR、iClusterBayes、MoCluster、COCA、ConsensusClustering、IntNMF、LRAcluster、NEMO、PINSPlus和SNF,其中前三种方法也可以进行特征选择过程。
对于癌症亚型研究,MOVICS还为最常用的下游分析形成了一个管道,用于进一步的亚型描述,并创建可编辑的出版物质量插图。最重要的是,MOVICS目前最多可支持6个组学数据用于联合聚类,用户必须提供至少2个组学数据集作为输入文件。
主要流程
MOVICS目前要求R(≥4.0.1),其主要包括三个模块(GET、COMP和RUN)。所有面向用户的函数都是从任何模块的标签开始命名的。
图片第一个模块:GET Module。是通过分析多组学数据综合聚类得到分子亚型 第二个模块:COMP Module。是通过从多个角度来比较亚型间的分子特征差异 第三个模块:RUN Module。是通过运行标记标识进而进一步验证分子亚型
以上三个连接的模块基本上涵盖了这个R包的工作流程。MOVICS首先使用一种或多种聚类算法来识别癌症亚型(CS);如果指定了多个聚类算法,强烈建议根据不同的子类型结果进行一致聚类,以得到稳定稳健的子类型。其次,在拥有子类型之后,自然会从尽可能多的角度利用子类型的异质性。第三,每个亚型都应该有一份亚型特异性生物标记的列表,用于在外部队列中复制这种亚型。
为了方便学习,MOVICS包含两个预处理的乳腺癌数据集。其中一个数据集是brca.tcga.RData,该数据集包含从TCGA-BRCA队列t3中检索的乳腺癌四种完整的组学数据类型(即mRNA表达、lncRNA表达、DNA甲基化图谱和体细胞突变矩阵),以及相应的临床病理信息(如年龄、病理阶段、PAM50亚型、生命状态和总生存时间);该数据列表还包含相应的RNA-Seq原始计数表和Fragments Per Kilobase Million (FPKM)数据,用于测试下游分析的功能(如差异表达分析、药敏分析等)。另一个,brca.yau.RData是一个外部验证数据集,包含了从BRCA-YAU t4队列下载的682个样本(去除一个没有对PAM50亚型进行注释的样本)的基因表达谱和临床病理信息,可用于检测MOVICS中可用的预测功能
说在最后
随着各项生物技术的不断推广,光靠转录组的数据我们往往无法精准的找到候选基因,如果联合多组学数据,在不同层面上综合进行分析,这样做出的结果往往更可靠,MOVICS就是实现这样功能的一个R包。
这个包整合了多种算法和画图函数,它的功能强大到无法想象,不仅能出图,出表,还能出整理好的word文件(小编第一次遇到)。后续生信宝库会推出这个包的一系列推文,敬请期待!
网友评论