本文首发于“生信大碗”公众号,转载请注明出处
癌症基因组图谱(TCGA)和国际癌症基因组联盟(ICGC)等大规模癌症基因组学项目产生了海量的癌症基因组学数据。对于没有计算机背景的研究者来说,对这些数据进行整合、探索和分析是一件极具挑战性的事。
之前的推文中我们已经介绍过了一些零代码即可操作的数据库,比如进行富集分析的DAVID数据库、进行生存分析的Kaplan-Meier数据库,帮助了很多小伙伴。这期推文再给大家介绍一个零代码进行突变分析与可视化的数据库——cBioPortal。
1.cBioPortal简介:
cBioPortal是一个集检索、下载、分析和可视化癌症基因组学数据于一身的数据库,其整合的基因组数据类型非常广泛,包括体细胞突变、DNA拷贝数改变(CNAs)、mRNA和microRNA(miRNA)表达、DNA甲基化、蛋白质丰度和磷酸蛋白丰度。cBioPortal可以进行多种分析,但最主要的还是与突变相关的各种分析及其可视化。此外,cBioPortal数据库不仅支持单基因单癌症的查询,而且可以进行多基因单癌症、单基因多癌症、多基因多癌症,甚至是跨癌症基因组项目的分析。
2.使用方法:
下面,我们就以P53信号通路的6个基因:TP53、MDM2、MDM4、CDKN2A、CDKN2B、TP53BP1(多基因)在TCGA肝癌数据集(单癌症)中的突变情况分析为例,进行演示:
2.1进入cBioPortal(https://www.cbioportal.org/)后,按照图1中的①②③进行操作。
图1细心的小伙伴可能注意到了,在我们第二步勾选的“Liver
Hepatocellular Carcinoma (TCGA, PanCancer Atlas)”的上方还有一个(TCGA, Firehose
Legacy)的肝癌数据集,为什么不选那一个呢?这里就要解释一下了,Firehose Legacy数据集,以前又称为临时数据集,其内的数据比较原始,而为了使TCGA所有33中癌症类型的数据之间具有可比性,就需要对各种癌症的突变、拷贝数、基因表达等数据进行相同的处理和标准化,这就产生了TCGA PanCancer
Atlas数据集,也就是说,TCGA PanCancer Atlas数据集是处理过了的Firehose Legacy数据集,更加适合比较分析。
2.2在跳转的页面中,按照图2中的①②③④进行操作。
图22.3如图3,点击不同的模块,即可查看各种分析的结果,并且还能根据需要进行一定程度的个性化调整。
图33.结果讲解:
3.1
OncoPrint模块的瀑布图(图4)
图43.2Mutations模块的目标基因对应蛋白质的二维结构图(图5)
图5cBioPortal功能非常强大,能进行的分析众多,比如生存分析、相关性分析、基因组改变之间的互斥性分析等等,并会以瀑布图、直方图、箱线图、火山图等等形式直观的展现分析结果。由于篇幅限制,这里仅对其中较为复杂的几张图形进行解读。感兴趣的小伙伴可以在网页中把每个按钮都点一点,把每张图形都看一看,一定会有很大收获的。
4.数据下载:
我们也可以从cBioPortal数据库中下载数据,再用R等软件进行更加个性化的分析,数据下载的具体步骤如下:
4.1进入cBioPortal(https://www.cbioportal.org/)后,点击“Data Sets”。
图64.2输入关键词,进行检索,找到所需数据,下载即可。
图7今天的分享到这里就结束啦~如果你觉得本期推文对你有帮助的话,就留个免费的赞再走吧~我们下期再见啦~
本文首发于“生信大碗”公众号,转载请注明出处
—END—
网友评论