有小伙伴说像知道GEPIA数据库的用法。正好最近一段时间GEPIA2更新了,其中也更新了一些新的功能。所以就趁着这个机会给大家介绍一下GEPIA2吧。
GEPIA2
对于TCGA数据库来说,我们最常用的还是起表达数据和临床数据的分析。这样的数据分析的话。如果我们有目标基因的话,只是来简单的查找一下基因的相关信息。那其实用GEPIA2(http://gepia2.cancer-pku.cn/#index)已经很好用了。而且GEIPA里面出来的一些图也确实挺好看。很多简单的生信文章吧,都是直接GEPIA查询,然后AI拼接也就放到文章里面了。
新版本的GEPIA添加了很多功能。我们就基于功能一个一个来讲解吧。其实功能讲解挺简单的,由于小编太絮叨了,所以就只能分两期来说明了。
1. 一般检索
如果我们想要查看一个基因在TCGA各个肿瘤里面的表达趋势的话,就可以使用一般检索了。这个功能的话,我们只需要输入基因名即可。例如,例如我们这里输入:"ERBB2"。

结果展示方面:
- 我们首先能看到的是,这个基因在肿瘤正常和癌症位置的表达图。这里数据库主要是通过三个图来展示的:分别是人体基因谱图;点图以及柱状图。

- 由于TCGA对于基因的注释是基于亚型来的。所以往下我们可以看到和这个基因相关的亚型的的信息

- 对于RNA-seq,我们可以获得所有基因的表达量,所以通过相关分析我们就可以知道和这个基因相关的其他基因是哪些。这里相关分析用的是PCC(皮尔森相关)。
差异表达分析
有时候我们想要知道某一个肿瘤当中差异表达的基因有哪些。这个时候就可以用到这个功能了。
对于基因差异表达分析的这里多说两句,GEPIA2使用的候选的方法是limma或者ANOVA。但是对于RNA-seq的数据,目前对于差异表达的分析的方法标准还是使用count数据来进行分析,分析方法选择Deseq2或者EdgR都可以。由于GEPIA里面背景数据集是TCGA的TPM数据,其实用limma(这个一般是用来分析芯片数据的方法)也行。但是其中有一些基因差异结果肯定是不一样的。
另外:GEPIA默认的时候ANOVA分析差异,如果要还LIMMA的话,记得先还分析方法在选择癌种。不然你之前选择了别的癌种然后在还分析方法,然后数据库就默认把你的癌种调回ACC了。血的教训😂。非代码的操作还是要谨慎再谨慎的。
结果的展示分别可以通过列表和一个染色体分布图来展示的。

表达数据自定义
如果我们想要查看一个基因在不同临床分析或者在不同肿瘤当中的表达分布,我们可以在这里进行查看。
由于基本的输入上面差不多,这里就不介绍输入了。只看一下相关的图吧。在这个部分我们能做的有:
- 通过点图的方式查看TCGA数据库当中癌和正常的表达分布。这个和我们在一般介绍当中的图是一样的。只不过这里可以自定义癌种。

- 通过箱式图的方式查看表达的差异。这里对于正常样本添加了GTEx的数据。如果不知道GTEx是什么的可以看我们之前的帖子。

- 查看目标基因在具体肿瘤分期当中的分布

- 比较多个基因在不同肿瘤当中的表达丰度
今天的就讲到这里,明天我们继续讲预后分析和其他的功能。
网友评论