美文网首页
可能是最简单的TCGA表达数据分析数据库(二)

可能是最简单的TCGA表达数据分析数据库(二)

作者: drlee_fc74 | 来源:发表于2020-04-30 15:10 被阅读0次

    有小伙伴说想知道GEPIA数据库的用法。正好最近一段时间GEPIA2更新了,其中也更新了一些新的功能。所以就趁着这个机会给大家介绍一下GEPIA2吧。昨天我们介绍了其中一部分,这里我们来说一下后面的一些功能。

    预后分析

    如果要查看一个基因的预后的话。可以通过这个功能来查看。新版的预后分析。添加了一些新的选择,这里我们就简单的介绍一下。

    • 基因输入方面:我们可以输入一个基因,也可以输入一系列的基因。如果是一系列的基因的话,我们可以理解为这一系列基因都和某一个表型有关。通过这一系列基因的表达,来代表这个表型的表达。例如我们输入:CCR7,SELL,IL7R。这三个基因来代表Central memory T cell。对于这种基因代表表型的方法,最好的整合方法还是GSVA的算法。但是由于那个计算量比较慢,所以GEPIA2采用了这几个基因表达(log(TPM + 1))的均值来代表表型。这个也是能反应一些东西的吧。
    image
    • 预后分析分组方面:GEPIA2提供了三种方式,中位值;四分位数以及自定义。由于基因在进行KM预后分析的时候,其实是分两组。第一步是对相关观察的变量进行分组。一般来说的话,是基于中位值平均分成高低表达两组,分别代表高表达和低表达。第二步才是进行预后分析。
      但是对于分组而言的话,没有一个人为的规定说具体怎么分组好,中位置没有意义怎么办呢?那其实还有两种方法可以继续看一下的,
    1. 在进行基因分组的时候,不用中位置来进行区分。而已使用表达的前X%(例如25%)作为高表达组,然后后X%(25%)作为低表达组。这样再看这两组预后有没有意义。这个就是数据库使用四分位数分析的方法。

    2. 还有一种这个数据库实现不了,不过可以介绍一下。这个方法也可以叫best spearation。类似于穷举法。我们把基因表达每一个值都当作一个界限值来进行分组,然后看各个分组的预后有没有意义。在所有分组分析的结果当中选择最佳的当作最佳的分组。这种统计方法叫做最大选择秩统计量。感兴趣的可以查一下。

      其他的一些,就是常规的数据库的选择方式了,这里我们就不介绍了。数据库提供了三种结果呈现

    3. 单一基因的预后分析图:

    image
    1. 某一个肿瘤预后最有意义的基因
    image
    1. 某几个基因在不同肿瘤当中的预后HR结果比较
    image

    基因异构体表达分析

    基因在形成mRNA的时候,由于可变剪切的存在,就形成了不同的异构体。所以对于不同的异构体,其表达量可能是不一样的。在这一部分我们可以查看一个基因不同异构体的表达水平。

    1. 我们可以查看某一个基因异构体在不同肿瘤当中的差异趋势
    image
    1. 查看基因异构体的具体区别
    image

    基因之间的相关分析

    如果我们想看两个基因之间的相关性,可以通过这个部分来查看的。我们需要做的就是输入想要查看的两个基因,同时选择分析方法就行

    对于相关分析的分析方法,目前也就是三种: pearson; spearman以及Kendall。这三种方法的话,简单的应用区分的话,

    • 如果一个数据是一个连续正态分布的那,就使用pearson

    • 如果连续性变量不符合正态分布的时候,就使用Spearman

    • 如果数据是等级资料的时候;就使用Kendall

    由于我们的表达数据不存在等级的说法,所以Kendall是不需要的。对于TPM的数据,一般来说都是偏态的,而通过log2(TPM + 1)转换之后,有的可能会变成偏向正态的。所以这也是数据库在计算相关的时候默认使用的是pearson。但是有时候数据就算转换了,有可能也是偏态的,所以这个时候可以使用Spearman分析一下看看。

    结果呈现的话,就是一个相关分析的图:

    image

    降维分析

    我们在进行多维度分析的时候,都会通过降维分析来查看,具体的具体影响因子可能是什么。常规的降维分析就是PCA(主成分分析了)。这个数据库提过了,我们输入目标基因来查看降维结果的界面。进而了评价说。这几个目标基因能不能把用来区分不同的分组。
    
    如果对于主成分分析不了解的话,推荐STATQUEST对于PCA的讲解(bilibiliID: BV1T4411T73S)
    
    结果呈现的话,首先是一个柱状图来说不同成分对于变异度解释的程度。
    
    image
    另外还提供了,主成分分析的散点图。数据库提供了三维的主成分分析的图,由于小编不喜欢三维图形(区分度太差了)。所以就只放一个2D的了。
    
    image

    数据库总结

    关于GEPIA2的的应用也就这些了,中间我们在每一个分析方式当中添加了一部分少量的方法讲解。如果有检索目标,想看一下在某一个基因在TCGA当中的表达关系的话,利用GEPIA来进行查找还是一个快速的方法的。

    相关文章

      网友评论

          本文标题:可能是最简单的TCGA表达数据分析数据库(二)

          本文链接:https://www.haomeiwen.com/subject/ifnzwhtx.html