虽然对于选择性多聚腺苷酸化(Alternative Polyadenylation, APA)的鉴定还是3'端测序好一些。但是的话,确实是由于RNA-seq的大样本数据,如果不使用的话还很可惜的。基于这个考虑。有人就发明了利用RNA-seq来评价APA事件的算法(DaPars)。
DaPars
由于RNA-seq数据的增多,为了使用RNA-seq来评价APA事件,所以就有人发明了DaPars算法。利用这个算法我们可以来评价RNA-seq当中的样本的APA事件。在这个算法里面,作者提出了一个远端PolyA位点使用占比(Percentage of Distal polyA site Usage Index, PDUI)的概念来评价APA事件。利用PDUI这个数值来评价APA事件的发生比例,PDUI的数值范围是0-1;如果PDUI接近于1则代表这个基因更多的存在长的3'UTR;如果PDUI接近于0则代表这个基因更多的存在短的3‘UTR。
这个算法的作者提供了一个python的脚本来计算APA事件(https://github.com/ZhengXia/dapars)。但是对于很多科研工作者而言使用python进行APA事件分析是很难的事情。所以这里就介绍几个基于DaPars分析的RNA-seq数据库。
目前公共的大型的数据库,主要还是TCGA和GTEx。由于这两个数据库也都基于RNA-seq来构建的,所以相对应的就是可以来进行APA事件评价了。
PS: 需要明确的一点是,使用DaPars算法来进行APA事件评价的时候,我们需要的是最原始的RNA-seq的数据,如果是在TCGA官网上下载的count/fpkm数据是不能用的。这种最原始的数据,如果想要使用的话,是需要和TCGA进行申请的。
TC3A
The Cancer 3′ UTR Atlas (TC3A, http://tc3a.org/) 是一个基于TCGA当中肿瘤数据来进行APA事件评价的数据库。这个数据库的作者就是发明DaPars算法的作者。为了这个数据库,作者还把算法升级了到DaPars2(https://github.com/3UTR/DaPars2)。
TC3A总结了TCGA当中的所有肿瘤的APA事件,由于就是想做肿瘤的数据库,所以作者只使用了TCGA当中的肿瘤样本来进行分析。对于其中的正常样本就没有纳入进来。这个对于我们如果想要分析癌和正常的想法就实现不了了😂。
image这个数据库使用了TCGA常用数据库cBioPortal数据库的可视化框架。所以我们看到的TC3A数据库和cBioPortal其实是差不多类似的。我们需要做的就是
-
选择癌种;
-
输入相关基因。
也不知道是本身cBioPortal框架的问题还是什么问题。这个数据库在进行检索之后对于结果的展示就十分的缓慢。目前只能通过文献里面的截图来观察这个数据库能干啥。通过文献的图片,我们可以看到。这个数据库可以比较APA事件评选指标PDUI在不同临床分析当中的差异;和预后的差异以及和本身基因表达的相关性等等。
image那如果假如数据库确实是不好用了怎么办呢?作者十分友善的提供了原始数据下载的功能。在这里我们可以下载所有TCGA肿瘤当中,肿瘤样本的APA事件的PDUI数值。这样,虽然我们不用能数据库分析了,那可以把原始数据下载下来进行自定义分析嘛。
欢迎关注公众号:数据库百科,一个介绍医学科研相关数据库使用的公众号
image.png
网友评论