基因在转录的过程收到PolyA的调控,不同的PolyA尾可以导致基因产生不同的3'UTR异构体。进而也就影响了基因3'UTR的功能了。因此一个基因的PolyA的位置对于这个的3'UTR的功能至关重要。
背景介绍
新RNA的裂解和聚腺苷酸化(C / P)对于几乎所有真核mRNA和长非编码RNA(ncRNA)的3'端成熟都是必不可少的,它可以终止转录。其中C/P也称为PolyA位点(PAS)。大多数真核基因带有多个PAS,导致选择性多聚腺苷酸化(alternative polyadenylation, APA)表达。大多数PolyA位点位于mRNA的3'非翻译区(3'UTR)中,从而导致具有不同3'UTR长度的异构体。因此预测一个基因的PolyA对于鉴定3'UTR的异构体至关重要。
image之前对于PolyA的预测是基于cDNA序列来进行预测的。这样预测的结果就是可能序列上的预测,但是结果有可能不是一个真正的PolyA。随着高通量测序的技术的,我们可以通过3'end的测序技术来检测基因的真正的PolyA位置。基于这个目的,所以就有了PolyA_DB(http://exon.njms.rutgers.edu/polya_db/v3/)数据库和polyAsite( http://polyasite.unibas.ch/))。这两个数据库也是前两天那个综述推荐的一个和3'UTR有关的数据库。
PolyA_DB:
这个数据库支持四个物种的PolyA位点查询,分别是:人、小鼠、大鼠和鸡。我们需要做的就是
- 确定物种
- 输入基因名
结果的输出包括一个基因的基本信息
image对于PolyA位点的结果也可以通过UCSC浏览器来查看,我们点击图片当中的链接就可以查看具体的信息了
image同时数据库也提供了和目标基因相关的所有PolyA位点信息:
image对于图片当中的结果解读的话:
- PAS type: mRNA中的PAS位置,包括5'UTR,CDS和3'UTR。 对于3'UTR中的PAS,它们进一步分为First(3'UTR(F)),Middle(3'UTR(M))和Last(3'UTR(L))。 如果3'UTR中只有一个PAS,则称为3'UTR(S)
- PAS Signal:PAS信号位于PAS上游40 nt之内,包括AAUAAA,AUUAAA,其他AGTAAA,TATAAA,CATAAA,GATAAA,AATATA,AATACA,AATAGA,AAAAAG,ACTAAA),A-rich(AAAAAA)和 没有。
- PSE :(所有样品中)带有表达的样品的百分比。
- Mean RPM:所有样本中每百万PAS reads的平均reads数。
- Conserv:PAS是否在其他物种(包括人(H),小鼠(M),大鼠(R)和鸡(C))中也保守。 并且我们将在至少两种哺乳动物中保守的PAS定义为哺乳动物保守的PAS。
数据结果下载:
这个数据库提供了所有内置数据下载的界面。我们可以下载所有的数据来进行离线的DIY。
imagePolyASite
PolyASite数据库也是基于测序数据来预测基因PolyA位点的数据库。恰巧的是,这个数据库刚刚更新,相较于之前纳入的测序的数据扩大了很多。属于目前最新,纳入数据量最大的PolyA相关的数据库了。
image数据库的使用,和之前的PolyA_DB一样很简单,我们只需要选择物种,输入感兴趣的目标就行。这个感兴趣的靶标可以是:基因组的位置;基因名;或者ENSID号。
image输出的结果也就包括具体发现的PolyA位点的具体信息:
image结果当中包括了一个Cluster的结果,这个类似于把相近的几个PolyA位点来聚类到一起当作一个范围来考虑了。我们可以点击具体的位点,同样的具体的结果可以在UCSC基因浏览器上可视化
image总结
对于PolyA的确定其实主要的还是还是来研究其选择性多聚腺苷酸化(alternative polyadenylation, APA)。进而研究不同的3'UTR异构体对于机体的影响。目前也有几个APA相关的数据库。我们明天来介绍一下和APA相关的数据库
网友评论