DaPars——APA分析3’UTR

作者: 兔子什么都知道 | 来源:发表于2021-10-13 22:29 被阅读0次

Backgroud

APA(alternative polyadenylation)在大多数人类基因的转录后调控中发挥着重要作用。通过使用不同的多聚腺苷酸化(poly(A))位点,基因可以缩短或延长含有顺式调控元件的3 'UTR,如microrna (miRNA)或RNA结合蛋白(RBP)结合位点3 ' UTR。因此,APA可以影响靶信使RNA的稳定性和翻译效率以及蛋白的细胞定位。poly(A)位点的多样性可以极大地影响正常发育和疾病(如癌症)的进展。

软件

DaPars软件目前有两个版本,做了一下对比,发现DaPars2相对更灵敏,可以发现更多的基因。我也是生信小白刚入门,折腾了两天的软件,给大家避避坑。两个版本都需要python2.7的环境!!!!这个非常重要,不然python脚本会出现各种语法错误。

https://github.com/ZhengXia/dapars

https://github.com/3UTR/DaPars2

DaPars

两个版本第一步都是一样的,从参考基因组里面找到远端APA位点,然后利用一个回归模型推测近端位点。这里有一个坑!我的是小鼠的,不能使用最新版本mm39,会疯狂报错,所以我后面重新用mm10做了mapping,就顺利跑出来了。

step1

python DaPars_Extract_Anno.py -b mm10_refseq_whole_gene.bed -s mm10_Refseq_id_from_UCSC.txt -o mm10_refseq_extracted_3UTR.bed

##这一步有两个文件需要从UCSC获得:

*mm10_refseq_whole_gene.bed

genome: mouse

assembly:mm10

group: Genes and Gene Predictions

track: NCBI_REfSeq

table: refGene All

region: genome

output format: BED - browser extensible data

output file: mm10_refseq_whole_gene.bed

点‘get output’ button,下一页点‘Output refGene as BED’ 再点 ‘get output’ button.

*mm10_Refseq_id_from_UCSC.txt

genome: mouse

assembly: mm10

group: Genes and Gene Predictions

track: NCBI REfSeq

table: refGene All

region: genome

output format: selected fields from primary and related tables

output file: mm10_Refseq_id_from_UCSC.txt

点 ‘get output’ button,下一个界面选择:

name: Name of gene (usually transcript_id from GTF)

name2: Alternate name (e.g. gene_id from GTF)

点 ‘get output’ 保存文件

step2

python DaPars_main.py configure_file

##在做这一步之前需要先将mapping完的bam文件用Bamcoverage转换成bw文件(建议在这步做一下normalization),再用bigWigToWig转换成Wig格式。

##configure_file需要自己编辑,格式如下,只需修改我加粗的部分:

Annotated_3UTR=mm10_refseq_extracted_3UTR.bed

Group1_Tophat_aligned_Wig=Condition_A_chrX.wig

Group2_Tophat_aligned_Wig=Condition_B_chrX.wig

#这篇文章作者是分析了肿瘤和正常组织两个条件,所以需要分成两个group,这里根据自己的样品随便分就行,我试过不同组合,结果是一样的。如果有多个样品用逗号隔开即可

Output_directory=DaPars_Test_data/

Output_result_file=DaPars_Test_data

#这里可改可不改,就是输出文件夹的名字

Num_least_in_group1=1

Num_least_in_group2=1

Coverage_cutoff=30

FDR_cutoff=0.05

PDUI_cutoff=0.5

Fold_change_cutoff=0.59

Result

到这里就结束啦,最后输出的结果会有一个PDUI值,这个值在[0,1],越接近1其3’UTR越长。最近有点忙,先分析第一个版本,后面有空再分享第二版。

参考文献

Xia, Z., Donehower, L.A., Wheeler, D.A., Cooper, T.A., Neilson, J.R., Wagner E.J., Li, W. 2014. Dynamic Analyses of Alternative Polyadenylation from RNA-Seq Reveal 3'-UTR Landscape Across 7 Tumor Types. Nature Communications, 5:5274.

相关文章

网友评论

    本文标题:DaPars——APA分析3’UTR

    本文链接:https://www.haomeiwen.com/subject/kzieoltx.html