ExUTR简介
github地址:https://github.com/huangzixia/ExUTR
ExUTR是一个实用而强大的工作流程,能够从大量的RNA-Seq实验中快速进行全基因组3'-UTR预测。ExUTR的实现主要是基于转录本的内在信号,这对于无数缺少参考基因组和注释的非模式生物来说,尤其耐人寻味。独立于有良好注释的参考基因组,将极大地扩大其应用范围,使其能在有RNA-Seq数据的更广泛的研究领域得到应用。
ExUTR包含三个步骤
1)转录组组装(可选);
2)ORF预测;
3)3'-UTR检索。
ExUTR已经在Ubuntu 12.04桌面上进行了测试,但它应该在大多数Linux操作系统上工作。
下载后的文件名为:ExUTR-master.zip
#解压缩
unzip ExUTR-master.zip >/home/public/software/ExUTR
Requirements
- Perl http://www.perl.org/
- Bioperl http://www.bioperl.org/
- ncbi-blast ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/
- Swissprot ftp://ftp.ncbi.nlm.nih.gov/blast/db/
- 3UTR.mam.fasta http://utrdb.ba.itb.cnr.it/home/download
安装依赖包:
1. 系统自带Perl
2. Bioperl的安装看专题文章
3. linux BLAST安装和使用
BLAST可以通过conda直接安装,注意了,最好是在https://anaconda.org/官网搜索到对应的软件,然后按照上面提示进行安装,而不是想象中的conda install ncbi-blast+,例如:
手动安装可以参考Linux下BLAST的安装与使用
4. Swissprot
打开网站ftp.ncbi.nlm.nih.gov/blast/db/,找到对应的swissprot下载,
图片.png
图片.png作者说明文档写的,Please include '.pal' extension file which ties multiple volumns of the Swissprot database together. 但是解压下来的文件内并没有.pal文件,后面运行回报错。郁闷!!!
后来找到了之前下载过的Swissprot版本,所以这里就直接复制过来(但是版本旧缺乏最新的注释蛋白信息)。
之后在github软件作者主页,有评论说,是swissprot更新的导致的,可以通过修改脚本可以实现用最新的swissprot,按照网友建议修改果然奏效,具体详见评论。
5. 3'UTR数据库下载
根据自己实验需求下载响应的数据库。
-
图片.png
下载后解压即可
unzip 3UTRef.Inv.fasta.gz >file path
运行软件ExUTR
1.提取ORF区
perl /home/public/software/ExUTR-master/bin/3UTR_orf_20170816.pl -i /home/public/software/ExUTR-master/test_data/test.fa -d /home/public/datas/mirna/swissprot/swissprot -a 8 -o /home/public/datas/results/name* -l un
看到如下界面就表示运行成功了,其产生了orfs.fa和transcripts.fa两个文件。
图片.png
2. 提取3'UTR区域
perl /home/public/software/ExUTR-master/bin/3UTR_ext_20170816.pl -i1 /home/public/software/ExUTR-master/test_data/test.fa -i2 /home/public/datas/results/name*_orfs.fa -d /home/public/software/ExUTR-master/test_data/3UTR.mam.fasta -a 8 -o /home/public/datas/results/3UTR.fasta -x 2500 -m 30
看到如下界面就表示3UTR提取成功。
图片.png
结束语:
事实上,以这种方式提取的UTR主要依赖于UTR数据库,库的覆盖度决定了比对获得序列的质量,加之物种碱基差异,所以导致整体比对率相对较少,笔者整体提取率约为50-64%。
网友评论