一、获取软件
1、利用conda,简单快捷
conda install gffread
2、下载安装
这里用到了gffread
(https://github.com/gpertea/gffread),安装方式如下 (若不理解,见这个为生信学习打造的开源Linux教程真香的软件安装部分):
git clone https://github.com/gpertea/gffread
cd gffread
make release
二、软件的使用
首先是用gffread提取cds序列,蛋白序列,转录本序列
gffread genome.gff3 -g genome.fa -x cds.fa
gffread genome.gff3 -g genome.fa -y protein.fa
gffread genome.gff3 -g genome.fa -w transcripts.fa
接下来我们利用组合工具来提取mRNA,和gene序列
python -m jcvi.formats.gff bed --type=mRNA --key=ID a.gff3 > mRNA.bed
这个需要借助Python 包jcvi包
抽取 GFF文件中mRNA, key是ID
基因也是如此
python -m jcvi.formats.gff bed --type=gene --key=ID a.chr.gff3 > gene.bed
图片.png
注意用bedtools提取序列,要加-s 参数(能区分正反链)
bedtools getfasta -fi ./a.fasta -bed gene.bed -nameOnly -s -fo a.gene.fa
a.gene.fa就是我们需要的文件,同理也可以得到a.mRNA.fa。
再利用提取最长转录本脚本,获得基因中最长可变剪切的序列。
网友评论