美文网首页生物信息学
bedtools getfasta提取基因序列实战

bedtools getfasta提取基因序列实战

作者: 嗒嘀嗒嗒嘀嗒嘀嘀 | 来源:发表于2022-03-05 21:26 被阅读0次

由gtf文件得到含CDS坐标的bed文件,并提取CDS序列

  • 首先要注意,gtf文件的序列起始坐标减一,才是bed文件的起始坐标!!!
    因为gtf的第一个碱基记为1,但是bed文件的第一个碱基记为0。
    比如我提取的含有起始密码子的序列应该是这样的 含起始密码子序列
    gtf文件中显示该段CDS的起始位置为23519,直接用该坐标检索出来的序列为 直接检索出的CDS
    很显然,该序列少了个A碱基。

gtf或gff文件可以直接用bedtools getfasta提取启动子

  • 将gtf重命名为gff格式,然后直接提取
  • -s参数会参考正负链信息,正义链就提取正义链的序列,反义链就提取反义链的序列。.gff文件中正负链的信息在第七列$7
  • -name+ 会把.gff文件第三列的信息也写在输出序列fasta的header信息中。.gff文件中的信息一般是gene、mRNA、exon、CDS等这类信息,其实可以用Gene ID或Gene Symbol替代这一列,使生成的序列信息更明了。
bedtools getfasta -fi genome.fa -bed tmp.gff -s -name+ -fullHeader -fo tmp.fa

相关文章

网友评论

    本文标题:bedtools getfasta提取基因序列实战

    本文链接:https://www.haomeiwen.com/subject/nzsurrtx.html