" [序列识别号] [...">
美文网首页
2020-01-10 了解FASTA文件格式

2020-01-10 了解FASTA文件格式

作者: 王子威PtaYoth | 来源:发表于2020-01-11 11:14 被阅读0次

    FASTA格式的特点
    “>”符号标志着一个记录的起始,一个记录分为第一行和其余行
    第一行 ">" [序列识别号] [描述性文本]
    其余行 [序列信息]

    FASTA文件中的两个记录,核酸的标准字母表包含ATGC,扩展字母表包含N(ATCGN任意一种核酸),W(A或T),(“IUPAC nucleotides”以查找可能的编码)
    FASTA原来是David Lipman写的工具,现在已经被BLAST软件套装取代,但FASTA格式成了标准格式。

    创建FASTA文件需要遵守:
    1、FASTA file中的序列长度不能太长,1行3.3亿个碱基只会让电脑爆炸。
    2、某些工具会默认接受核酸或氨基酸字母表中不存在的字母,如果序列包含了4中碱基和20种氨基酸以外的字母,务必检查所用工具是如何读取的。
    3、使用大写字母,尽管大小写可以通用,但不同工具会区别对待大小写,比如有些社区是默认将小写字母作为非重复序列,大写字母作为重复序列的(有些正好相反)。
    4、FASTA的序列行必须以固定宽度换行

    结构化的header

    一些数据库会在FASTA文件的头部加入一些结构化的信息,工具也会对这些信息采取不同处理。例如NCBI的FASTA文件header会同时包括gi和gb accession number,如:>gi|10141003|gb|AF086833.2|
    NCBI的Blast工具对这种头部的结构化信息会有更细致的识别,下图是一些可以识别的格式信息。

    gb为GeneBank,gi为GeneInfo integrated database

    FASTA格式种蕴含的其他信息:
    ATGCATGCagctagctATGTATGC中,小写字母代表重复序列,agctagct即在基因组的多个区域中的重复性序列。但是重复性如何定义并识别并非易事,通常是依靠工具+调参标记的。
    类似于lastz工具在处理序列时会默认跳过小写区域

    如何获得FASTA文件

    假设现在你知道了NCBI数据库某段序列的收录号,如NM_000020,可以通过efetch命令获取:
    efetch -db nuccore -id NM_000020 -format fasta | head

    相关文章

      网友评论

          本文标题:2020-01-10 了解FASTA文件格式

          本文链接:https://www.haomeiwen.com/subject/xeeuactx.html