FASTA格式的特点:
“>”符号标志着一个记录的起始,一个记录分为第一行和其余行
第一行 ">" [序列识别号] [描述性文本]
其余行 [序列信息]
FASTA原来是David Lipman写的工具,现在已经被BLAST软件套装取代,但FASTA格式成了标准格式。
创建FASTA文件需要遵守:
1、FASTA file中的序列长度不能太长,1行3.3亿个碱基只会让电脑爆炸。
2、某些工具会默认接受核酸或氨基酸字母表中不存在的字母,如果序列包含了4中碱基和20种氨基酸以外的字母,务必检查所用工具是如何读取的。
3、使用大写字母,尽管大小写可以通用,但不同工具会区别对待大小写,比如有些社区是默认将小写字母作为非重复序列,大写字母作为重复序列的(有些正好相反)。
4、FASTA的序列行必须以固定宽度换行。
结构化的header
一些数据库会在FASTA文件的头部加入一些结构化的信息,工具也会对这些信息采取不同处理。例如NCBI的FASTA文件header会同时包括gi和gb accession number,如:>gi|10141003|gb|AF086833.2|
NCBI的Blast工具对这种头部的结构化信息会有更细致的识别,下图是一些可以识别的格式信息。
FASTA格式种蕴含的其他信息:
ATGCATGCagctagctATGTATGC
中,小写字母代表重复序列,agctagct
即在基因组的多个区域中的重复性序列。但是重复性如何定义并识别并非易事,通常是依靠工具+调参标记的。
类似于lastz工具在处理序列时会默认跳过小写区域
如何获得FASTA文件
假设现在你知道了NCBI数据库某段序列的收录号,如NM_000020
,可以通过efetch命令获取:
efetch -db nuccore -id NM_000020 -format fasta | head
网友评论