2020-01-10 了解FASTA文件格式

作者: 王子威PtaYoth | 来源:发表于2020-01-11 11:14 被阅读0次

2020-01-10 了解FASTA文件格式
NGS常用文件格式详解
生物信息分析常用文件格式和软件
python--处理 fasta 和 fastq 文件
文件格式——FASTA
2020-01-11 了解FASTQ格式并处理FASTQ文件
Windows批量修改文件格式及合并文件内容
生信数据分析常见格式（一）
fastq、fasta、bed、gtf、gff、sam、bam生
fastq和fasta文件格式

FASTA格式的特点：
“>”符号标志着一个记录的起始，一个记录分为第一行和其余行
第一行 ">" [序列识别号] [描述性文本]
其余行 [序列信息]

FASTA文件中的两个记录，核酸的标准字母表包含ATGC，扩展字母表包含N（ATCGN任意一种核酸），W（A或T），（“IUPAC nucleotides”以查找可能的编码）
FASTA原来是David Lipman写的工具，现在已经被BLAST软件套装取代，但FASTA格式成了标准格式。

创建FASTA文件需要遵守：
1、FASTA file中的序列长度不能太长，1行3.3亿个碱基只会让电脑爆炸。
2、某些工具会默认接受核酸或氨基酸字母表中不存在的字母，如果序列包含了4中碱基和20种氨基酸以外的字母，务必检查所用工具是如何读取的。
3、使用大写字母，尽管大小写可以通用，但不同工具会区别对待大小写，比如有些社区是默认将小写字母作为非重复序列，大写字母作为重复序列的（有些正好相反）。
4、FASTA的序列行必须以固定宽度换行。

结构化的header

一些数据库会在FASTA文件的头部加入一些结构化的信息，工具也会对这些信息采取不同处理。例如NCBI的FASTA文件header会同时包括gi和gb accession number，如：>gi|10141003|gb|AF086833.2|
NCBI的Blast工具对这种头部的结构化信息会有更细致的识别，下图是一些可以识别的格式信息。

gb为GeneBank，gi为GeneInfo integrated database

FASTA格式种蕴含的其他信息：
ATGCATGCagctagctATGTATGC中，小写字母代表重复序列，agctagct即在基因组的多个区域中的重复性序列。但是重复性如何定义并识别并非易事，通常是依靠工具+调参标记的。
类似于lastz工具在处理序列时会默认跳过小写区域