- 一般大部分文件都是文本类型,可以直接查看。除了部分的二进制文件则需要使用专门的工具进行处理。
- 如果不确定,可以使用
file
进行查看。
fasta和fastq 格式
关于fasta 内容格式的详细可参考:https://www.yuque.com/mugpeng/nwmnq7/ug9fg8
fasta文件拓展名为fa、fna、fasta、ffn、faa等。
fastq文件拓展名一般以fq,fastq 等。
gbk 格式
为genebank 中文件的格式。一般来说该文件信息非常全。包括一个序列信息的完全的相关的元数据(相关文献、作者等也都包含在内)。
gff 格式
为基因信息的列表。基因id 及在基因组上的位置,以及相关注释。
bam 与sam 格式
为序列比对常用输出的两种格式。
blast 输出格式
一般有m0 与m8 格式。m0 给出比较详细的比对细节。m8 则相对简略。
m9 格式则比较适合初学者。m9 对各个信息进行了注释,可以明确知道各个信息代表的意义。
不同操作系统的格式差别
一般来说,序列文件的文件结尾会添加换行符。然而不同操作系统的换行符是不同的。linux 的换行符,在windows 与mac 下有不同的操作意义。因此文件在不同操作系统打开或者处理时,往往会差生问题。
我们可以使用dos2unix
将文件转换为linux 下的格式信息,从而进行操作。
ps:一般可以在 mybiosoftware , sourceforge等或bioinfomatic 以及nucleotide acid 这种期刊找寻好的工具。
网友评论