美文网首页
常用生信信息格式

常用生信信息格式

作者: Peng_001 | 来源:发表于2020-06-16 08:57 被阅读0次
  • 一般大部分文件都是文本类型,可以直接查看。除了部分的二进制文件则需要使用专门的工具进行处理。
  • 如果不确定,可以使用file 进行查看。

fasta和fastq 格式

关于fasta 内容格式的详细可参考:https://www.yuque.com/mugpeng/nwmnq7/ug9fg8

fasta文件拓展名为fa、fna、fasta、ffn、faa等。

fastq文件拓展名一般以fq,fastq 等。

gbk 格式

为genebank 中文件的格式。一般来说该文件信息非常全。包括一个序列信息的完全的相关的元数据(相关文献、作者等也都包含在内)。

gff 格式

为基因信息的列表。基因id 及在基因组上的位置,以及相关注释。

bam 与sam 格式

为序列比对常用输出的两种格式。

blast 输出格式

一般有m0 与m8 格式。m0 给出比较详细的比对细节。m8 则相对简略。
m9 格式则比较适合初学者。m9 对各个信息进行了注释,可以明确知道各个信息代表的意义。

不同操作系统的格式差别

一般来说,序列文件的文件结尾会添加换行符。然而不同操作系统的换行符是不同的。linux 的换行符,在windows 与mac 下有不同的操作意义。因此文件在不同操作系统打开或者处理时,往往会差生问题。
我们可以使用dos2unix 将文件转换为linux 下的格式信息,从而进行操作。

ps:一般可以在 mybiosoftware , sourceforge等或bioinfomatic 以及nucleotide acid 这种期刊找寻好的工具。

相关文章

网友评论

      本文标题:常用生信信息格式

      本文链接:https://www.haomeiwen.com/subject/epclxktx.html