美文网首页生信linux
fasta和fastq格式文件的shell小练习

fasta和fastq格式文件的shell小练习

作者: 看远方的星 | 来源:发表于2018-11-04 23:07 被阅读82次
    • FASTA: 在生物信息学中,FASTA格式是一种用于记录核酸序列或肽序列的文本格式,其中的核酸或氨基酸均以单个字母编码呈现。该格式同时还允许在序列之前定义名称和编写注释。这一格式最初由FASTA软件包定义,但现今已是生物信息学领域的一项标准。

    FASTA简明的格式降低了序列操纵和分析的难度,令序列可被文本处理工具和诸如Python、Ruby和Perl等脚本语言处理。

    • 格式说明:
      FASTA格式中的一条完整序列,包含开头的单行描述行和多行序列数据。描述行行首前置半角大于号(“>”)以和数据行区分。“>”后紧接的内容为该序列的标识符,该行剩余部分则为序列的描述(标识符与描述均非必须)。“>”和标识符之间不应有空格,且建议将单行内容限制在80字符以内。序列的结束以下一条序列的“>”出现为标识。如下为FASTA格式一条序列的示例:

    >gi|31563518|ref|NP_852610.1| microtubule-associated proteins 1A/1B light chain 3A isoform b [Homo sapiens]
    MKMRFFSSPCGKAAVDPADRCKEVQQIRDQHPSKIPVIIERYKGEKQLPVLDKTKFLVPDHVNMSELVKI
    IRRRLQLNPTQAFFLLVNQHSMVSVSTPIADIYEQEKDEDGFLYMVYASQETFGFIRENE

    上例中,“gi|31563518|ref|NP_852610.1|”是序列的名称。


    • FASTQ : FASTQ是基于文本的,保存生物序列(通常是核酸序列)和其测序质量信息的标准格式。其序列以及质量信息都是使用一个ASCII字符标示,最初由Sanger开发,目的是将FASTA序列与质量数据放到一起,目前已经成为高通量测序结果的事实标准。

    格式说明
    FASTQ文件中每个序列通常有四行:

    序列标识以及相关的描述信息,以‘@’开头;
    第二行是序列
    第三行以‘+’开头,后面是序列标示符、描述信息,或者什么也不加
    第四行,是质量信息,和第二行的序列相对应,每一个序列都有一个质量评分,根据评分体系的不同,每个字符的含义表示的数字也不相同。


      1. 统计reads_1.fq 文件中共有多少条序列信息:cat -b reads_1.fq 共有40000条信息,每四行为一条序列的信息,所以有10000条序列信息。


        image.png
    • 2.输出所有的reads_1.fq文件中的标识符(即以@开头的那一行):grep @ reads_1.fq:


      image.png
    • 3.输出reads_1.fq文件中的 所有序列信息(即每个序列的第二行):

    友情阅读推荐:

    相关文章

      网友评论

        本文标题:fasta和fastq格式文件的shell小练习

        本文链接:https://www.haomeiwen.com/subject/bqxdxqtx.html