生信格式之fasta、fastq

作者: 小贝学生信 | 来源:发表于2021-01-10 21:19 被阅读0次

    要点一:fasta格式

    1、目的

    蛋白质序列与核酸(DNA/RNA)序列研究是生命科学的核心,前者的组成单位为20种氨基酸,后者则是核苷酸(DNA与RNA均有四种不同核苷酸);为了便于记录与研究,科学家们分别统一了二者组成单位的字母表示方法,具体如下图所示。

    protein and amino acid
    AA 核酸的组成

    2、fasta

    • 基于上述说明,fasta格式简单来说就是储存一段一段序列信息的文本。
    • 以下图为例,一个fasta文件可储存1至多条序列信息,每条序列信息就包括两部分---
    • (1)序列描述header,即这段序列的身份信息identifiers,必须以>大于号开头;只能有1行;
    • (2)具体序列组成,紧跟在其header后的下一行。因为一般每行长度60/80,因此碰到长的序列可有很多行(例如人的基因组序列,每条染色体就是一条巨长的序列)


      三段DNA序列

    fasta格式较为简单,并且很容易理解。对于序列的header,一般无硬性要求,但是从NCBI等数据库下载的示例都有各自固定的命名方式,例如下图,则是经常遇到的以bar-separated NCBI sequence identifier。


    image.png

    要点二:fastq格式 ☆

    1、目的

    • 如果说fasta序列信息往往是基于一段确定组成的序列,那么fastq格式最大的不同就是引入序列信息准确性。
    • 因为fastq一般表示测序结果的文件格式,而测序实验必然会有误差。关于测序过程,可之前的一篇笔记有详细记录RNA-seq学习:No.2测序基础知识

    2、fastq

    在fastq格式中,一般每段序列信息有4行组成

    • 第一行基本等同于fasta的header,最大不同就是>变成了@,后面同样接序列的描述信息,1行;
    • 第二行就是测序结果的序列信息,注意一般也是1行;
    • 第三行一般只有个加号+,有时后面会接同第一行一样的description内容;
    • 第四行是与第二行碱基序列一一对应的测序质量信息Phred Quality, 即表示每个测序碱基结果的准确性。


      fastq

    同样关于第一行header无硬性的要求,不过一般都参考主流测序平台illumina的记录方式,如下图所示。


    illumina

    值得注意的一点是在双端(PE)测序中,第一行除了表征pair number的1/2,其余description基本相同。不过一般分别储存在对应的两个fastq文件里。


    image.png

    3、关于Phred Quality

    • 一般碱基测序质量(Base call quality)用错误率(error probability)表示,例如e=0.001表示平均1000次该错误率测序结果,有一个碱基为错误结果。
      由于一般都比较小,为表示方便,先进行负log10转换。如下公式,例如e=0.001,则Q=30
      $Q = -10 * log($e) / log(10)
    • 然后再进行ASCII值转换,目前常见的方式是Q值+33;再转换为对应的ASCII码,就是在fastq格式的第四行见到的测序质量结果


      FASTQ&错误率ASCII值对应关系

    The Bustard module of the SolexaPipeline estimates qualities, or error probabilities, from the signal/noise ratio of each base. I usually terms it as raw quality. Gerald is able to calibrate qualities with the Phred algorithm when the alignment is available. This is calibrated quality.
    We have already known that the trend of raw qualities is about right, which means bases with higher quality contains fewer sequencing errors. However, the absolute value of raw quality is not right. You may see one error out of 1000 bases with Q=40. When properly used, calibrated qualities can be much more accurate. I usually recommend to use calibrated qualities if possible.

    小彩蛋

    • 关于fasta与fastq文件格式的常见Linux操作,生信技能树Jimmy大神总结了一些相关练习题,对之后的实战学习很有帮助。
    • Linux生信练习2--fastq/fasta

    参考资料

    相关文章

      网友评论

        本文标题:生信格式之fasta、fastq

        本文链接:https://www.haomeiwen.com/subject/klllaktx.html