美文网首页生信分析测序基础知识
关于测序数据大小问题

关于测序数据大小问题

作者: 小潤澤 | 来源:发表于2020-10-01 12:12 被阅读0次

    基本概念

    我们一般说的测序数据,比方说 6G 的测序数据,这个G代表的是 Gbase,而非文件大小 GB(gigabyte)
    Gbase 代表的是碱基数量,即测序文件(A,T,C,G)的个数,相邻两个单位换算为 1000

    而我们所说的文件大小 GB(gigabyte)是计算基领域统计某个文件大小的计量单位,相邻两个单位换算为 1024

    如何估算fastq文件的的碱基数

    一般我们测序数据有两种情况,一种是双端数据(双端各有150bp),另外一种是单端数据(一端300bp)
    那么对于单端数据,我们可以先统计具有reads的行数有多少行,那么每一个reads行有300个碱基,那么总碱基数为:
    总碱基数(GB) = (总reads的行数 × 300) / 10的9次方

    如果是双端数据:
    总碱基数 = (总reads的行数 × 2 × 150) / 10的9次方

    如果想看实际比对下来的总碱基数,记得乘上比对率:
    单端:总碱基数(GB) = (总reads的行数 × 300 × 比对率) / 10的9次方
    双端:总碱基数(GB) = (总reads的行数 × 2 × 150 × 比对率) / 10的9次方

    本文谨纪念曾经犯过的错

    相关文章

      网友评论

        本文标题:关于测序数据大小问题

        本文链接:https://www.haomeiwen.com/subject/ljumuktx.html