美文网首页生物信息学试读基因组
关于测序数据大小的问题

关于测序数据大小的问题

作者: Seurat_Satija | 来源:发表于2021-12-22 14:36 被阅读0次

基本概念
我们一般说的测序数据,比方说 6G 的测序数据,这个G代表的是 Gbase,而非文件大小 GB(gigabyte)
Gbase 代表的是碱基数量,即测序文件(A,T,C,G)的个数,相邻两个单位换算为 1000

而我们所说的文件大小 GB(gigabyte)是计算基领域统计某个文件大小的计量单位,相邻两个单位换算为 1024

如何估算fastq文件的的碱基数
一般我们测序数据有两种情况,一种是双端数据(双端各有150bp),另外一种是单端数据(一端300bp)
那么对于单端数据,我们可以先统计具有reads的行数有多少行,那么每一个reads行有300个碱基,那么总碱基数为:
总碱基数(GB) = (总reads的行数 × 300) / 10的9次方

如果是双端数据:
总碱基数 = (总reads的行数 × 2 × 150) / 10的9次方

如果想看实际比对下来的总碱基数,记得乘上比对率:
单端:总碱基数(GB) = (总reads的行数 × 300 × 比对率) / 10的9次方
双端:总碱基数(GB) = (总reads的行数 × 2 × 150 × 比对率) / 10的9次方

相关文章

  • 关于测序数据大小的问题

    基本概念我们一般说的测序数据,比方说 6G 的测序数据,这个G代表的是 Gbase,而非文件大小 GB(gigab...

  • 关于测序数据大小问题

    基本概念 我们一般说的测序数据,比方说 6G 的测序数据,这个G代表的是 Gbase,而非文件大小 GB(giga...

  • 文件格式——FASTQ

    FASTQ存的是产生自测序仪的原始测序数据,它由测序的图像数据转换过来,也是文本文件,文件大小依照不同的测序量(或...

  • 生信基础-测序原理

    生物信息分析的前提是获得了测序数据,关于测序原始数据也涉及非常多知识及细节,如果明白了测序原理及测序数据产生的过程...

  • 测序数据量?reads数目?cluster?

    首先,需要明确一点: 数据量大小其实就是碱基的个数。 那么,数据量大小的计算方法是: 单端测序 数据量=reads...

  • 10×一个样本测多少数据量(G)合适?

    首先,需要明确一点: 数据量大小其实就是碱基的个数。那么,数据量大小的计算方法是: 单端测序数据量=reads长度...

  • TCGA肠道菌群数据库

    我们知道TCGA数据库包括很多患者的二代测序的数据。关于二代测序。之前我们就介绍过,其实二代测序的数据是是一部分所...

  • 甲基化测序 (WGBS/RRBS/TBS)的去重(de-dupl

    关于测序数据去重问题网上有很多大神的分析,我就不滥竽充数了,我挑取了几篇比较好的文章: 第二代测序原理的详细解析!...

  • 基因测序学习收获

    最近在学习基因测序相关的内容,目的是想弄清以下问题: 一个病人的基因测序数据有多大的数据量?完成一次基因测序需要多...

  • 测序数据的获取、格式转换和质控

    1. 获取测序数据 Aspera 软件以最快速度传输全球数据,不受文件大小、传输距离或网络条件的影响。 ubunt...

网友评论

    本文标题:关于测序数据大小的问题

    本文链接:https://www.haomeiwen.com/subject/odmqqrtx.html