美文网首页
2020-12-24 二代测序结果文件大小问题

2020-12-24 二代测序结果文件大小问题

作者: 云若蓝 | 来源:发表于2020-12-24 17:13 被阅读0次

    问题是,二代下机数据的Raw Reads乘以测序长度后为什么不等于Raw Base?

    Raw Reads简称为RR,Raw Base简称为RB。
    图中
    RR是34040437个,RB是10.21 *1000 *1000 *1000bp

    RB=RR *测序长度

    使用命令查看测序长度

    cat filename | head -n 100
    
    CAT前100行的结果

    获得结果均为150bp

    ATGCAAATGTTAACTCCAAATAAAAAACCAGATTCCAGCTCTAGTTTTAATAGTTCCAAAGGAGGATTAAAGAAAGATAAAAATTTAAAAAGAAAAAATTCTACTTTAGTTGCTGACAATGATAATGTAAATACTTATAAAAATTATATG
    
    AAACATCGGGCTGAAATAGTGTGTCACGTTAAACGAATTAAGATACCGCTAGGCAGTGGGAATGTACTGTCGGTGTTTGGGGATAGAGCAAATCAATAATTAGGAATCGTATCATGTATCCAGGCCCAAAACTGCCTAAAGAAAGGCGAT
    
    GAACGGAGGAAGAAGGTGCCATGATAGAGTTTGTAGAGGGAGATGAAACTTAGGGATTTTTCACTTAAGGATGAGGTAACGGTAATGTGAGAGAGAGAGAGACATATTTATACCCACCGGATTTAAAACGGAGTTAATGCGGAATTGTTA
    

    则RR *测序长度=34040437 *150=5,106,065,550bp,但是RB长度是10,210,000,000bp,出现了不一致

    为什么呢?

    出现这种情况的主要原因是,本次测序数据是PE(pair end)测序,而双端测序结果中,两个方向测序结果的reads数相同,所以公司的交付文件中的RR的个数34040437,其实指的是单个方向测序结果的reads个数。故此时
    RB=RR(方向一) *测序长度+RR(方向二) *测序长度
    =34040437 *150+34040437 *150
    =10,212,131,100

    至此,与结果报告中RB为10.21G的结果相一致

    扩展一下

    二代测序的读长为什么是固定的?
    答:reads长度是测序仪本身程序决定的,碱基读取就是荧光显微镜拍照,150bp的reads就意味着150张激光共聚焦显微镜照片,这是可以控制的,所以也会有PE100,PE150,PE250,而且这些只是试剂盒不同,都可以在一个测序平台上运行。

    二代测序的读长为什么是固定的? - 星空Idealist的回答 - 知乎
    https://www.zhihu.com/question/376120856/answer/1050564345

    相关文章

      网友评论

          本文标题:2020-12-24 二代测序结果文件大小问题

          本文链接:https://www.haomeiwen.com/subject/wnimnktx.html