问题是,二代下机数据的Raw Reads乘以测序长度后为什么不等于Raw Base?
Raw Reads简称为RR,Raw Base简称为RB。
图中
RR是34040437个,RB是10.21 *1000 *1000 *1000bp
RB=RR *测序长度
使用命令查看测序长度
cat filename | head -n 100
CAT前100行的结果
获得结果均为150bp
ATGCAAATGTTAACTCCAAATAAAAAACCAGATTCCAGCTCTAGTTTTAATAGTTCCAAAGGAGGATTAAAGAAAGATAAAAATTTAAAAAGAAAAAATTCTACTTTAGTTGCTGACAATGATAATGTAAATACTTATAAAAATTATATG
AAACATCGGGCTGAAATAGTGTGTCACGTTAAACGAATTAAGATACCGCTAGGCAGTGGGAATGTACTGTCGGTGTTTGGGGATAGAGCAAATCAATAATTAGGAATCGTATCATGTATCCAGGCCCAAAACTGCCTAAAGAAAGGCGAT
GAACGGAGGAAGAAGGTGCCATGATAGAGTTTGTAGAGGGAGATGAAACTTAGGGATTTTTCACTTAAGGATGAGGTAACGGTAATGTGAGAGAGAGAGAGACATATTTATACCCACCGGATTTAAAACGGAGTTAATGCGGAATTGTTA
则RR *测序长度=34040437 *150=5,106,065,550bp,但是RB长度是10,210,000,000bp,出现了不一致
为什么呢?
出现这种情况的主要原因是,本次测序数据是PE(pair end)测序,而双端测序结果中,两个方向测序结果的reads数相同,所以公司的交付文件中的RR的个数34040437,其实指的是单个方向测序结果的reads个数。故此时
RB=RR(方向一) *测序长度+RR(方向二) *测序长度
=34040437 *150+34040437 *150
=10,212,131,100
至此,与结果报告中RB为10.21G的结果相一致
扩展一下
二代测序的读长为什么是固定的?
答:reads长度是测序仪本身程序决定的,碱基读取就是荧光显微镜拍照,150bp的reads就意味着150张激光共聚焦显微镜照片,这是可以控制的,所以也会有PE100,PE150,PE250,而且这些只是试剂盒不同,都可以在一个测序平台上运行。
二代测序的读长为什么是固定的? - 星空Idealist的回答 - 知乎
https://www.zhihu.com/question/376120856/answer/1050564345
网友评论