美文网首页
你知道你的二代测序数据来自于哪个平台吗

你知道你的二代测序数据来自于哪个平台吗

作者: 生信师姐 | 来源:发表于2021-10-18 08:08 被阅读0次

    转自:https://mp.weixin.qq.com/s/fCPkWa68mejERL7b9s9Mog

    图片

    准备上传数据时发现一个有趣的问题,自己不知道数据来自于哪个illumina的哪个测序平台,所以整理下如何根据FASTQ的标识行分析测序数据的来源

    FASTQ格式文件中每个read由四行描述,如下:

    @HWI-ST1327:30:C18RRACXX:8:1101:10939:1992  1:N:0:ACCAAT
    AGGACCCGAAAGATGGTGATGGAATTCTCGGGTGCCAAGGAACTCCAGTC
    +
    DDFFFHHHHHJIIIJJHIHIJJJJIJIIJJJJDGHIJJJJIJJJJJJJIJ
    

    其中illumina测序标识符和测序仪器线索相关的内容为就是第一行中 HWI-ST1327部分,用于说明来自于什么测序平台。

    根据10X公司的脚本,illumina_instrument.py,整理出如下内容

    测序仪器平台 编号
    MiSeq HWI-M
    Genome Analyzer IIx HWUSI
    HiSeq 1500 HWI-C 或 C
    Hiseq 2500 HWI-D 或 D
    Hiseq 3000 J
    HiSeq 3000 或 HiSeq 4000 K
    HiSeq X E
    NextSeq NB或NS
    MiniSeq MN
    novaseq DMXX

    举几个例子:

    @E00591:243:HLK2YCCXY:3:1101:4411:1608 1:N:0:AGCAGGAA 包含E,也就是HiSeq X平台,
    @ST-E00314:132:HLCJTCCXX:6:2206:31213:47966 1:N:0 虽然开头是ST,但是后续跟着E,那么还是HiSeq X。

    大部分情况都能解决问题,但是如果你遇到了@HISEQ:739:CCGERANXX:7:1101:9617:1309 1:N:0:NATCCGTC 这种编号的话,那么就得求助这里面的CCGERANXX这9个字符组成的FCID

    还是根据illumina_instrument.py脚本里的内容,查询以C开头,ANXX结尾的是HiSeq 1500", "HiSeq 2000, HiSeq 2500,我们将范围缩减到了3个平台。同时我们还可以查询每个测序仪器的测序读长范围。

    根据我整理的表格,至少能够区分250bp , 以及小于100bp的FASTQ数据来源。

    测序仪型号 最长读长 数据量
    HiSeq X 2 x 150 bp 1.6–1.8 Tb
    NovaSeq 6000 2 x 150 bp 134–6000 Gb
    HiSeq 4000 2 x 150 bp 125–1500 Gb
    HiSeq 3000(过时,不用) 2 x 150 bp
    HiSeq 2500 2 x 250bp 9 –1000Gb
    HiSeq 2000 2 X 100 bp 36 - 200Gb
    NextSeq 2x 150bp 20–120 Gb

    考虑HiSeq 1500 基本不用,最后就只有2个选项,最后比较下每个读段长度,就能分析出具体的平台了

    参考资料

    相关文章

      网友评论

          本文标题:你知道你的二代测序数据来自于哪个平台吗

          本文链接:https://www.haomeiwen.com/subject/mrbgoltx.html