二代测序fastq序列名称格式（illumina NGS）

作者: 云养江停 | 来源:发表于2021-09-05 09:39 被阅读0次

二代测序fastq序列名称格式（illumina NGS）
二代测序数据质控 QC
NGS数据格式01-FASTQ|FASTA格式详解
测序原理免费资源收集
Day2-xiaode
GATK推荐的序列存储格式-uBAM
学习小组Day7笔记—白兔儿溜溜
基因组数据过滤、比对简介
转录组分析(5) - 无参转录组拼接(illumina)
测序数据的解析：Fastq与FastQC

在fastq文件里，会用4行文本来表示一条序列：
在fastq文件里，会用4行文本来表示一条序列：

@SIM:1:FCX:1:15:6329:1045:GATTACT+GTCTTAAC 1:N:0:ATCCGA
TCGCACTCAACGCCCTGCATATGACAAGACAGAATC
+
<>;##=><9=AAAAAAAAAA9#:<#<;<<<????#=

其中第一行文本是序列的名称（read name 或者说read ID），包含了非常多有用的关键信息，每部分信息之间用 ':' 分隔开，从左到右依次看过去：

SIM 表示 instrument ID（即测序仪的硬件ID）
1 表示 run number（该测序仪上的测序顺位数字？）
FCX 表示 followcell ID（测序芯片的ID）
1 表示 lane ID（第几条lane）
15 表示 Tile number（Tile数字）
6329 表示 X coordinate of cluster（桥式PCR生成的簇的横坐标）
1045 表示 Y coordinate of cluster（簇的纵坐标）
GATTACT+GTCTTAAC 表示 read1 UMI ID + read2 UMI ID（拆分数据的UMI序列）
1 表示 read number，1 表示read1，2表示read2
N 表示 Y if the read is filtered (did not pass), N otherwise.（N表示合格，Y不合格）
0 表示 control number（在HiSeq X and NextSeq平台上总是为0）
ATCCGA 表示 index（拆分数据用的index序列）

解释名词
SBS：边合成边测序反应，每次SBS会延伸一个碱基，大约耗时70分钟。
Run：单次上机测序反应，可以产生4G-75G测序通量不等。
Lane：单泳道，每条泳道可以直接物理区分测序样品，1次run最多可以同时上样8条Lane。
Channel：Lane的同义词。
Tile：每次荧光扫描的最小单位，小区，每条Lane中排有2列tile，合计120个小区。每个小区上分布数目繁多的簇结合位点。
Cluster：簇，在Solexa测序技术中会采用桥式PCR方式生产DNA簇，每个DNA簇才能产生亮度达到CCD可以分辨的荧光点。
Index：标签，在Solexa多重测序（Multiplexed Sequencing）过程中会使用Index来区分样品，并在常规测序完成后，针对Index部分额外进行7个循环的测序，通过Index的识别，可以在1条Lane中区分12种不同的样品。
Barcode: Index同义词

Hiseq 2000 与 2500比较：

2000的通量600G/RUN,2500的通量120G/RUN
2000有2个flowcell,每个flowcell8个lane
2500的也是2个flowcell，快速模式中每个flowcell2个lane，每个lane产出30G数据量