美文网首页
fastq 数据格式解析

fastq 数据格式解析

作者: 1Z实验室阿凯 | 来源:发表于2017-02-05 13:28 被阅读1635次

概念介绍

Read 读段

Read 中文翻译: 读段,来自测序仪的raw data
一个Read 可能由多个片段组成, Read的索引是测序时的顺序

Sequencing quality 测序质量

测序仪在测序的时候,每次测出来的结果可能都不一样(仪器误差 序列长度等各方面因素), 所以往往需要多测几次,最后开决定是哪一个碱基。


Phred_Figure_1.jpg

Sequencing quality 是度量测序仪测序质量的指标。
测序质量指标有很多种 , 最常用的的是Phred quality score。

Sequencing quality metrics can provide important information
about the accuracy of each step in this process, including library
preparation, base calling, read alignment, and variant calling. Base
calling accuracy, measured by the Phred quality score (Q score), is the
most common metric used to assess the accuracy of a sequencing
platform. It indicates the probability that a given base is called
incorrectly by the sequencer.

Phred quanlity score 测序质量分数

概念

illumina 质量分数说明
https://www.illumina.com/documents/products/technotes/technote_Q-Scores.pdf

Q scores are used to measure base calling accuracy, one of the most
common metrics for assessing sequencing data quality. Low Q scores
can lead to increased false-positive variant calls, resulting in inaccurate
conclusions and higher costs for validation experiments.

测序质量分数
Q Phred quality scores
P base-calling-error probabilities

简单来说 Q越大 就说明测序质量越好

Paste_Image.png
Paste_Image.png

https://en.wikipedia.org/wiki/Phred_quality_score

格式

不同的测序仪采用不同的测序标准, 取值范围不同
在存入Fastq格式的时候往往需要将数值转换为单个字符,要将数值范围映射到ASCII码上

对于每个碱基的质量编码标示,不同的软件采用不同的方案,目前有5种方案:
Sanger,Phred quality score,值的范围从0到92,对应的ASCII码从33到126,但是对于测序数据(raw read data)质量得分通常小于60,序列拼接或者mapping可能用到更大的分数。
Solexa/Illumina 1.0, Solexa/Illumina quality score,值的范围从-5到63,对应的ASCII码从59到126,对于测序数据,得分一般在-5到40之间;
Illumina 1.3+,Phred quality score,值的范围从0到62对应的ASCII码从64到126,低于测序数据,得分在0到40之间;
Illumina 1.5+,Phred quality score,但是0到2作为另外的标示,详见http://solexaqa.sourceforge.net/questions.htm#illumina
Illumina 1.8+

测序仪产生的数据格式

不同测序仪,不同版本号,产出的数据格式不一定相同

测序平台 文件格式 说明
454测序 FASTA / FASTAQ
Illumina/Solexa FASTQ
SOLiD CSFASTA / QV.qual质量文件 测序结果包含峰值

下面的这四行就是一行Read(这里我们以FASTQ格式为例)

fastq 格式说明

@HWI-ST507:4:75:4291:2239#0/1
AAGCTTGTTGAAGGCTACCAAAAACGATTACAAGCTGTAATTTCTGCTAAAG
+HWI-ST507:4:75:4291:2239#0/1
ggggegegfggggdgggg_ggcg\gfdYadddea]`cc_cc`c\[ed\^`]]

第一行: @文件识别标志 + Read ID

HWI-ST507:4:75:4291:2239#0/1

说明

数据 含义 说明
HWI-ST507 测序仪的唯一编号 -
4 测序通道 说明这批数据是在测序仪的第四通道测出来的
75 Read读长 代表每个Read的长度都是75bp
4291:2239 测序仪中的坐标数
#0 多样本测序时候的索引 #0 代表单样本测序
/1 每对paired-end 或者mate-pair的reads中的第一个

第二行:序列

第三行: + 文件标识标识 + Read ID

第三行的+后面的跟第一行相同, 可以省略, 但是+不可省略

第四行:质量分数

ggggegegfggggdgggg_ggcg\gfdYadddea]`cc_cc`c\[ed\^`]]

对应到到该仪器版本所采用过的phred标准,对应的ascall码范围求得整数质量分数值

相关文章

  • fastq 数据格式解析

    概念介绍 Read 读段 Read 中文翻译: 读段,来自测序仪的raw data一个Read 可能由多个片段组...

  • 转录组测序中的文件格式

    FastQ fastq是scRNASeq中最常见的原始数据格式。所有scRNASeq都是双端测序 BAM bam文...

  • 学习小组DAY7笔记——shoan

    测序知识 思维导图总结 一二三代测序对比 数据格式总结 Fastq & Fasta Fastq格式 一种基于文本的...

  • 测序数据的格式转换与质控

    一、测序数据的格式转换 sra文件下载好后,使用fastq-dump转换数据格式: fastq-dump --sp...

  • 数据解析

    XML数据格式解析 pull解析方式 sax解析方式 JSON 数据格式解析 解析代码很简单,但是还要有APP类,...

  • 测序信息处理可视化

    数据格式 FASTQ和FASTA:均为文本文件,前者用@标记起始,后者用>标记起始。FASTQ不仅存储质量信息,还...

  • 生物数据格式 - fastq

    格式 fastq格式是一种包含质量值的序列文件,一般用来存储原始测序文件,文件扩展名一般为fastq或fq,目前主...

  • json封装解析

    封装 数据格式 解析

  • 生物信息分析常用文件格式和软件

    生物信息分析常用文件格式和软件 文件格式 数据格式 fastq fasta 注释 gtf gff bed bcf ...

  • Biostar handbook学习笔记四

    目前学习到的关于生物数据及数据库的基本知识有: 常用数据格式:fasta, fastq, gff, GenBank...

网友评论

      本文标题:fastq 数据格式解析

      本文链接:https://www.haomeiwen.com/subject/piqeittx.html