Author:ligc
Date:19/5/15
1.1 fastqc结果解读:
Basic Statistics测序量:300M左右
reads长度:51bp
adapter_content.png测序的adapter
duplication_levels.png重复序列的大小和数量(对于转录组测序而言,由于样品经过PCR扩增,出现重复序列属于正常情况)
per_base_n_content.pngreads中N(没测到)碱基的数量
per_base_quality.pngreads中每个碱基的平均质量值。计算公式为:Q=-10log(p),能看到大部分的碱基质量都在Q30以上。
per_base_sequence_content.png每个read中各个位置碱基的种类分布,刚开始GC含量不一致可能是由于开始的测序不稳定导致的。
per_sequence_gc_content.png每条序列的平均GC含量。
per_sequence_quality.png每条read的平均质量,Q30以上即可
per_tile_quality.png每个tile中所测得的碱基的质量
sequence_length_distribution.pngreads的平均长度
1.2 FASTQ格式说明
FASTQ格式是一种保存生物序列(通常为核酸序列)及其测序质量得分信息的文本格式。序列与质量得分皆由单个ASCII字符表示。
FASTQ文件中,一个序列通常由四行组成:
第一行以@开头,之后为序列的标识符以及描述信息(与FASTA格式的描述行类似)
第二行为序列信息
第三行以+开头,之后可以再次加上序列的标识及描述信息(可选)
第四行为质量得分信息,与第二行的序列相对应,长度必须与第二行相同
以下为一个包含单个序列的FASTQ文件示例:
@SEQ_ID
GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT
+
!''((((+))%%%++)(%%%%).1-+''))**55CCF>>>>>>CCCCCCC65
网友评论