基因组测序数据的处理和分析流程

作者: 一抹_暖光 | 来源:发表于2020-05-28 23:18 被阅读0次

第一步，测序数据的质量检查。测序的原始数据的标准文件为fastq格式，是原始图像数据文件碱基识别转化得来，通常称为 raw reads。fastq 文件包含四行：

第一行是序列标识以及描述信息，以“@”开头；

第二行是序列；

第三行是以“+”开头，后面是序列标士符和描述信息，或者什么也不加；

第四行是序列的质量信息，每一个序列都有一个质量评分，根据评分体系的不同，每个字符的含义表示的数字也不相同。

（备注：1.每个字符对应的ASCII值减去33，即为第二行序列的质量值。此值用来衡量序列的准确性。2.测序的错误率与碱基的质量相关，并受测序仪、试剂、样品和实验操作等多个因素的影响）

第二步，GC含量分布检测。对GC含量分布的检测用于检测有无AT、GC分离。理论上，A和T、G和C碱基含量在每个测序循环上应分别相等，且在整个测序过程中稳定不变。而在实际的测序中，由于DNA模板扩增偏差及前几个碱基测序质量低等原因，会导致每个read前几个碱基有较大波动，不过这属于正常范围。

第三步，测序深度、覆盖度、比对率检查。当位点的碱基覆盖深度达到10x以上，突变率大于20%，则认为此位点出检测到的SNP更为可信。

第四步，数据分析。对于通过质量评价之后的数据，通常的分析流程包括：

1）数据过滤，包括接头、低质量的Reads

2）序列比对，常用软件BWA。原理：基于Burrows Wheeler 转化法，对于参考基因组进行压缩并建立索引，再进行比对，再通过查找和回溯来定位（序列比对中允许一定范围的错配）

3）序列排序，去冗余。samtools 软件将比对后的 sam 文件转化为二进制的 bam 文件。然后使用 Picardtools 软件对 bam文件排序，最后使用Picard-tool kit软件的MarkDuplicates 工具去除冗余数据。

4）变异检测和过滤。通常用 samtools 软件和 VarScan 软件识别SNP和InDel检测过滤；

5）变异的注释。软件是 Annovar 工具，注释内容包括：突变位置、突变分类（杂合和纯和）、基因名、转录本名、外显子号、蛋白质突变、氨基酸突变、rs号、1000Genome基因组频率、功能预测模型（SIFT、polyphen）、数据库（cosmic 70、clinvar）等。

网友评论

本文标题：基因组测序数据的处理和分析流程

本文链接：https://www.haomeiwen.com/subject/wfttzhtx.html

基因组测序数据的处理和分析流程