前言
使用真实数据,从零开始进行短序列的WGS分析。只要跟着本文的管道走,就一定可以轻松重复GATK4的分析结果。当然如果读者有自己的数据,只需改变数据文件名,也可以自己轻松做WGS分析,从此再也不需要求人。类似本文一个完整的分析淘宝上的价格是2000-3000人民币。
1. 课题
你手上有一个人的外显子基因组数据,使用GATK4进行分析,你可以得出哪些发现。
2. 目的
对一个外行或者刚入门的小白来说看起来很简单,"查一下基因数据不就好了"。Oh, really?! 真的这么简单的吗,做一下基因对比就真的可以发现什么问题吗?我们可以通过这个教程来实践验证一下。
3. 操作流程
- Mapping 比对与拼接
a. 准备好参照序列
b. 准备好工具,这里我们会用BWA
c. 准备好样本的短序列数据,演练会提供真实数据的下载链接。
d. 进行Mapping - 变异检测
a. 去除PCR重复
b. 变异检测 - 变异基因的注释
- 和疫病有关的基因的提取和注释
a. 一共有多少位置产生了变异?
b. 需要考虑到样本的性别,毕竟XY和XX不同
c. 通过耳垢的干湿类型有关的SNP来判断本次样本的耳垢干湿类型
我们的结果会得到一个VCF文件,里面包含了所有SNP的信息。VCF里比较重要的信息如下列出
GT: Genome Type 基因型
AD: Allele Depth 每一种allele的reads覆盖度
DP: Depth 深度
GQ: Genome Type Score 99分为满分
PL: 0/0, 0/1, 1/1各个基因型的尤度, 三个值加起来的和应该是1,数值越小,可能性越低。
具体的分析管道会在后续的文章里详细说明。
网友评论