在拿到一组snp数据时,首先应该想到要对snp数据的质量进行检测和控制。然后再考虑这组数据该怎么分析,如何分析。snp的质控是非常重要的,如果snp数据的质量不佳,那么计算的结果的有效性和准确性就无法保证。即使后续分析的非常详细,最后的结果也还是不理想的,相当于做了无用功。所以对snp质控是至关重要的。那么如何对snp质控呢,需要对那些指标进行指控呢?这都是需要注意的。
首先介绍一下需要对那些指标进行质控。
1.call rate(检出率)
样本检出率:是指对于某种样本而言,通过测序并成功判刑的snp与所有检出的snp的比值,通常标准在90%或以上。
snp检出率:指对某个snp位点被成功检测到的样本与所有样本比值,一般要求在90%或以上。
2.MAF(最小等位基因频率)
最小等位基因频率:对那些MAF较小的snp,能得到信息量较少而且目前对这些snp检出效率也不高,通常要求maf值在3%及以上。
3.HWE(哈迪—温伯格平衡)
哈迪—温伯格平衡:HWE有助于确定哪些有明显基因分型错误的snp,因此一般要求位点snp符合HWE.
知道了检测的指标一切就好办了,接下来介绍一下各个指标的质控方法(利用plink软件)
call rate >95%
plink --file snp -geno 0.05 --recode --out snp_geno ###这一步就是要求snp检出率要在95%以上
plink --file snp_geno -mind 0.05 --recode --out snp_mind ##这步就是对样本检出率进行质控,控制在95%以上
MAF>0.05
plink --file shp_mind -maf 0.05 --recode --out snp_maf ##这步是对最小等位基因频率进行质控,要求要大于0.05.
Hardy—Weinbery < 0.0001
plink --file snp_maf -hwe 0.0001 --recode --out snp_hwe ####此步要求哈迪温伯格平衡要小于0.0001。
好了,看了上述的质控流程,基本上就能解决问题了,不过一步一步的来很繁琐,可以把所有的过程合并到一起例如:
plink --file snp -geno 0.05 -mind 0.05 -maf 0.05 -hwe 0.0001 --recode --out snp_result ###这条稍微长一点的命令就把所有指标的全部都包含了可以一步就出来质控结果。在生成的日志文件中可以查看质控结果。
上述就是snp质控的内容,上述指标和指标阈值均是例子,如有需要请结合自己的数据情况选择质控指标和质控指标的阈值。上述命令均为手打,复制使用时注意有空格和中英文标点等问题。
网友评论