Fig 1
这篇文章的一个核心分析是鉴定杂合选择清除区域heterozygous selective sweep regions (HSSR, Fig 1),拿到群体间的HSSR再与群体分化指数、有害突变甚至GWAS去关联。
鉴定HSSR需要用到两个指标,一个是杂合度heterozygosity,一个是遗传多样性genetic diversity,作者将Pop_NE、Pop_NW与Pop_S相比杂合度和遗传多样性均下降的基因组区域定义为杂合选择清除区域heterozygous selective sweep regions (HSSR)。
本次推送介绍如何计算群体水平全基因组的杂合度和遗传多样性以及如何联合筛选拿到HSSR.
计算杂合度
杂合度(heterogosity,He)是指在一个多态位点,一随机个体含有任意两个不相同等位基因的可能性,即为杂合子的可能性。
计算杂合度可以利用plink软件,输入文件可以是vcf格式。我们可以计算vcf文件中某个个体的整体杂合度也可以计算某个位点在该群体中的杂合度,文章中用的是后者。
(一)计算个体的杂合度
Fig 2
Fig 3
通过Fig2的命令可计算vcf文件中每个个体的整体杂合度,输出文件是test_het.het.
.het是该命令自己加上的,该文件包括六列(Fig 3):
第一列FID是家系的ID,第二列IID是个体的ID,如果vcf文件中没有指定,则FID和IID一致。
第三列O是观察到的纯合的个数,第四列E是预期的纯合个数,第五列是没有缺失的SNP的格式。
第六列是计算得到的F系数,我们用这个值来表征该个体的杂合度。F值越小,杂合度越高,F值越高,杂合度越低,可为负数。
注:F=(O-E)/(N-E)
(二)计算每个位点的杂合度
Fig 4
Fig 5
通过Fig4的命令可计算vcf文件中每个位点的杂合度,输出结果为test_hardy.hwe.
输出文件包含九列(Fig 5):
一二列表征位置信息,第四列A1是次等位基因型,第五列A2是主等位基因型。
第六列以/分隔,包含三个数字,第一个是次等位基因纯合个数,第二个是杂合个数,第三个是主等位基因纯合个数。
第七列O是观察到的杂合频率,第八列E是期望的杂合频率,第九列给出了哈-温平衡检验的P值。
该输出结果记录了每一个位点的杂合度,可用来做文章中的分析。
Fig 6
文章方法部分首先是根据PLINK软件计算了每个位点的杂合度,然后以5000bp-2500bp为滑动窗格计算该区间内所有SNP杂合度的平均值。
bedtools makewindows 可以指定窗口大小和步长对基因组划分区间,然后利用bedtools coverage选项以bed输入计算覆盖深度的方式计算指定区间的的平均杂合度(深度)。
计算核苷酸多样性
核苷酸多样性(nucleotide diversity)用于表征某一种群中多态性的强弱。
根井正利和李文雄在1979年引入了一种计算核苷酸多样性的方法:在从某一种群中取得的多个样品DNA上随机取一段序列,将在这些序列上的同一位点碱基的不同取平均值,即可得核苷酸多样性的值。他们将这个值记为“π”。
Fig 7
以滑窗的方式计算全基因组的核苷酸多样性,可以利用vcftools软件(Fig 7)。
--gzvcf指定输入的vcf文件,--window-pi指定窗口大小,--window-pi-step指定步长,--keep保留vcf文件中的哪些个体用于分析。
计算两个亚群的pi值后可以构建pi 的比值,然后与杂合度比值联合筛选最大5%的区域即可得到HSSR,最后的结果可能有重叠,可以用bedtools进行合并。
网友评论