这是一篇发表在NG上的文章,讲述了当某一个个体缺乏SNP z的时候该如何推断出它的真实SNP基因型,《Genome-wide association studies of 14 agronomic traits in rice landraces》
比方说我们有100个个体(一倍体),那么有97个个体在SNP z这个位置上是call 得出来的,而在3个个体中是缺失的,那么我们的目的是infer出这三个个体中缺失的SNP
具体做法:
首先,确认我们要推断的SNP z,然后上下拓展相同的长度(该例子为上下拓展3bp),并定义为窗口 w 。对于个体 i 和个体 j 计算该 w 内的相似性分数,当两个major allele相同时,分数(sij)为 1;当两个major allele有一个或两个都缺失时,分数(sij)为 0;当两个major allele不同时,分数(sij)为 p
![](https://img.haomeiwen.com/i19396348/d60a4bf3cee60d7e.png)
那么这个窗口 w(针对SNP z) 的相似性为:
![](https://img.haomeiwen.com/i19396348/beb06fa91c88ef53.png)
即窗口 w 内的分数总和
那么有N个个体对于窗口 w (针对SNP z)计算相似性分数,我们就可以得到一个矩阵:
![](https://img.haomeiwen.com/i19396348/9cb886bcc919651a.png)
例如S31代表个体 3 与个体 2 在窗口 w (针对SNP z)中的相似性分数
如果要推断个体 i SNP z的缺失值,我们需要取个体 i 与其他个体在窗口 w(针对SNP z)的相似性分数,并从大到小排序,取分数最大的前k-th定义为nearest neighbor
![](https://img.haomeiwen.com/i19396348/6cc879ac00e62c5e.png)
那么个体 i 缺失的SNP z基因型定义为窗口 w相似性分数最高的那个个体(比方Si25分数最高)对应位置(SNP z)的major allele(个体25 SNP z的major allele)
网友评论