LD概念
- 连锁不平衡(linkage disequilibrium, LD)也叫等位基因关联,是指不同座位的两个等位基因出现在一条染色体上的频率与随机组合出现的频率不一致的情况。
- 连锁:两个基因在同一条染色体上共同遗传
- 不平衡:共同遗传概率偏离期望值
- 通过pair-wise算法计算得到的LD系数(r2)来评估LD(连锁不平衡)的水平。
LD衰减分析位点之间由连锁不平衡到连锁平衡的演变过程,可以查看整个群体及亚群的连锁水平。
LD r2计算公式
- 例如两个相邻的基因A B, 他们各自的等位基因为a b. 假设A B相互独立遗传,则后代群体中观察得到的单倍体基因型 AB 中出现的的概率为P(AB) = P(A) * P(B)
- 实际观察得到群体中单倍体基因型 AB 同时出现的概率为P(AB)。 若这两对等位基因是非随机结合的,则P(AB)≠P(A) * P(B)。D 值计算公式如下:
D = P(AB)- P(A) * P(B) - 引入LD系数(r^2),他是标准化后的D值
r2 = (P(AB) * P(ab) – P(aB)* P(Ab))^2 / P(A)P(B)P(a)P(b)
r2 是一个0-1之间的数值,0表示两个座位完全不相关,1表示完全相关
LD衰减
- 两个座位在基因组上离得越近,连锁就越强,LD度越大。因此,随着标记间距离的增加,平均LD度将降低,呈现衰减状态,称之为LD衰减图。
- LD衰减距离影响因素
1.群体类型,野生vs驯化
2.世代间隔
3.染色体位置
应用
- GWAS中估计标记的覆盖度,通过LD衰减距离(0.1)和标记间平均距离的比较判断标记是否足够。
- 判断群体多样性的差异,一般野生群体的LD衰减速度快与驯化群体
软件和数据准备
- 软件:PopLDdecay
- VCF 文件:all.vcf
-
亚群样本列表文件:sample1.txt、sample2.txt
参考脚本
1.两个亚群r^2值汇总统计
/home/PopLDdecay/bin/PopLDdecay \ #软件的安装位置
-InVCF ./all.vcf \ # 输入vcf文件
-SubPop ./sample1.txt \ # 指定要分析的亚群文件
-MaxDist 500 \ # 最大SNP对距离,超过此范围不进行计算
-OutStat sample1.stat # 输出文件
# 同样运行第二个亚群,只需替换亚群文件即可
r2和D'反映了LD的不同方面。r2包括了重组和突变,而D'只包括重组史。D'能更准确地估测重组差异,但样本较小时,低频率等位基因组合可能无法观测到,导致LD强度被高估,所以D'不适合小样本群体研究;
LD衰减作图中通常采用r2来表示群体的LD水平;Haplotype Block中通常采用D'来定义Block;迁移、突变、选择、有限的群体大小以及其他引起等位基因频率改变的因素,这些都会引起LD的改变。
perl /home/PopLDdecay/bin/Plot_OnePop.pl \
-inFile sample1.stat.gz \ # 输入文件
-output sample1.ld #输出文件
3.多个亚群共同绘图
准备文件:sample.list (亚群信息表,第一列输出文件id 第二列分布地区)
sample1.stat.gz SC
sample2.stat.gz YZR
perl /home/PopLDdecay/bin/Plot_MultiPop.pl \
-inList sample.list \
-output sample.list
网友评论