此部分所有内容来自法国INRA的A. Legarra授课。
GP的发展历史
image.pngmarker
raw files(不喜欢的格式,需要转换):
image.png
可以转为每个动物占1行:
image.png image.png
另一种(A与B格式):
image.png
map 文件:
image.png
A/C的从编码(数字)
image.png也可以是A为参考:
image.png
image.png
BLUPF90格式:
image.png
怎么操作SNP文件:
image.pngimage.png
如果想要合并多个SNP文件,需要知道SNP名字和每个位点参考的值
image.png
质控
-
call rate:
image.png -
等位基因频率
image.png
-
最小等位基因频率MAF
image.png
为啥MAF这么重要?
image.png -
哈代温伯格平衡HWE
image.png
杂交后代不会有HWE
通常因为XY不对称,不会使用性染色体
在GP中使用性染色体更加复杂(美国的奶牛使用),需要查看:
image.png
- 孟德尔冲突
image.png
如果一个SNP有太多的孟德尔冲突,则可能检测错误,需要删去这个SNP
如果一个个体有太多的孟德尔冲突,则动物的ID出错或者在系谱出现错误
可以使用Seekparent.f90软件查找其父母 - 重复基因型
如果不是克隆,这应该是标记错误造成的 - 连锁不平衡LD:两个位点的非随机组合
image.png
跨品种预测很难实现,因为LD的差别会大一些。
测量LD:r2
image.png
基因内容(GC)的特性
image.png均值和方差:
image.png数据质控前后的不同
image.pngpreGSf90处理小于5000个个体数据(基因型); qcf90处理更大的数据
填充缺失的SNP
为啥呢?
- 有的软件不能使用缺失值
- 使用廉价的芯片(可以往高密度进行填充)
填充策略
- 基于家庭:我们比较从父母传给后代的染色体块并填补空缺
例子:
image.png
image.png
-
基于群体:我们(大致)制作了一个现有单倍型库(haplotypes),并与我们不完整的单倍型进行比较
image.png -
基于临近SNP填充
填充的典型输出衡量
准确度 = 真实基因型和推算基因型的相关性
一致性 = 正确调用的基因型的百分比 (%)(不好)
填充的典型输出衡量
image.png对没有基因型的动物填充
使用linear法填充(方法不理想)
Gengler et al. (2007)构想了一种代数方法来获得基于回归的基因型点估计。
后代的基因型 = 父母的一半 + 孟德尔抽样
image.png
image.png
image.png
为啥线性填充不好?
image.png
但它为 SSGBLUP 奠定了基础
基于Marker模型的基因组选择(GS)
-
单QTL
假设我们知道具体大效应的QTL(1个主要基因),如:
image.png
image.png
image.png
但是大多数性状的因果基因还不知道
-
整个基因组(多个marker)的基因组选择
Meuwissen et al. 2001提出直接使用marker。
image.png
image.png
基因组预测GP
image.png基于系谱的预测:
image.png
基于基因组的预测
image.png
例子:
image.png
从marker(SNP)效应到育种值
image.png一个详细例子:
image.png
怎么估计marker效应呢?
如果通过LS(最小二乘法)估计:
image.png
但是LS估计时,会有很多缺点:
image.png
使用最佳预测或者贝叶斯回归
贝叶斯回归:
image.png
这几种贝叶斯算法得到结果类似,所以算法不是很重要
缺点:
image.png
经过10年的试验,marker的正态分布是一个较好的分布假设
image.pngGBLUP和SNP-BLUP是等同的
SNP-BLUP的MME
image.pngSNP-BLUP具有很强的灵活性:
image.png
Marker的编码
image.pngimage.png
假设我们使用SNP-BLUP:
image.png
image.png
但是注意新的动物,必须采用相同的参考等位基因编码,否则就会出错
image.png编码的中心化:
image.png
对新动物的GEBV 预测时,必须使用旧数据的中心化编码(旧频率)
image.png育种者应该怎么操作呢?注意IP
image.pngBLUPF90的应用(p*, 和 SNP效应存在SNP_pred文件中,用于IP)
注意SNP编码过程中,对于参考等位基因需要自己保持一致
image.png
SNP-BLUP中个体的理论可靠性
image.png注意个体可靠性受到SNP编码的影响
image.png归一化(scaling)——不推荐使用
image.pngimage.png
计算SNP的方差:
image.png
另外方法:
image.png
假设成功:
image.png
但是假设不成立(这就涉及到遗传力缺失):
image.png
新的求解
image.pngimage.png
网友评论