美文网首页数量遗传或生统
47- 基因组预测的基础(1)

47- 基因组预测的基础(1)

作者: Hello育种 | 来源:发表于2022-06-17 14:46 被阅读0次

    此部分所有内容来自法国INRA的A. Legarra授课。

    GP的发展历史

    image.png

    marker

    raw files(不喜欢的格式,需要转换):


    image.png

    可以转为每个动物占1行:


    image.png image.png

    另一种(A与B格式):


    image.png

    map 文件:


    image.png

    A/C的从编码(数字)

    image.png

    也可以是A为参考:


    image.png
    image.png

    BLUPF90格式:


    image.png

    怎么操作SNP文件:

    image.png
    image.png

    如果想要合并多个SNP文件,需要知道SNP名字和每个位点参考的值


    image.png

    质控

    • call rate:


      image.png
    • 等位基因频率


      image.png
    image.png
    • 最小等位基因频率MAF


      image.png

      为啥MAF这么重要?


      image.png
    • 哈代温伯格平衡HWE


      image.png

    杂交后代不会有HWE
    通常因为XY不对称,不会使用性染色体
    在GP中使用性染色体更加复杂(美国的奶牛使用),需要查看:


    image.png
    • 孟德尔冲突
      image.png
      如果一个SNP有太多的孟德尔冲突,则可能检测错误,需要删去这个SNP
      如果一个个体有太多的孟德尔冲突,则动物的ID出错或者在系谱出现错误
      可以使用Seekparent.f90软件查找其父母
    • 重复基因型
      如果不是克隆,这应该是标记错误造成的
    • 连锁不平衡LD:两个位点的非随机组合
      image.png
      跨品种预测很难实现,因为LD的差别会大一些。
      测量LD:r2
      image.png

    基因内容(GC)的特性

    image.png

    均值和方差:

    image.png

    数据质控前后的不同

    image.png

    preGSf90处理小于5000个个体数据(基因型); qcf90处理更大的数据

    填充缺失的SNP

    为啥呢?

    1. 有的软件不能使用缺失值
    2. 使用廉价的芯片(可以往高密度进行填充)

    填充策略

    1. 基于家庭:我们比较从父母传给后代的染色体块并填补空缺

    例子:


    image.png
    image.png
    1. 基于群体:我们(大致)制作了一个现有单倍型库(haplotypes),并与我们不完整的单倍型进行比较


      image.png
    2. 基于临近SNP填充

    填充的典型输出衡量

    准确度 = 真实基因型和推算基因型的相关性
    一致性 = 正确调用的基因型的百分比 (%)(不好)

    填充的典型输出衡量

    image.png

    对没有基因型的动物填充

    使用linear法填充(方法不理想)
    Gengler et al. (2007)构想了一种代数方法来获得基于回归的基因型点估计。

    后代的基因型 = 父母的一半 + 孟德尔抽样


    image.png
    image.png
    image.png

    为啥线性填充不好?


    image.png
    但它为 SSGBLUP 奠定了基础

    基于Marker模型的基因组选择(GS)

    1. 单QTL
      假设我们知道具体大效应的QTL(1个主要基因),如:


      image.png
    image.png
    image.png
    image.png

    但是大多数性状的因果基因还不知道

    1. 整个基因组(多个marker)的基因组选择
      Meuwissen et al. 2001提出直接使用marker。


      image.png
      image.png

    基因组预测GP

    image.png

    基于系谱的预测:


    image.png

    基于基因组的预测


    image.png

    例子:


    image.png

    从marker(SNP)效应到育种值

    image.png

    一个详细例子:


    image.png

    怎么估计marker效应呢?

    如果通过LS(最小二乘法)估计:


    image.png

    但是LS估计时,会有很多缺点:


    image.png

    使用最佳预测或者贝叶斯回归

    贝叶斯回归:


    image.png

    这几种贝叶斯算法得到结果类似,所以算法不是很重要

    缺点:


    image.png

    经过10年的试验,marker的正态分布是一个较好的分布假设

    image.png

    GBLUP和SNP-BLUP是等同的

    SNP-BLUP的MME

    image.png

    SNP-BLUP具有很强的灵活性:


    image.png

    Marker的编码

    image.png
    image.png

    假设我们使用SNP-BLUP:


    image.png
    image.png

    但是注意新的动物,必须采用相同的参考等位基因编码,否则就会出错

    image.png

    编码的中心化:


    image.png

    对新动物的GEBV 预测时,必须使用旧数据的中心化编码(旧频率)

    image.png

    育种者应该怎么操作呢?注意IP

    image.png

    BLUPF90的应用(p*, 和 SNP效应存在SNP_pred文件中,用于IP)

    注意SNP编码过程中,对于参考等位基因需要自己保持一致


    image.png

    SNP-BLUP中个体的理论可靠性

    image.png

    注意个体可靠性受到SNP编码的影响

    image.png

    归一化(scaling)——不推荐使用

    image.png
    image.png

    计算SNP的方差:


    image.png
    另外方法:
    image.png

    假设成功:


    image.png
    但是假设不成立(这就涉及到遗传力缺失):
    image.png

    新的求解

    image.png
    image.png

    相关文章

      网友评论

        本文标题:47- 基因组预测的基础(1)

        本文链接:https://www.haomeiwen.com/subject/mcvpmrtx.html