美文网首页遗传学GWAS
3.1 GWAS:表型鉴定与记录的基本原则和原始数据处理

3.1 GWAS:表型鉴定与记录的基本原则和原始数据处理

作者: Wei_Sun | 来源:发表于2021-11-16 08:58 被阅读0次

    精确的表型检测是关联分析的关键,GWAS对数量性状和质量性状都适用。

    1.各类性状的特点及鉴定与考察建议

    image.png

    2.表型的基本处理

    2.1 正态性检验

    • 关联分析属于线性模型,要求数据必须符合正态分布;
    • 正态性检验简单直观的方法是绘制频率分布图,观测数据分布情况;
    • 可以使用Shapiro-Wilk方法进行检测;
    • 不太符合正态分布的数据有时也可能获得不错的关联结果,需要警惕结果真实性。

    2.2 去除极端异常值

    极大或极小的异常值可能引起关联结果的异常,在分析前需要去除。

    • 排序观察法,适用于表型种类较少时;
    • 3sigma规则:均值加减三倍标准差的范围内为正常值,其他为异常值;
    • 箱线图:在触须外的值均可以认为是异常值。


    2.3 多年多点表型值处理

    • 性状遗传力高,受环境影响不大,可以根据多年多点的结果取均值或BLUE值作为该性状的代表值进行分析;
    • 若性状遗传力低,受环境影响大,可每年每点单独分析后综合评判结果,在获得定位结果的同时进行G×E分析。

    2.4 数据标准化

    • 数据标准化针对绝对值较大,且有明显梯度间隔的表型,绝对值较小的比较连续的表型可以不进行标准化,直接用于关联分析。
    • 所有标准化都不会也不能影响该组数据本身的大小趋势,因此也不会改变关联结果。
    • min-max标准化,也叫离差标准化,也就是常说的归一化,绝对值较大且有明显梯度的数据通常采用该方法,公式为:
    • y=(x-min(x))/(max(x)-min(x)),y为标准化后的值,x为原始值;
    • min-max标准化后所有的值都在0-1之间。
    • Z-score标准化:z=(x-μ)/σ,其中x为某一具体分数,μ为平均数,σ为标准差。

    2.5 分类变量的哑变量赋值

    • 对于无序分类数据,如花色或果皮颜色等,可以对变量进行哑变量赋值,以红、黄、蓝为例,可依次按如下的方式赋值:


    • 几种方式赋值后分别进行关联分析,获得的结果综合为最终的结果,赋值时需要注意1和0比例不要太悬殊。

    引用转载请注明出处,如有错误敬请指出。

    相关文章

      网友评论

        本文标题:3.1 GWAS:表型鉴定与记录的基本原则和原始数据处理

        本文链接:https://www.haomeiwen.com/subject/udfqtrtx.html