美文网首页
major/minor/reference/alternativ

major/minor/reference/alternativ

作者: Z_bioinfo | 来源:发表于2022-07-11 09:41 被阅读0次

    本文内容

    第一组 频率上的 major 与 minor allele 
    第二组 参考基因组的 reference (ref) 与 alternative (alt) allele
    第三组 关联检验的 reference (non-risk 或者 non-effect)与 risk/effect allele
    

    首先第一组概念 major 与 minor allele

    major allele 与 minor allele 通常针对某一大小确定的特定群体而言,频率最高的allele为该群体的major allele, 频率次高的为 minor allele,对于最常见的bi-allelic SNP来说,两个allele频率一高一低,就是这个群体中这个snp的major和minor allele,对于tri- 或者quad-allelic SNP (位点有三种或四种碱基的SNP)而言,minor allele则是频率第二高的那个allele。

    注意点:区分major与minor的依据是 某一大小确定特定群体的 allele 频率

    plink1.9目前采用的是major与minor allele的概念,软件会自动计算频率,对原始数据进行操作时会自动改变allele的排序,如果你使用plink1.9 的—frq选项计算频率,你会发现输出的文件中是MAF ,minor allele frequency,不会高于0.5。

    PLINK1.9中,A1为minor,A2为major allele,所以这里MAF是指A1(minor allele)的频率。

    CHR    SNP    A1   A2          MAF  NCHROBS
    1      SNP1    T    C       0.1258    10000
    1      SNP2    A    G       0.1258    10000
    

    第二组 reference (ref) 与 alternative (alt) allele

    reference allele 在这里是指某一参考基因组上该位点的allele,该位点上其他的allele则称为alternative allele。注意,这里reference 与 alternative allele与频率无关,唯一的决定因素是所选的参考基因组。参考基因组上的allele多为major allele,但这只是巧合,不能以此为依据将major和 reference allele划上等号,也有部分reference allele在该群体中为minor allele。

    与plink1.9不同,plink2使用的概念则是reference 与 alternative allele,进行操作时不会自动依据频率而改变ref与alt的排序,使用plink2 的—frq选项计算频率,你会发现输出的文件中是alternative allele frequency (不是MAF),取值范围为[0,1]。

    PLINK2中则明确区分了reference 与 alternative allele的概念,例如上述的两个SNP,根据参考基因组对齐后,SNP1在参考基因组中的ref为T,那么alt就为C,这里计算的alt的频率为0.8742,按概念来说在该群体中,SNP1的T为ref allele,但却又是minor allele , 而C为alt,却又是major。 对于SNP2来说ref 则为 major,alt 为minor。

    #CHROM  ID  REF ALT ALT_FREQS   OBS_CT
    1   SNP1        T   C   0.8742  10000
    1   SNP2        G   A   0.1258  10000
    

    小窍门:使用plink2可以将自己手头数据的ref与alt allele与对应参考基因组对齐,示例代码如下:

    plink2 \
           --bfile testfile \
           --ref-from-fa -fa hg19.fasta \ 从参考基因组的fasta文件来决定plink文件中的ref
           --make-bed \
           --out testfile_new
    

    第三组 reference 与 risk/effect allele

    在这里的概念再次改变,同样的reference allele,在与 risk/effect allele并列时,则指的是GWAS关联检测中的reference allele (non-risk 或者 non-effect),也就是效应量beta(或odds ratio)估计时的参考,概念上与上述参考基因组的ref与alt的组合无关,但为了保持统一性,近年来研究中关联检验的reference 也会与 reference genome保持一致,以避免混淆等。(注意:早期多以minor allele为关联检验的ref allele,这也是容易产生混淆的点)

    risk allele 则很好理解,就是对疾病发生有贡献的那个allele,在复杂疾病的研究中,一般情况下risk allele经常为minor allele,但也会有例外。effect allele的概念也类似,就是我们想要研究其对疾病或表型效应的allele,所以通常是对表型或疾病有贡献的allele,关联检验结果中effect一栏指的就是effect allele的效应。

    目前遗传统计学软件中除了以上的allele区分外,还经常使用A1,A2等表述方式, 但只要理解了以上概念后,我们在分辨allele时就能得心应手了。

    相关文章

      网友评论

          本文标题:major/minor/reference/alternativ

          本文链接:https://www.haomeiwen.com/subject/setnbrtx.html