美文网首页科研信息学群体遗传GWAS学习
GWAS后续分析:多基因风险评分(Polygenic Risk

GWAS后续分析:多基因风险评分(Polygenic Risk

作者: 橙子牛奶糖 | 来源:发表于2019-04-11 11:39 被阅读305次

    一、什么是多基因风险评分

    传统的GWAS研究只计算单个SNP位点与表型之间的关联性,再用Bonferroni校正,通过给定的阈值,筛选出显著的SNP位点。

    这样会存在两个问题,第一、Bonferroni校正非常严格,很多对表型也有贡献的位点会因为达不到阈值而被过滤掉。第二、单个位点对表型的解释度是很低的,尤其是对于高血压这种多基因控制的表型,用一个个单独的位点解释高血压患病风险,就显得很单薄。

    因此,开发一个能让我们直观的感受,患某种疾病的风险多高的工具,显然是非常有必要的。

    ​为了更好理解多基因风险得分(PRS)的概念,我画了一个图,假如翠花的多基因风险评分处于第二个柱形图那里,那么我们就会认为翠花得某种疾病的风险比普通人要低。

    二、多基因风险得分的公式

    多基因风险得分的公式如下:

    PT表示P值的阈值;

    i表示符合该阈值下的SNP的数量,i = 1, 2, ..., m;

    βi表示SNP的效应值,在GWAS当中,如果是线性表型,该值为β,如果是二元表型,该值为OR;

    Gi,j 表示SNP的基因型,分别用{0,1,2}显示;

    三、怎么计算多基因风险评分

    计算PRS的主流软件有PRSice,截止目前为止,引用率有366次。

    下面详细讲讲如何应用PRSice计算多基因风险得分。

    1、PRSice安装

    进入下载链接。选择所需的系统,以下安装以Linux系统为例。

    wget https://github.com/choishingwan/PRSice/releases/download/2.1.11/PRSice_linux.zip

    2、解压PRSice

    unzip PRSice_linux.zip

    解压完以后,出现以下几个测试文件:

    3、测试是否安装成功

    输入命令

    ./PRSice_linux

    如果安装成功,则会出现如下的界面:

    4、使用PRSice计算多基因风险得分(PRS)

    对于二元表型,使用以下代码

    Rscript PRSice.R --dir . --prsice ./PRSice_linux --base TOY_BASE_GWAS.assoc --target TOY_TARGET_DATA --thread 1 --stat OR --binary-target T

    对于连续型变量的表型,使用以下代码

    Rscript PRSice.R --dir . --prsice ./PRSice_linux --base TOY_BASE_GWAS.assoc --target TOY_TARGET_DATA --thread 1 --stat BETA --beta --binary-target FF

    四、生成文件结果解读

    跑完上面的命令后会生成以下文件:

    PRSice.best,PRSice_BARPLOT.png,PRSice_HIGH-RES_PLOT.png,PRSice.log ,PRSice.prsice,PRSice.summary

    下面一个个的讲解这些文件包含哪些重要的信息。

    PRSice.prsice文件

    PRSice.prsice的文件格式如下:

    PRSice.prsice文件包含:在给定不同阈值的P值以后,符合要求的SNP数量(Num_SNP),SNP的解释度(R2),回归系数

    PRSice.best文件

    PRSice.best文件格式如下:

    文件包含FID,IID,是否回归,PRS值。这个文件计算的是每个个体最优的PRS值。

    PRSice.summary文件

    PRSice.summary文件内容如下:

    包含表型,P的阈值,PRS的解释方差,所有变量的解释方差,协变量的解释方差,回归系数,P值,该阈值下的SNP数量。 这个文件给出的是该表型下最优的模型。

    PRSice_BARPLOT.png图片

    PRSice柱状图显示的是不同P值阈值(横轴)下的多基因风险得分(纵轴),柱状图最高的点表示模型最优,如该图显示的是P值阈值为0.4463时,模型最优,该表型的多基因风险得分为0.052,P值为4.7*10-18

    PRSice_HIGH-RES_PLOT.png图片

    这张图显示的是,在该模型下,最佳的P值阈值为绿色最高点处,此时P值的阈值为0.4463

    参考文献:

    https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3605113/

    https://www.ncbi.nlm.nih.gov/pmc/articles/PMC1987352/

    https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3912837/

    相关文章

      网友评论

        本文标题:GWAS后续分析:多基因风险评分(Polygenic Risk

        本文链接:https://www.haomeiwen.com/subject/fyxtwqtx.html