美文网首页科研信息学
PRS(polygenic risk score)

PRS(polygenic risk score)

作者: 又是一只小菜鸟 | 来源:发表于2018-11-28 17:32 被阅读41次

老规矩,还是资料整理者,边学习边做笔记,可能会改动原文章,按自己的理解将多篇优秀的推文自由整合,后面会附上所有引用推文的出处,感谢各位作者!


先说说PRS是用来干什么的?

The PRS is used to assess the cumulative genetic risk for a certain disorder (Purcell SM, et al. Common polygenic variation contributes to risk of schizophrenia and bipolar disorder. Nature 2009; 460: 748–52).

计算PRS的工具:PRSice software (http://prsice.info) (Euesden J. PRSice: polygenic risk score software.Bioinformatics 2015; 31: 1466–8.)

PRS常被计算为个体携带的风险等位基因数量的加权总和,其中风险等位基因及其权重由基因座定义及其测量的效应取决于全基因组关联研究检测。


n: 纳入的SNP的数量;

Xi:SNP I的基因型(0,1,2)

Wi:GWAS发现的SNP的权重,其中:

连续型变量的表型用Effect size表示,beta值

分类变量的表型用OR值表示

一般分析流程:

先得下载PRSice软件,官方网站https://choishingwan.github.io/PRSice/,现在是版本2.1.4,根据运行环境选择要下载的版本,我选的是linux64-bit 2.1.4,下载之后长这样,先拿他的示例试着跑一下。

input文件包括4个:(根据自己的数据对应整理好)

PRSice.R file:上面的PRSice.R,画bar plot,high-resolution plot and quantile plot

PRSice executable file:上面的PRSice_linux,核心运算

Base data set:上面的TOY_BASE_GWAS.assoc

Target data set:上面的TOY_TARGET_DATA(3个)

需要注意的问题:

1.若target中fam文件最后一列表型缺失(-9或NA),则需要另外加表型文件,加命令: --pheno-file

2.bp、chr、snp:软件会自动审核base和target文件中这些信息是否匹配,不匹配则去除,一定要注意文件名,大小写也需要注意,column名称必须完全一致,顺序不对应没关系,会自动匹配。

3.亲测了下,不一定要 .assoc.linear文件,我用的txt文件,里面包含了所有它规定的内容,也可以跑通。

直接在linux下输入以下命令:

Rscript PRSice.R --dir . --prsice ./PRSice_linux --base TOY_BASE_GWAS.assoc --target TOY_TARGET_DATA --thread 1 --stat OR --binary-target T

这里涉及一个是连续变量还是二进制变量的问题,改换不同的BEAT(连续)或OR(二进制),后面的F(连续)或T(二进制)

结果报错了,原因不明,后来输入命令

chmod 775 PRSice_linux

再返回输入刚才那条命令,就好了。结果文件就生成了。也是神奇了,上面那条命令啥意思啊没弄明白,如果有高人看到了帮忙指点下。

附:如果是下载V1版本的,需要在Linux下启动R,把需要的R包都安装好,再退出R,再linux下输入命令即可。需要的文件一定要准备好。

自己的数据上一遍:

input:PRSice.R     PRSice_linux     TAU_age_gwas.assoc.linear     ADNI1_Genotypes_Filt_CEU_final.bed   ADNI1_Genotypes_Filt_CEU_final.bim   ADNI1_Genotypes_Filt_CEU_final.fam

命令:

chmod 775 PRSice_linux

Rscript PRSice.R --dir . --prsice ./PRSice_linux --base TAU_age_gwas.assoc.linear --target ADNI1_Genotypes_Filt_CEU_final --thread 1 --stat BETA --binary-target F

输出的文件

展示一下各结果文件

PRSice will automatically calculate the PRS for different p-value thresholds and perform a regression to test the level of association of the PRS with the target phenotype. This allow the identification of PRS that "best" predicts the phenotype and can be used for downstream analysis.

It is vital that the human genome build is the same for the GTF file, bed files, target file and the base file. Otherwise the coordinates of the SNPs can be wrong and PRSice will not be able to correctly assign the gene membership, leading to invalid results.

Nagelkerke’s pseudo R2 was calculated to measure the proportion of variance explained by the PRS.


参考推文:

1.https://www.jianshu.com/p/656573127d11

2.英文github官网https://choishingwan.github.io/PRSice/step_by_step/#input-data

3.https://mp.weixin.qq.com/s/DE3IyAALlDdtXshfmwbHIA

相关文章

网友评论

    本文标题:PRS(polygenic risk score)

    本文链接:https://www.haomeiwen.com/subject/kuudqqtx.html