- 风险评分(risk score)是流行病学研究中评价风险预测能力的重要方法之一,纳入遗传易感因素进行风险评分,从而评价遗传易感因素在风险预测模型中的效果的方法称为遗传风险评分(genetic risk score,GRS)。
- 遗传风险评分方法主要有 5 种:
- 简单相加遗传风险评分(a simple count genetic risk score,SC-GRS);
- 以 OR 值作为权重的遗传风险评分(an odds ratio weighted genetic risk score,OR-GRS);
- 直接基于logistic回归的遗传风险评分(a direct logistic regressiongenetic risk score,DL-GRS);
- 多基因遗传风险评分(a polygenic genetic risk score,PG-GRS);
- 可释方差遗传风险评分(explained variance weightedgenetic risk score,EV-GRS)。
方法涉及的公式中,以 D 表示疾病状态(D=1 表示样本为病例;D=0表示样本为健康对照),以G表示一组遗传易感位点风险等位基因数的集合向量(Gi表示第i个遗传易感位点的风险等位基因的数量)。
1. SC-GRS
-
是最简单的 GRS 方法,其计算方法不涉及任何单核苷酸多态性(SNP)效应的先验
信息,即为所有 SNP 的风险等位基因数量的和(公式1),相关的疾病模型见公式(2)。
image.png - 该方法通俗易懂,计算简单,因此在早期研究中应用较多,尤其是在SNP效应不能稳定估计的时候更为适用。
- 但是,此方法假设所有SNP对疾病具有相同效应,该假设在现实研究中几乎不可能存在,因此,在建立疾病风险预测模型研究中很少使用。
2. OR-GRS:
-
相比于 SC-GRS,该方法考虑 SNP对疾病的不同效应,以SNP效应作为权重,计算所有纳入模型SNP的OR值权重和(公式3、4),其相关的疾病模型如公式(5)所示。
image.png - 为预先确定固定权重,实际应用中,往往使用大样本量、可靠性好的研究(如Meta分析)中对数转化后的单风险等位基因OR值作为权重。
- 该方法中具有较大OR值的SNP对疾病风险贡献更大。其假设更为合理,因此被广泛应用于疾病风险模型预测的研究中[8],但因其估计依赖外部信息,不适用于一些不能准确估计SNP效应的研究。随着GWAS兴起,大量发现的疾病易感位点均运用该方法纳入遗传风险预测的研究中。
3. DL-GRS
-
该方法类似 OR-GRS,但是基于的权重来自于已有原始数据,利用这些数据拟合
logistic回归模型,以模型中估计的SNP效应作为权重,计算所有纳入模型 SNP 的 OR 值权重和公式(6),其相关的疾病模型如公式(7)所示。
image.png - 该方法仅依赖现有数据,不需要外部研究的OR 值作为权重,但是随之而来的问题即是该评分用于外部数据的可靠性有待商榷。该方法常常应用于无法通过外部信息准确估计 SNP 效应的研究。但是当该评分应用于另一个独立的数据时,其拟合的效果往往不如其在建立该评分的数据中拟合的效果。因此,研究者往往会设置两个或多个阶段的研究,以发现样本估计 SNP 效应,以独立验证样本进行验证[9-10]。
4. PG-GRS
-
类似于 DL-GRS,该方法依赖于现有数据。与以上 GRS 估计方法不同,该方法以哑变量的形式考虑每个SNP,即应用遗传模型中的共显性模型(公式 8),其相关的疾病模型如公式(9)所示。
image.png - 式中xi1代表SNPi的杂合型,xi2代表SNPi的风险等位基因纯合型,α代表风险等位基因。该假设下,以哑变量的形式将 AA 编码为 00,Aa 编码为 10,aa 编码为01,将AA作为参考基因型,分别为Aa、aa基因型的风险系数。SNP遗传模型不能确定时,该评分方法较为适用[11]。尽管如此,在涉及大量SNP时,需要估计的参数数量、模型的复杂性也大大增加。此外,该方法基于现有数据,因此同样要面临外部验证的问题。
5. EV-GRS
-
是基于既往的风险评分方法,同时纳入考虑了SNP效应和最小等位基因频率(MAF)。除已经报道的SNP效应外,该方法在权重中增加了最小等位基因部分(公式10、11),其相关疾病模型如公式(11)所示。
image.png - MAF可以来源于既往对应人群的公共数据库,如 dbSNP、1 000 Genomes 计 划 或 者 HAPMAP 计划等。该方法认为,对于每个 SNP,SNP 效应和MAF均为衡量其对疾病贡献的重要因素,当OR值固定时,疾病风险将随着MAF增加而增加。该方法在模拟数据中表现出了比较好的效果,但是尚无实际数据的应用评价结果,该遗传风险评分的效果有待进一步论证。
- 随着发现位点的增多,往往在一个研究中会纳入大量的位点进行评分,因此会增加模型的复杂性,从而产生过度拟合的情况,因此,一些研究在进行位点效应估计时,会采用惩罚回归模型[12](例如Lasso或者弹性网络等)或者机器学习的方法(例如支持向量机等)。
参考文献
- 中华流行病学杂志,遗传风险评分的原理与方法
网友评论