MR的研究策略随着统计学方法的深入而被不断地推陈出新,从最早的一阶段MR到单一样本MR、两样本MR、两阶段MR、双向MR以及基因-环境交互作用MR和网络MR,设计方法不断深入,有的方法仅提供因果关联的推断或因果效应的大小估计。各种方法的原理如下:
① 一阶段MR(One stage MR):最早的MR研究设计是由G-X和G-Y的关联来推断X-Y的关联(图 3),也是最为简单的关联推断,因为没有X-Y因果效应大小的估计,只是通过推断来估计X与Y的可能关联,比如,脂蛋白[Lp(a)]相关的KIV-2基因拷贝数变异与血浆Lp(a)水平有关,同时又与心肌梗死(myocardial infarction,MI)发生有关,因此推断Lp(a)水平与MI的发生有关[13],尽管此结论是建立在推断基础上的,但比直接测量研究人群Lp(a)水平和MI发生之间的关联时无法忽略的混杂因素相比,有着更可靠的把握度。但随后,该方法又因无效应大小估计而逐步被取代。
② 独立样本MR(One-sample MR):该方法利用单一研究样本,通过使用2阶段最小二乘法回归模型(2-stage least-squares regression,2SLS),定量估计暴露因素X与Y之间的关联效应大小。
如图 4,第一步:建立G-X回归模型,获得暴露因素预测值(predicted value,P),可以使用单个SNP、多个SNPs、等位基因个数或者遗传风险评分(genetic risk scores,GRSs)纳入方程(随着GRS评分增加,暴露因素风险增加多少)。第二步:构建P-Y的回归模型,即获得暴露因素预测值P和结局变量Y之间的回归方程。例如:欲获得X-Y直接的关联,可能受到混杂因素C和U的影响,通过2SLS来实现。见图 4。
image.png
image.png
- 目前很多MR的研究使用多个SNPs位点作为工具变量的设计,此时可以使用加权线性回归模型(weighted linear regression),或者使用Wald比值法先进行单个SNP的关联,然后再选择固定效应模型(fixed effect model)或者随机效应模型(random effect model)对多个位点效应进行Meta汇总。但是,两种方法的前提条件必须满足各SNPs之间是完全独立的,或者通过连锁不平衡运算排除SNPs之间的关联[18]。
③ 两样本MR(Two-sample MR):两样本MR的设计策略是建立在G-X和G-Y的关联研究人群来自相同人群的两个独立样本(如GWAS与暴露,GWAS与结局的关联数据[19]),要求两样本具有相似的年龄、性别和种族分布特征,因为样本量较大,该方法可以获得更大的把握度。目前,两样本MR因为全球大量GWAS合作组的公共数据而被广泛使用[19],比如国际血压研究合作组(the International Consortium for Blood Pressure),冠心病全基因组重复验证和Meta分析合作组(Coronary Artery Disease Genome wide Replication and Meta-analysis,CARDIoGRAM,http://www.cardiogramplusc4d.org/),全球血脂遗传合作组(Global Lipids Genetics Consortium),全球吸烟与遗传合作组(Tobacco and Genetics Consortium)等,可以通过合作组的网站直接下载G-X与G-Y关联结果数据。此设计是基于现有数据,具有把握度大、经济、高效的特点[18]。
④ 双向MR(Bidirectional MR):又称为互为MR(Reciprocal MR),如图 6,如果待研究因素X1与研究因素X2有关联,遗传变异G1与X1和X2将都有关联,但是遗传变异G2与X2有关却与X1不存在关联(虚线)[20]。这种方法有助于进一步理清危险因素与疾病结局之间的关联。如Timpson等[21]在双向MR设计中使用肥胖基因FTO(rs9939609)(G1)和CRP基因(rs3091244)(G2)作为工具变量,分别指代BMI(X1)和循环CRP水平(X2),观察性研究结果提示BMI与循环CRP之间有关联(P<0.000 1),但无法推断因果方向。通过FTO(rs9939609)指代BMI与CRP之间有显著性关联(P=0.006),而CRP(rs3091244)指代CRP与BMI之间无显著性关联(P=0.2),可以推断BMI升高可引起肥胖症进而引起CRP水平改变,但CRP水平不会引起肥胖症[21]。此方法在解决因果网络方向的问题上将会有很大用途[22],但是在分析未知生物学效应的两个变量时,要防止被双向MR的结果误导[20]。
⑤ 两阶段MR(Two-step MR):与两样本MR不同的是,两阶段MR需要使用遗传工具变量来评价因果关联的可能中间变量M(Mediation),来探讨环境暴露因素(E)是否通过表观遗传指标(M)而导致疾病(O)改变,见图 7。第一阶段,遗传工具变量G1独立于混杂因素,指代暴露因素E与结局O之间的关联,并且必须经过中间变量M才能实现;第二阶段,另一独立遗传工具变量G2作为中间变量M的指代工具,分析中间变量M与结局O之间的关联。比如BMI通过血压来间接影响冠心病的发生[23]。目前此方法已被应用于表观遗传流行病学(Epigenetic Epidemiology)研究[24],Binder和Michels[25]使用母亲MTHFR C677T,A1298C两位点作为工具变量,发现7个CpG位置参与了红细胞叶酸与甲基化改变之间的关联。Dekkers等[26]使用全基因组甲基化数据发现,免疫细胞差异甲基化结果是由个体内部血脂水平(TG,LDL-C,HDL-C)变化所导致,反之则不亦然。此方法必须满足E-M和E-O之间的关联呈线性以及同质性的假设前提,并且已被延伸成为分析复杂因果网络关系的基础,如网络MR设计(Network MR)[27]。
⑥ 基因-暴露交互作用MR(Gene-exposure interactions):MR研究设计还可以用于探讨基因-暴露因素在疾病发生中的交互作用现象,同时要求基因与结局的关联必须取决于暴露因素的状态。这种方法可以区分基因直接作用于结局,还是基因通过暴露因素而作用于结局。如Holmes等[28]发现携带酒精代谢酶基因ADH1B rs1229984突变等位基因A的个体不饮酒或者少量饮酒的比例更高,进而发生冠心病和中风的风险亦显著降低。假设同时满足ADH1B rs1229984 A在饮酒者中与冠心病和中风的发生无关,这说明ADH1B rs1229984与冠心病和中风的关联不通过饮酒而发生(直接效应),可能会有另外的通路存在。因此需要有无暴露组或亚人群的基因-疾病无关联的证据支持。Brunner等[15]同样使用酒精代谢酶基因(ADH,ALDH)的68个SNPs作为工具变量,发现饮酒不能增加前列腺癌的风险,但是可影响疾病预后。Taylor等[29]使用大样本欧洲人群MR研究证实饮用咖啡不能降低前列腺癌的风险。
参考文献
- 王莉娜, Zhang Zuofeng. 孟德尔随机化法在因果推断中的应用[J]. 中华流行病学杂志, 2017, 38(4): 547-552
网友评论