孟德尔随机化(Mendelian Randomization, MR)是流行病学研究中评估病因推断的数据分析技巧,它是利用与暴露因素具有强相关的遗传变异作为工具变量,来评估暴露因素与结局之间的因果关系。
孟德尔随机化三大假设:
①关联性假设: SNP与暴露因素之间是强相关的。
②独立性假设: SNP与混杂因素之间是独立的。
③排他性假设: SNP只能通过暴露因素对结局产生作用。
孟德尔随机化分析流程:
Step 1
获取暴露和结局的GWAS数据(https://gwas.mrcieu.ac.uk/)
Step 2
在暴露数据中挑选工具变量(通过关联性分析,挑选与暴露因素强相关的SNP作为工具变量,过滤条件是pvalue<5e-08)
(注:一般我们至少SNP,beta[SNP对暴露或结局的效应值],se值[beta值的标准误差],p_value,effect allele[效应位点],other allele[其他位点],eaf[效应位点频率])
Step 3
去除连锁不平衡:连锁不平衡 (linkage disequilibrium)是指基因组位置相近的遗传变异更倾向于共同遗传。会导致分属两个或两个以上基因座位的等位基因同时出现在一条染色体上的几率,高于随机出现的频率。
kb:连锁不平衡的区域范围。在遗传学上认为在染色体上距离很近的遗传位点通常是“捆绑”在一起遗传给后代的,这也就导致距离很近的位点之间的r2会很大。
r2:介于0~1之间,r2=1表示两个SNP是完全的连锁不平衡的关系,r2=0则表示两个SNP是完全连锁平衡的关系,也就是说这两个SNP是完全随机分配的。
Step 4
去除弱工具变量(工具变量与暴露因素不具有强相关性,或者工具变量只能解释小部分表型变异。筛选标准F检验值>10)
Step 5
去除混杂因素(http://www.phenoscanner.medschl.cam.ac.uk/)
(注:独立性假设的要求,我们需要将与混杂因素相关的一些工具变量删除。通过改该网站可以搜索工具变量与表型之间的关系)
Step 6
孟德尔随机化分析
(注:or大于1时,代表暴露因素是结局的不利因素;or小于1时,代表暴露因素是结局的有利因素。一般情况我们根据Inverse variance weighted方法去判断是否为阳性结果)
Step 7
异质性分析
来自不同的分析平台、实验、人群等的工具变量可能存在异质性,从而影响孟德尔随机化分析的结果。通过IVW和MR-Egger检验评估异质性,pvalue<0.05说明研究中存在异质性。
Step 8
多效性分析
如果工具变量通过暴露因素以外的其他因素影响结局发生时,说明工具变量具有多效性。多效性会导致独立性和排他性假设不成立。通过MR-Egger截距测试,可以检测数据的多效性,并且评估结果的稳健性。如果pvalue<0.05,说明数据存在多效性。(如果存在多效性就需要重新选择工具变量或者重新选择暴露和结局)
Step 9
结果可视化
(注:x轴代表SNP对暴露的影响,y轴代表SNP对结局的影响。斜率大于0,代表暴露因素是结局的不利因素)
Step 10
留一法敏感性分析
(注:判断每个SNP对孟德尔随机化分析结果的影响,如果有离群值需要去掉后重新分析)
小结:以上是对孟德尔随机化基本流程的一个简单介绍,后面我们会继续为大家分享每个步骤的具体操作和一些注意事项,欢迎大家继续关注哦。
网友评论