稀有变异浅析

作者: Thinkando | 来源:发表于2019-01-31 19:49 被阅读51次
  1. 功能性研究证实多个稀有变异影响临床表型,和许多慢性疾病有关
  2. 稀有变异作用于表型的四种假设
    A. 仅单个变异与表型关联(图 1Ⓐ)
    B. 多个稀有变异独立作用于表型(图 1Ⓑ)
    C. 多个稀有变异协同或与常见变异协同影响表型(图 1Ⓒ)
    D. ROI 内部分稀有变异影响表型(图1Ⓓ)


    image.png
  • 在图1Ⓐ、Ⓑ和Ⓓ假设下,病例中携带稀有病因变异的频率会显著高于对照,即极端等位基因异质性(extremeallelic heterogeneity)模式,也表现为病例组中单倍型或DNA序列的多样性更高;而在图1Ⓒ假设下,病例组中DNA序列的相似性更强。

众多学者针对稀有变异作用模式假设发展了多种稀有变异关联研究统计方法,提出各种分析
策略

  1. 基于ROI内稀有变异集合的统计方法:
    (1)ROI 的确定及其稀有变异集合:由于单个稀有变异频率太低,故学者提出在数据分析时将ROI内的多个稀有变异集合(collapsing set of rare variants)成一个新变量代替单位点的检验以增加效能,统称为负担检验(burden test)。例如最简单的方法就是ROI内若存在稀有变异的突变等位基因,则赋值为1,否则为0;Liu提出也可根据ROI内突变的稀有变异总数作为新变量的取值,称为指示赋值(indicator coding)。另一种策略是根据ROI内含突变稀有变异的位点数占总位点数的比例来赋值,称为比例赋值(proportion coding)。为使集合策略更符合生物学解释,在定义 ROI 时可利用生物信息数据库中的功能注释信息。ROI可以是单个基因、基因群、不同基因的集合(如同一通路中的多个基因)或任意染色体区域上碱基对的位置等。
    (2)比较病例组和对照组变异频率的方法:Morgenthaler和Thilly首次利用集合方法,采用χ2
    或Fisher确切概率法比较病例组和对照组中携带稀有变异的数量,称之为队列等位基因加和检验(cohort allelic sums test,CAST)。该方法不能分析定量表型,也不能同时分析协变量及考虑变异的权重问题,如不同频率或者不同名义功能的变异对表型效应可能不同。随后,Li和 Leal[14]扩展了CAST法,提出多元与集合合并法(combined multivariate and collapsing,CMC)。首先稀有变异按照CAST法进行集合,采用距离HotellingT2统计量,可以同时处理多个ROI的集合变量和协变量。即使变异集合中存在非功能性变异,CMC方法也能够合理控制Ⅰ类错误,且比标准的CAST方法效能要高。考虑到不同频率变异的遗传效应可能不同,Madsen 和Browning[18]考虑到变异的MAF值越低,其和表型的关联可能越强,因此提出根据变异的 MAF 进行加权的加和方法(weighted sum test),ROI 内可以包含任意 MAF 的变异。首先,根据MAF计算每个变异的权重,如定义为样本中每个变异总数的标准差倒数,再根据遗传模式计算每个个体ROI内加权后的等位基因突变数作为遗传得分;类似于wilcoxon秩和检验,计算病例组个体遗传得分的秩和,并采用置换检验(permutation test)比较病例对照组间遗传得分的差异[19]。Madsen和Browning[18]模拟研究发现该法比CAST和CMC法效能更高,但是需要进一步比较这些方法的优势。
    (3)集合后稀有变异在回归模型框架下的方法:由于回归模型可同时调整协变量对表型的影响,因此集合后的RV可在回归模型框架下分析。此外,回归模型可灵活处理各类表型数据,如 Morris 和 Zeggini[20]提出 RVT1(rare variant test1)和RVT2两种采用线性回归方程分析集合后变异与数量表型关联的方法。前者的集合策略定义为ROI内稀有变异频数总和,为连续型变量;后者定义为ROI内是否含有稀有变异,为二分类变量。Han和Pan[21]同样提出利用logistic回归模型分析稀有变异和质量性状的关联,因对ROI内不同位点上稀有变异求和以产生新自变量,也称为加和(sum)检验。该法与 RVT1 方法的集合策略相同,但前者采用得分检验(score test),而 RVT1 则使用似然比检验(likelihood ratiotest)。因为ROI内不同变异的作用方向可能不同(致病、无关联或保护),简单加和的方法不考虑变异的作用方向,导致效能相应减少。因此,Han和Pan同时提出两个加和检验法的扩展:①通过去掉加和得分统计量中协方差矩阵,基于边际得分统计量的平方和构造新统计量,使得新统计量不受变异作用方向的影响,称为 SSU(sum of the squares of the marginal score statistics)法,而在SSU统计量中加入变异权重矩阵(权重为变异MAF方差倒数),称为SSUw(weighted form of sumof the squares of the marginal score statistics)法[21]。②先对每个RV进行单变量logistic回归,求回归系数和P值,对P值小于事先定义的检验水准且作用方向相反的 RV 反向编码赋值,称为自适应加和检验(data adaptive sum test,aSum)[21]。以上改良方法不受变异方向的影响,检验效能得以提升。此外,其他数据自适应方法还有 Step-up 检验[22]、EREC[23](the estimated regression coefficient)法和基于核函数的自适应加权法(the kernel-based adaptive cluster,KBAC)[24]等。其中,Step-up检验在模型选择框架下先筛掉可能无关联的变异再定义权重;EREC[23]法在大样本时直接估计每个变异的回归系数作为权重。由于自适应检验方法不受变异方向的影响,需要更少的位点遗传模式假设,因而有更稳健的表现及更高的检验效能,但通常此类方法需用置换检验求P值,因此计算量巨大。

  2. 基于个体间DNA序列相似性的统计方法:负担检验重在比较不同表型如病例组和对照组间RV频率上的差别,但如果与表型相关的稀有变异作用模式为图1Ⓒ,病例和对照间的差异并非RV频率上的差别,而主要体现在DNA序列不同。此时负担检验忽视了变异间可能的连锁不平衡,导致病例间有更高的DNA序列相似性。因此又发展出一类以检验变异频率分布的方差为基础的检验方法,如Neale等[25]建议采用C-α法[26]用于稀有变异。通常ROI内含关联变异的同时也存在大量与表型无关联的变异。模拟实验发现,与仅含关联变异时相比,ROI内混有大量无关联变异时携带某关联变异者为病例的频率(携带某遗传变异的病例数/携带该遗传变异的病例和对照总数)相同,但方差更大。因此假设在研究对象中(包括病例和对照)共观测到n个对象携带某遗传变异,x个为病例,n-x个为对照,因此可假设携带该遗传变异者为病例的频数x服从二项分布B(n,p),如采用均衡设计时病例和对照样本数相等,且当H(0 该遗传变异与疾病无关联)成立时,则p=0.5。C-α法通过比较携带遗传变异者为病例的频率其实际方差与二项分布理论模型下的期望方差,检验ROI内混有大量无关联变异时是否存在关联变异。由此可见 C-α法与负担检验不同,负担检验比较 RV 频率的均数,当混合大量无关联变异时,得分检验统计量效能下降;而C-α法能够识别相同频率均数下方差的变化,因此当ROI内有大量无关联变异时C-α法有更高效能,此外C-α法不受遗传变异作用方向和效应值的影响,比负担检验也更为稳健。但C-α法不能调整协变量,且仅适用于定量性状。为调整协变量,2010年Wu把logistic核机器检验方法与核 框 架 结 合 ,提 出 序 列 核 关 联 性 检 验(sequence kernel association test,SKAT)[27-29]。该法可看作回归框架下 C-α法的推广。其基本原理:在回归模型中引入代表遗传变异效应的核函数项,该核函数测量了任意两个体间ROI内遗传变异序列的遗传相似性。核函数有多种形式,其中最简单的为线性核函数(linear kernel function),将反映RV对表型作用的回归系数看作个体别的随机效应,因此检验RV与疾病是否有关联即可转化为检验核函数内随机效应的方差是否为零,因此可采用混合效应模型框架下的方差分量得分检验。由于SKAT法可直接拟合调整协变量时的表型与ROI内遗传变异(包括常见变异和稀有变异)的关系,且允许变异的作用方向与大小不同,或包含无作用变异。因此,除非ROI内大部分遗传变异都和表型有关联且作用方向相同,否则多数情况下SKAT法效能都高于前述负担检验。此外,除定义线性核函数外,还可定义线性加权核函数(SKAT-wlinear)、状态同一核函数(SKAT-IBS)及其加权形式 SKAT-wIBS、二项式核函数(SKAT-quadratic)等,因此该法在探测遗传变异和表型的非线性关联,基因-基因交互作用方面有着广泛的应用前景。

  3. 负担检验结合基于序列相似性方法:上述两类方法在非变异作用模式时各有优势,当ROI内含有更多不同的非关联变异或关联变异作用方向时,基于序列相似性的方法(如SKAT)比负担检验(如 CMC)效能更高;反之若分析区域内有大量作用方向相同的关联变异时则负担法检验效能更高。由于实际工作中对变异效应通常缺少先验信息,在关联方法选择时也可将负担检验和基于序列相似性的检验方法相结合,如 Derkach等[30]提出采用 Fisher 法合并负担检验和SKAT检验的P值,再通过置换方法确定其统计学意义。而Lee等[31-32]提出利用数据自适应方法合并负担检验和SKAT法的统计量,模拟研究显示合并检验在无先验信息时有更稳健的效能,具有实际应用意义。

  4. 其他统计学方法:SKAT以及系列方法是基于病例间RV序列的遗传相似性,利用回归模型中引入核函数分析RV的效应,另一类处理遗传变异连锁不平衡的策略是基于惩罚模型(penalty model)的方法[33]。惩罚模型是处理变量数目远大于样本量且变量间存在复共线性数据的方法,其中包括岭回归(ridge regression)、LASSO(least absolute shrinkage andselection operator)及两者结合的弹性网(the elastic net)等。当变异间存在严重的连锁不平衡时,岭回归在最小二乘法基础上,对变异系数的平方进行惩罚而使模型稳定,对高度相关的变量产生大小类似的回归系数估计[34];而LASSO直接对系数的绝对值进行惩罚,将无或小效应的系数连续压缩为0,从而达到降维和变量筛选的目的。与岭回归不同,当多变量高度相关时,LASSO通常只保留其中1个。而弹性网将岭回归和LASSO结合,在残差平方和上增加两次惩罚,达到成组模型和稀疏模型间的折中。由于惩罚回归处理高维数据的优势,近年来此类方法在全基因组关联研究及含稀有变异的关联研究中受到广泛关注[33,35-38]。正如前述负担检验和惩罚模型均采用降维策略,因此其他传统降维技术也可用于稀有变异关联性分析,如基于模型的 多 因 子 降 维 法(model-based multifactor dimensionalityreduction)[39]、基于机器学习的多种数据挖掘方法[40]、描述连锁不平衡所致的相关 SNPs 和所属基因层次结构的 Baysian分层基因模型(Bayesian hierarchical gene model)[41],以及传统的多变量主成分分析(multivariate principal componentanalysis)等[42]。此外主成分分析还可推广为函数型主成分分析(functional principal component analysis,FPCA)[43],将遗传区域内的每个位点基因型数据定义为灵活的遗传变异函数,根据不同位点函数值的协方差计算主成分以代表整个区域内遗传信息。因为 FPCA 适用于稀疏数据或间隔不规则的遗传变异数据,因此更适于识别稀有变异关联及避免测序误差的影响。其他较少应用的方法还有适用于稀疏数据的两水平检验方法(也称higher criticism),对不同方向的变异采用单侧统计量并基于此构造的加权和统计量(replicationbased weighted-sum statistic),以及杂合子丢失分析方法(the loss-of-heterozygosity analysis suite)等[44]。但各类方法的效能及其应用还需进一步研究。

1. 参考文献

  1. 稀有变异的关联性研究统计方法,中华流行病学杂志2015年8月第36卷第8期

相关文章

  • 稀有变异浅析

    功能性研究证实多个稀有变异影响临床表型,和许多慢性疾病有关 稀有变异作用于表型的四种假设A. 仅单个变异与表型关联...

  • 每周文献 2022-03-20

    大家好,本周给大家分享的是最近发表在NG上与稀有变异对复杂性状遗传力的贡献相关的一篇文章。 文章题目:Assess...

  • 【论文】浅析包公传说的变异及其动因

    作者:李硕硕 作为历史上家喻户晓的清官形象,包公为民间文学的创作提供了宝贵的素材。随着社会的发展,包公及其事迹被民...

  • SRWebSocket源码浅析(上)

    SRWebSocket源码浅析(上) SRWebSocket源码浅析(上)

  • SRWebSocket源码浅析(下)

    SRWebSocket源码浅析(下) SRWebSocket源码浅析(下)

  • 稀有

    一天,乔治三世国王到乡下去,在一个小旅店吃午饭。他不是很饿,所以只吃了两个煮鸡蛋。待他吃完,店主拿来了账单。 “什...

  • 稀有

    公司最近新招了个小伙子,人和气有礼又勤快,穿着朴素至极却不一般,都是各种户外运动的纪念衫,有一件居然还是2019年...

  • 自琂自语

    变异癞蛤蟆 (琂琂迷上了变异怪物。)妈妈,你是变异癞蛤蟆妈妈,我是变异癞蛤蟆宝宝。 ...

  • iOS 界面性能优化浅析

    iOS 界面性能优化浅析 iOS 界面性能优化浅析

  • 源码浅析 RxSwift 5.0 - Subscription

    源码浅析 RxSwift 5.0 - Subscription源码浅析 RxSwift 5.0 - Subscri...

网友评论

    本文标题:稀有变异浅析

    本文链接:https://www.haomeiwen.com/subject/jttlsqtx.html