DLBCL根据基因数据做分型的问题。文章前期对574例DLBCL活检样本进行多平台基因组分析,确定了ABC和GCB病例中发生频率显著不同(P<0.05)的基因。通过一些GCB分型和基因(NOTCH1,NOTCH2,BCL6,SPEN)之间关系的结果,表明基因表达亚群可能有不同遗传亚型。通过Genclass和随机森林模型对基因数据做分型。
文中给出了分型方法根据MYD88(L265P),CD79B,BCL6,NOTCH2,NOTCH1,EZH2,BCL2基因状态判断分型。见图1。后边附加了算法,个人初步看了一下认为是分型模型算法的过程,碰到这个机会解剖学习一下。
图1第一部分,详细介绍了mutation,Subclonal Mutation,Truncation,Subclonal Truncation,Focal Amplifictions,Focal Homozygous Deletions,Focal Losses纳入分析的标准,也是纳入分析的数据的指标筛选介绍。筛选最后剩余五个特征,a) MYD88L265P突变,b) 非L265P的MYD88突变,c) BCL6融合,d) BCL2易位,e) CD274(PD-L1)或PDCD1LG2(PD-L2)融合。同时删除了少于四个样本中发现的特征,组合特征要求因突变而包含在特征中的样本数量至少与因拷贝数而包含的样本数相同,而且因拷贝数而包含的样本至少为4个。
图2第二部分 GenClass迭代遗传子类型算法,对遗传算法不是很懂,下边看得有点茫然,要多查查资料啊~从初始seed分类开始,并以这样一种方式进化它,使其与我们特征集最大化,同时依然保持初始分类所建议的生物学特征。
图3算法遵循的要点:
1.从初始seed开始,2确定与当前分类关联度最高的功能列表,3基于这些特征,计算当前分类和所有分类的关联统计信息与之不同的替代分类法最多只改变一个样本,并确定预测得分最高的分类,4a)如果步骤3中确定的最佳分类不是当前分类,则使用最佳分类替代当前分类,返回步骤2,4b)如果步骤3中确定的最佳分类是当前分类,则停止迭代并将其最为最终结果报告。
详细步骤:
step1初始样本分类
1.那些带有NOTCH1突变的样本最初被归类为N1,2.对同时存在MYD88(L265P)突变和CD79B突变的样本作为MCD,3.有NOTCH2突变或BCL6融合的样本最初被归类为BN2,4.有EZH2突变(克隆,亚克隆)或者BCL2易位的样本最初被归类为EZB,5.所有其他样本最初被归类为其它样本。(这边有些不懂,之前认为第一部分筛选出来的基因是用于分类的,但是这步突然冒出来NOTCH1,CD79B,NOTCH2,EZH2,前后无关联)
step2识别与当前分类相关的特征
给定样本S和特征值F,定义S,F之前关联的意义,通过贝叶斯连续校正的卡方统计量
图4公式中的N是总样本数,IS和IF是样本集S或者具有特征F的指标,在F样本集上求和。
分类和特征之间的关联等于最大值
图5根据这些统计数据,与当前分类关联的特征列表被定义为满足下来条件的所有特征:1.根据目前分类法,至少有一个特征F患病率10%;2.不存在其他F’与F对应的基因相关。如果有两个或者更多的特征与相同基因同是最高的得分,随机选择一个。3.如果F是一个拷贝数或者组合特征,则没有其他拷贝数或者组合特征F,使得V(F’)>V(F)与F’相关基因和与F相关基因距离在15MB之间,如果15MB之内得分都是最高,则随机选择其中一个特征,其余被排除。4.V(C,F)>10.85即P<0.001。
step3计算当前分类和替代分类的关联统计
每次最多改变一个class label,计算Ω(Ccurrent),通过公式:
图6计算最佳得分。对step2中表示的当前分类下的所有特征取和。如果多个分类是最佳的,则随机选择一个。
step4 停止程序或者继续下一个迭代
如果最佳值不是当前值,则样本重新分类。我们使用最佳值作为当前分类,重新step2。如果当前是最佳分类,则停止。理论上来说迭代可能陷入循环不收敛,为了防止扩展了停止条件,一般在以前的任何迭代中best曾经被用作current则停止。
图7随机森林模型的建立
之后又通过随机森林建立了模型,和GenClass相同,建立4个种子子集和一个其他集合。1.那些带有NOTCH1突变的样本最初被归类为N1,2.对同时存在MYD88(L265P)突变和CD79B突变的样本作为MCD,3.有NOTCH2突变或BCL6融合的样本最初被归类为BN2,4.有EZH2突变(克隆,亚克隆)或者BCL2易位的样本最初被归类为EZB,5.所有其他样本最初被归类为其它样本。
两种分类模型给出的结果重合度比较高
图8项目有时限,具体算法没有实际操作,所以理解可能不足,不过也算是有一点点认识了。翻译和理解有问题的地方,欢迎留言~
网友评论