以下内容摘录自:
王栋. 癌相关高通量组学数据的标准化[D]
1.基因表达谱数据标准化问题
1.2引言
采用基因芯片检测不同实验条件下基因的表达水平对现代生物学研究有着重要的影响。但是量化的表达值往往受到诸如试剂批次、操作者等因素的影响而产生技术变异。技术变异通常会降低检测生物信号的统计效能,而数据标准化可以校正单个样本的表达水平,通过去除大量的技术变异使样本间更具有统计可比性。因此,在分析各种高通量组学数据时,一个基本的任务是要预先进行数据标准化处理。目前,RMA,dChip和MAS5.0等是最常用的对Affymetrix芯片数据进行标准化处理的方法,都是把不同状态的表达值标准化为相同或相似的分布。例如,在RMA算法流程中采用的 Quantile 标准化方法强制所有样本的探针表达值具有相同的分布; MAS5.0算法流程中采用 linear scaling 使得所有芯片的表达值在相同的表达水平;DChip算法流程中采用 Rank-invariant Set 方法标准化探针值,强制所有芯片的探针表达值都和参考芯片具有相同的分布。大多数现有的标准化方法都基于如下假设:在疾病状态下只有少数基因是差异表达的,并且上调基因和下调基因的数目基本相同。但是,由于癌的发生过程中细胞获得一系列的遗传改变,共同促进癌细胞的生长,这个潜在的前提假设很可能是不可靠的。我们的结果也展示了癌相关基因表达改变方向非随机的稳定并具有特定的方向,因而在复杂疾病中基因表达发生了广泛而相关的分子改变,一直以来被研究者所广泛采用的标准化的前提假设是没有被充分的论证的。我们的初步分析结果显示这个前提假设并不适用于所有类型的数据,至少对于包含大量上调表达的基因的癌症表达谱数据是这样。
在本论文中,根据从NCBI GEO数据库中收集到的所有配对的癌症和正常样本数据集,我们充分评价了癌症和正常样本下基因表达的真实分布。除去受批次效应影响的数据后,通过比较在癌症与正常样本中基因表达的分布差异,我们评价了RMA, MAS5.0 和 dChip最常用的三种标准化方法和另一种最新提出的不依赖于上述假设的LVS标准化方法对真实的基因表达丰度分布的影响。最后,我们还探讨了发展新的统计方法提高统计效能去挖掘在原始数据中有效生物学信号的可行性。
1.2 标准化算法
基因表达谱标准化处理的主要目的是消除由于实验技术所导致的表达量的变化,使得来自不同芯片的数据具有可比性.这些非生物因素变异来源主要包括:反转录效率的差异,染色标记或者杂交反应差异,芯片本身的物理特性,实验试剂 的效应,实验室环境等等。标准化过程可以有效的减少芯片间的系统偏差,减少在芯片处理过程中的技术因素对芯片检测结果的影响,使检测的结果能真实反映生物功能的差别,使我们可以有效的挖掘具有生物学意义的基因表达变化。Affmetrix芯片数据预处理通常采用RMA(Robust Multichip Average), MAS5.0(MicroArray Suite 5.0)和dChip(DNA Chip Analyzer)三种标准化算法。
Affymetrix芯片标准化处理一般可以概述为四个步骤,包括:背景修正(Background correction),系统校正(Normalization),PM修正,表达值综合(Summary)。
背景修正
针信号测量特异性标记的RNA序列的丰度,但是,探针信号会受到一些非特异因素的影响,例如芯片表面自身的荧光反射、非特异DNA的交叉杂交污染等等。背景修正对探针信号的背景进行估计,然后,减去背景信号移除其对探针信号的影响。在cDNA芯片的情况,背景信号可以通过点样边缘的区域来估计。但是,由于寡核普酸芯片两个探针之间几乎没有空间,所以只能通过探针信号自身来估计背景信号。
系统校正
芯片效应是原始探针测量信号由于芯片的特异性引起的误差偏移,对同一个芯片上的探针有相似的影响。芯片效应通常是由于芯片本身的物理特性,荧光染色标记,以及杂交效率、扫描仪特性等多方面因素引起的。校正的目的是移除芯片效应,减弱不同芯片间的非生物差异,使得不同芯片间的基因差异表达检测更为可靠。
PM修正
寡核普酸芯片的探针高密度特点使得探针信号存在一些非特异性因素的影响,诸如:非特异性绑定、交叉杂交、玻片表面自身的荧光反射等。为了评估这些问题,Affvmetrix公司通过失配探针来补充匹配探针。Affymetrix公司建议通过PM探针信号减去MM探针来修正PM探针。但是,检测发现有30%的MM探针高于PM探针。如果直接减去MM探针,会出现相当数量的负调整。Affymetrix在最新的MAS5.0中改变了对PM探针的修正算法,通过首先对MM探针进行修正,得到一个小于PM探针的IM(Ideal Mismatch)探针,然后,利用PM减去IM来修正PM探针。但是,研究发现探针密度还受到其G/C含量的影响,而MM本身为非特异性杂交,因此,MM探针对G/C含量的影响不如PM探针敏感。所以,大部分研究者在研究中直接忽略MM探针,并不对PM探针进行修正。关于如何有效的利用MM探针信息,仍然是一个被广泛讨论的问题。
表达值综合
通常在芯片表达数据的高水平分析中,以基因为一个基本的单位。因此,需要将同一个芯片上对应于同一个基因的探针集进行综合,以便得到一个基因在一个芯片上的单一表达水平值。
1.2.1 RMA算法
RMA(Robust Multichip Average)算法 是由Terry Speed小组完成的。由于随着在开始阶段噪声与信号强度成比例的增加,他们发现对噪声取log后,噪声强度按比例发生固定改变。因此,进行背景校正和标准化后,探针信号丰度表示为Y:

【注:】由于简书不支持latex,为了书写方便,我是用latex写一些公式:例如u_in代表in下标 ;R^2代表2上标
u_in表示探针集n在芯片i中测量杂交强度,a_jn表示探针的亲和因子,ε_ijn表示均值为零的独立等分布的误差分布,通过反复重新计算带权重的最小平方或中位数使这个等式符合这个模型(只考虑PM模型)。基本流程是计算出芯片的非特异杂交背景均值,然后以PM值减去该均值获得校正的PM值,再计算转录的表达值RMA方法,即归纳为三步:在PM数据上使用背景校正、分位数标准化和进行探针组归纳。该算法并不是直接从PM的信号中减去作为背景的MM信号,而是基于20组探针的信号分布来判断是信号还是噪音,这种算法无疑对于低噪信号的实验有较大的适用性。
1.2.2 MAS5.0算法
Affymetrix公司的寡核苷酸芯片推荐使用MAS标准化方法,MAS4.0算法使用PM-MM的探针检测方法,这种方法在MM值大于PM值时就会得到负的探针表达值。为了避免这种问题,MAS5.0算法采用了理想匹配(Ideal Match,IM)方法,首先对最小的2%的失配(MM)探针值进行加权处理,计算出理想匹配值(IM),然后应用IM调节PM的信号强度,再应用Tukey biweight方法获得单个转录的表达值。 但是即使是使用IM的方法,探针之间的差异可能比样本间的差异更大。其中Tukey biweight是一种稳定的鲁棒估计方法,对于奇异点有很好的鲁棒性.Tukey biweight estimator定义的标准化函数如下:

y_ij表示探针j在芯片i上的测量杂交强度, Me_i定义为探针j在所有芯片上杂交强度的对数中值,Si定义为探针j相对于其对数中值Me_i的绝对残差的中值,c是调整常数(一般在4到12之间),ε是一个极小数,避免零除问题。由Tukey biweight estimator计算每个探针在所有芯片中测量杂交强度的中值,从而得到一个伪基准芯片.
1.2.3 dChip算法
dChip算法认为每个探针的PM和MM的杂交率是不同的,前者总是大于后者,且二者均应大于0,同一探针的杂交率在所有样本中应是固定的,基于此提出了非线性的乘法模型( Multiplicative model)进行数据预处理方法。通过一个迭代的过程选择目标芯片和基准芯片之间秩不变的探针集。然后,在选择的不变探针集上拟合校正曲线。
1.2.4 LVS算法
LVS算法基本原理由两部分组成:首先,为了发现最小变异基因,算法对芯片的
统计量拟合了一个非参数的定量函数作为标准残差函数(SD)并认为在曲线以下的那些基因作为最小变异基因。同时,该算法需要设定一个比例系数τ,这个参数代表最小变异基因集占所有基因的比例。经验表明,τ =40%-60%是一个比较合理的选择,在这个条件下至多有40%-60%的基因在不同的芯片中有显著差异。其次,完成最小变异基因识别后,对最小变异基因集进行局部回归并拟合出一条标准化曲线实现对芯片数据的标准化。
1.3 批次效应分析
采用基因芯片检测不同实验条件下基因的表达水平对现代生物学研究有着重要的影响。但是量化的表达值受到多种因素的影响,其中的一个主要因素就是批次效应,所谓批次效应就是部分基因在不同的实验配置条件下(如仪器、试剂批次、员工和温度等)发生了差异,而这种差异与所关心的生物学变量无关(如正常和疾病)。当代表批次的变量和所关心的生物学变量产生相关时,往往导致错误的生物学结论产生。为了分析处理日期的批次效应,通过对分类数据应用广义R^2统计量,我们计算了处理时间和样本状态的相关性。相关系数变化范围为0%到100%。
1.4 差异表达基因筛选
随着基因芯片技术的出现,人们可以并行地检测成千上万个基因在不同时间点或样本中的mRNA的表达水平,从而获取反映基因表达水平的基因表达数据谱。根据具体的研究目的对表达谱数据进行全面系统地分析,从中挖掘出新颖、有用的生物学信息,常用的分析方法有对基因和对样本聚类。对基因聚类可以发现一些功能相关的基因集团和预测未知基因功能;对样本聚类可以识别疾病和发现不同的疾病亚型等。与此同时,通过基因表达谱中的基因表达差异分析,来发现差异表达基因,为寻找疾病相关基因提供了一种新的技术手段。现已有多种方法用来寻找差异表达基因,如SAM(Significance Analysis Of The Microarrays) ,T-test等。
差异表达是指在不同的条件下:如细胞类型(Cell Type),不同的发育生长阶段(Developmental Stages),不同的病理条件下(Pathological Conditions)等,某些基因表达相对显著性偏高或偏低。差异表达基因的筛选对疾病问题的研究有重要的意义,如人体中有上百种原癌基因,正常情况下这些基因低表达或者不表达,其表达水平或蛋白产物活性在细胞内受到严格控制。当受某些因素作用后,它们的结构或调控发生了改变,使之激活,进而引起癌变。同样,抑癌基因的低表达也会导致癌变。据此,通过分析在正常组织和癌变组织中差异表达的基因,可以推测这些基因可能是高表达的原癌基因或者低表达的抑癌基因。另外,差异表达基因对识别药物作用靶点也很重要。因此,利用基因表达谱数据进行差异表达基因的筛选,已经成为基因表达谱的一个非常普遍的应用。
假设两簇基因表达水平均值相等,通常经过FDR控制的多重检验拒绝零假设的基因称为差异表达基因。应用传统的t检验来筛选差异基因时,基因具有微小的信号变异能导致与之相关的t统计量成倍变化,从而使这些基因具有统计显著性。为避免这种情况,Tusher等研究人员提出了SAM方法来筛选差异表达基因,即在t检验统计量的分母上增加一个小的附加因子构建新的检验统计量d值:


其中x_1(i)和x_2(i)分别是基因i在n_1个疾病样本和n_2个对照样本中的表达值向量。s_0是附加因子,用来最小化方差d(i)的系数变异。
其他参考资料:生物信息学之RMA(Robust Multi-Array Average)算法的归一化和最终计算过程
扫描下方二维码关注生信客部落公众号:

网友评论