引言

近几年来，机器学习在各个领域都有不错的表现，在生物信息领域也有相关的应用。然而，在诸如基因组学、转录组学、蛋白组学以及代谢组学等高通量数据的一大特点是特征量多、样本数少。

以转录组数据为例，特征量个数通常为基因个数，达到万级，而样本数一般是几十到几百例。当我们基于转录组数据去研究基因表达与其他性状之间的联系时，对于这种自变量大于观察个数的情况，无法直接使用传统的统计分析模型。这时，有一种相当有效的方法—偏最小二乘回归(partial least squares regreesion, PLS)。

接下来我们对于这种方法的原理进行介绍，并说明如何实现这种方法的计算，以及在实例中的应用。

背景介绍

在实际问题中，经常遇到需要研究两组多重相关变量间的相互依赖关系，并研究用一组变量（常称为自变量或预测变量）去预测另一组变量（常称为因变量或响应变量），除了最小二乘准则下的经典多元线性回归分析（MLR），提取自变量组主成分的主成分回归分析（PCA）等方法外，还有近年发展起来的偏最小二乘（PLS）回归方法。

偏最小二乘回归提供一种多对多线性回归建模的方法，特别当两组变量的个数很多，且都存在多重相关性，而观测数据的数量（样本量）又较少时，用偏最小二乘回归建立的模型具有传统的经典回归分析等方法所没有的优点。

偏最小二乘回归分析在建模过程中集中了主成分分析，典型相关分析和线性回归分析方法的特点。因此，在分析结果中，除了可以提供一个更为合理的回归模型外，还可以同时完成一些类似于主成分分析和典型相关分析的研究内容，提供更丰富、深入的一些信息。

基本原理

PLS方法是建立在X（自变量）与Y（因变量）矩阵基础上的双线性模型，可以看做是由外部关系(即独立的X块和Y块) 和内部关系(即两块间的联系) 构成。

建立自变量的潜变量关于因变量的潜变量的线形回归模型，间接反映自变量与因变量之间的关系。该算法在建立回归的过程中，既考虑了尽量提取Y和X中的主成分（PCA—Principal Component Analysis，主成分分析的思想），又考虑了使分别从X和Y提取出的主成分之间的相关性最大化（CCA的思想）。

简单的说，PLS是PCA、CCA和多元线性回归这三种基本算法组合的产物。具体计算方法可以通过下面的程序来了解。

算法实现 (matlab)

 1function [so,Rc,Rp,R,RMSEC,RMSEP]=PLS(pz,verifydata)
 2%函数假设数据集的最后一项是因变量，且只有这一个因变量
 3%输入文件名、自变量个数和因变量个数
 4%数据加载及其标准化
 5
 6mu=mean(pz);sig=std(pz);    %求均值和标准差
 7rr=corrcoef(pz);            %求相关系数矩阵
 8data=zscore(pz);            %数据标准化,变量记做 X*和 Y*
 9x0=pz(:,1:end-1);y0=pz(:,end);       %原始的自变量和因变量数据
10e0=data(:,1:end-1);f0=data(:,end);   %标准化后的自变量和因变量数据
11n=size(e0,2); m=1;
12
13num=size(e0,1);             %求样本点的个数
14chg=eye(n);                 %w 到 w*变换矩阵的初始化
15for i=1:n
16    %以下计算 w，w*和 t 的得分向量，
17    matrix=e0'*f0*f0'*e0;
18    [vec,val]=eig(matrix);      %求特征值和特征向量
19    val=diag(val);              %提出对角线元素，即提出特征值
20    [val,ind]=sort(val,'descend');
21    w(:,i)=vec(:,ind(1));       %提出最大特征值对应的特征向量
22    w_star(:,i)=chg*w(:,i);     %计算 w*的取值
23    t(:,i)=e0*w(:,i);           %计算成分 ti 的得分
24    alpha=e0'*t(:,i)/(t(:,i)'*t(:,i));      %计算 alpha_i 
25    chg=chg*(eye(n)-w(:,i)*alpha');         %计算 w 到 w*的变换矩阵  
26    e=e0-t(:,i)*alpha';         %计算残差矩阵
27    e0=e;
28    %以下计算 ss(i)的值
29    beta=t\f0;                  %求回归方程的系数，数据标准化，没有常数项
30    cancha=f0-t*beta; %求残差矩阵
31    ss(i)=sum(sum(cancha.^2)); %求误差平方和
32    %以下计算 press(i)
33    for j=1:num
34        t1=t(:,1:i);f1=f0;
35        she_t=t1(j,:);she_f=f1(j,:); %把舍去的第 j 个样本点保存起来
36        t1(j,:)=[];f1(j,:)=[]; %删除第 j 个观测值
37        beta1=[t1,ones(num-1,1)]\f1; %求回归分析的系数,这里带有常数项
38        cancha=she_f-she_t*beta1(1:end-1,:)-beta1(end,:); %求残差向量
39        press_i(j)=sum(cancha.^2); %求误差平方和
40    end
41    press(i)=sum(press_i);
42    Q_h2(1)=1;
43    if i>1
44        Q_h2(i)=1-press(i)/ss(i-1); end
45    if Q_h2(i)<0.0975
46            fprintf('提出的成分个数 r=%d',i); 
47    end
48end
49
50beta_z=t\f0;                         %求 Y*关于 t 的回归系数
51xishu=w_star*beta_z;                 %求 Y*关于 X*的回归系数，每一列是一个回归方程
52mu_x=mu(1:n);mu_y=mu(n+1:end);       %提出自变量和因变量的均值
53sig_x=sig(1:n);sig_y=sig(n+1:end);   %提出自变量和因变量的标准差
54ch0=mu_y-(mu_x./sig_x*xishu).*sig_y; %计算原始数据回归方程的常数项
55for i=1:m
56    xish(:,i)=xishu(:,i)./sig_x'*sig_y(i); %计算原始数据回归方程的系数
57end
58sol=[ch0;xish];                     %显示回归方程的系数，每一列是一个方程，每一列的第一个数是常数项
59so=sol';
60
61%验证精度Rc值（数据集）
62avgactual0=mean(y0);
63for i=1:num
64    %y_(i)=sum(x0(i,:).*so(2:end))+so(1);
65    y_(i)=x0(i,:)*so(2:end)'+so(1);
66end
67Rc=sqrt(1-sum((y0-y_').^2)/sum((y0-avgactual0).^2));
68RMSEC=sqrt(sum((y0-y_').^2)/num);
69
70%验证精度Rp值（验证集）
71x00=verifydata(:,1:end-1);y00=verifydata(:,end);       %验证集原始的自变量和因变量数据
72numv=size(x00,1);             %求样本点的个数
73
74avgactual=mean(y00);
75for i=1:numv
76    y(i)=sum(x00(i,:).*so(2:end))+so(1);
77end
78Rp=sqrt(1-sum((y00-y').^2)/sum((y00-avgactual).^2));
79RMSEP=sqrt(sum((y00-y').^2)/numv);
80R=Rc+Rp;

上述的算法提供了具体的PLS回归的计算过程。实际应用中，matlab提供可用于计算PLS回归的函数plsregress,可以方便使用。

调用的命令：[XL,YL] = plsregress(X,Y,ncomp)，表示使用ncomp个PLS成分来计算因变量Y相对自变量X的变化。

欢迎关注我们，一起学习更多数据分析的方法~