美文网首页
16种常用的数据分析方法-典型相关分析

16种常用的数据分析方法-典型相关分析

作者: 陪学 | 来源:发表于2022-05-13 15:21 被阅读0次

    CCA典型相关分析(canonical correlation analysis)从总体上把握两组指标之间的相关关系,分别提取两组变量有代表性的两个综合变量U1和V1(分别为两个变量组中各变量的线性组合),用这两个综合变量之间的相关关系来反映两组指标之间的整体相关性。

    简单相关系数用来描述两组变量相关关系时只是考虑单个X、Y间的相关,没有考虑X、Y变量组内部各变量间的相关。两组间有许多简单相关系数,相关性问题更加复杂,整体描述困难。

    典型相关分析弥补了简单相关性分析的缺陷,是专门针对两组变量间相关性分析的一种统计方法。也是一种降维技术。

    典型相关分析的基本思想和主成分分析的基本思想相似,它将一组变量与另一组变量之间单变量的多重线性相关性研究转化为对少数几对综合变量之间的简单线性相关性的研究,并且这少数几对变量所包含的线性相关性的信息几乎覆盖了原变量组所包含的全部相应信息。

    典型相关分析基本思想

    1936年,Hotelling提出典型相关分析。Hotelling提出分析两组变量的线性组合, 研究它们之间的相关系数p(u,v)。

    在所有线性组合中,找出一对相关系数最大的线性组合, 用这个组合的单相关系数来表示两组变量的相关性, 成为两组变量的典型相关系数,而这两个线性组合叫做一对典型变量。两组多变量的组合需要用若干对典型变量完全反映它们之间的相关性。

    在两组变量的线性组合中,找出与u1,v1不相关的线性组合,找出一对相关系数最大的线性组合, 即:第二对典型变量,把p(u2,v2)做为第二个典型相关系数。用此方法继续得到若干对典型变量,最终提取出两组变量间的全部信息。

    其中“相关系数”、“典型变量”的基本概念为:

    l典型变量(Canonical Variates)

    首先,两个变量集合X和Y:

    接着,定义两个线性关系的集合U和V,其中U是X的线性组合,V是Y的线性组合:

    其中,U为p行p列(X为p列,对每一维都线性组合),V为p行q列(Y为q列,对每一维都线性组合),至于都是p行,是为了形成典型变量对。

    典型变量对(canonical variate pair)

    典型变量对共有p对(p ≤ q)

    如:(U2, V2) = (a21X1 + a22X2 + ··· + a2pXp, b21Y1 + b22Y2 + ··· + b2qYq)

    l相关系数

    若ρXY=0,则称X与Y不线性相关。

    实战案例

    CRM(CustomerRelationshipManagement)即客户关系管理系统有三组变量:

    公司规模变量2个:资本额,销售额

    CRM实施程度变量6个:WEB网站,电子邮件,客服中心,DM快讯广告,无线上网,简讯服务

    CRM绩效维度3个:行销绩效,销售绩效,服务绩效

    分析目标:试对三组变量做典型相关分析。

    原始业务数据格式如图,以下对三组变量两两做典型相关分析。

    一、公司规模、CRM实施程度做典型相关分析

    SPSS未提供典型相关分析的交互窗口,要直接在synatxeditor窗口中呼叫SPSS的CANCORR程序执行分析。注意:cancorr不能读取中文名称,需将变量改为英文名称。

    打开文件后,选择“File-new—synatxeditor”打开语法窗口,输入语句:

    INCLUDE'D:spss19SamplesEnglishCanonicalcorrelation.sps'.

    CANCORRSet1=CapitalSales

    /Set2=WebMailCallDMMobileShortM.

    小写字母也行,但是变量名字必须严格一致

    include'D:spss19SamplesEnglishCanonicalcorrelation.sps'.

    cancorrset1=CapitalSales

    /set2=WebMailCallDMMobileShortM.

    注意第三行的“/”不能为“”

    ØRun—>all得到典型相关分析结果

    典型相关分析结果

    第一组变量间的简单相关系数

    第一组变量间简单相关系数

    第一对典型变量的典型相关系数为CR1=0.434,第二对典型变量的典型相关系数为CR2=0.298.

    相关系数显着性检验

    此为检验相关系数是否显着的检验,原假设:相关系数为0。每行的检验都是对此行及以后各行所对应的典型相关系数的多元检验。

    第一行获得第一对典型变量的典型相关系数不为0,相关性显着。

    第二行sig值P=0.263>0.05,在5%显着性水平下不显着。

    第一个典型变量标准化典型系数

    第一个典型变量的标准化典型系数为-0.287和-0.774.

    CV1-1=--0.287capital--0.774sales

    CV1-2=--1.4capital+1.2sales

    第二个典型变量标准化典型系数

    CV2-1=--0.341web+0.117mail+0.027call—0.091DM—0.767mobile—0.174shortm

    CV2-2=--0.433web—0.168mail—1.075call+0.490DM+0.139mobile+0.812shortm

    典型负荷系数和交叉负荷系数表

    重叠系数分析Redundancyindex

    0.157= *0.833=0.434^2*0.833

    0.08= =0.434^2*0.425

    计算获得的典型变量

    此为计算的典型变量,保存到原文件后部。

    二、公司规模与CRM绩效的典型相关分析

    典型相关分析结果

    CRM绩效与CRM实施程度典型相关分析表:

    分析结果解读:

    公司规模与CRM实施程度显着相关,且公司规模越大实施程度越高;

    CRM实施程度越高越能实现CRM绩效,但公司规模与CRM绩效并不显着相关;

    就整体而言:

    公司规模不直接影响CRM绩效,是通过CRM实施程度间接影响CRM绩效。

    影响CRM绩因素很多,光靠较大公司规模还不是CRM绩效的保证,还有其他因素影响CRM绩效。

    相关文章

      网友评论

          本文标题:16种常用的数据分析方法-典型相关分析

          本文链接:https://www.haomeiwen.com/subject/crfuurtx.html