CDA Level1 最后一部分,是整个cda Level 1中占比重最高的一个部分,整体占比为40%;主要分为五个部分:
1,主成分分析 4%,因子分析2%
2,系统聚类法 2%,K-means聚类法 3%
3,对应分析 2% 多维尺度分析2%
4,多元回归分析法20% (多元线性回归10%,逻辑回归10%)
5,时间序列 5%;
level 1的阶段 其实只要求对以上建模分析方法进行理解,并知晓各种分析方法的应用方向。
一、主成分分析法 4%
大纲要求熟知:A,适用于主成分分析的变量度量类型。B,通过分析结果,选取合适的保留主成分的个数,注意区分两种不同的分析目的(尽量压缩变量,避免共线性情况下保留更多信息),保留主成分的个数评判标准的差异。
概念:
主成分分析是一类常用的针对连续变量的降维方法。选取能够最大化解释数据变异的成分,将数据从高维降到低维,同时保证各个维度之间正交。
具体方法:
对变量的协方差矩阵或相关系数矩阵求取特征值和特征向量。
经证明,对应最大特征值得特征向量,其方向正式协方差矩阵变异最大的方向,依次类推,第二大特征值对应的特征向量,是与第一个特征向量正交且 能最大程度解释数据剩余变异的方向,而每个特征值则能够衡量各方向上变异的程度。
主成分的基本公式
主成分分析算法解析
主成分分析算法认为,数据的信息是包含在其方差当中的。
如果一个随机变量的方差很小,说明其不确定性较低,即该变量包含的信息较少。相反,如果一个方差很大的变量,如果能够获得它的抽样值,因此可以帮我们消除很大一部分不确定性。包含的信息较多。
从主成分分析的观点出发,我们知道下图中投影到哪个轴更加合适。显然将原始坐标轴旋转到左图当中u1的位置更好,因为数据在这个方向上的变异(方差)更大,而样本在右图的u1方向显然变异更小(图中阴影用于表示离散程度,不代表方差大小)
当我们用向量形式表示样本和坐标轴时,养呗Xi在向量u上的投影长度为他们的点积 X(i)的T次方乘以u;即
于是我们求N个m维样本点在u方向上的方差,令xi为中心化后的样本,即Ux=0,则可以使用下列公式计算方差
其中如下公式为原始变量的协方差矩阵,u为待求的参数,根据题意,u应为单位向量 u的T次方乘以u=1;
我们的目标是优化上式,求满足该函数最大化的u,可以使用拉格朗日乘数法,即求满足下式最大的u:
将上式求导,并令导数为0,可以得到:Su=λu;
根据矩阵特征值分解的性质,可以得到m个“特征值--特征向量”对,其中特征向量两两正交。
保留的主成分个数k应当满足一下两个条件比较合适:
保留的前k个主成分累积能够解释数据80%以上的变异;
最后一个主成分对应的λ不应小于1;
何时采用相关系数计算方法和协方差矩阵计算方法:
在实际中,有时当个指标的方差对研究目的起关键作用,此时适用协方差矩阵进行主成分分析恰到好处;
相关系数矩阵就是随机变量标准化后的协方差矩阵,通过随机变量的标准化,相关系数矩阵剥离了单个指标的方差,仅保留指标间的相关性。用相关系数矩阵计算主成分,其优势效应仅体现在相关性大,相关指标数多的一类指标上。
主成分法的应用,大致分为三个方面:1,对数据做综合打分,2,降维以便对数据进行描述,3,为聚类或回归等分析提供变量压缩。
在应用时要能够判断主成分法的适用性,能够根据需求选取合适的主成分数量。
网友评论