PCA

作者: saai | 来源:发表于2021-05-21 16:28 被阅读0次

    Principal Component Analysis, 主成分分析

    原理 

    机器学习P229

    对于正交属性空间中的样本点,用一个超平面对所有样本点进行恰当的表达,此超平面需要满足两个性质:

    1. 最近重构性:样本点到这个超平面距离足够近

    2. 最大可分性:样本点在这个超平面上的投影分得足够开

    二者等价,只需对协方差矩阵XX^T进行特征值分解,求得特征值排序。

    假设有N个维度,取前d个特征值对应的特征向量构成W^*=(w_1,w_2,...,w_{d}), 即是主成分分解式。

    维度数d的选择

    1. 用累计方差贡献率,不同d值下的累计方差值达到指定比例(python 中pca.explained_variance_ratio 解释方差比例)。(Python数据科学手册p382)

    2. 设置重构阈值t=95%,取 \frac{\Sigma _{i=1}^{d} \lambda_{i}}{\Sigma_{i=1}^{N}\lambda_{i}} >=t

    3. 用开销小的学习器,采用不同的d值交叉验证,选取d

    特征噪声

    1.被删除的维度往往与噪声有关

    2.留下的主成分过滤的噪声数据,可以还原成原有的维度观察数据变化

    components = pca.transform(faces.data)

    projected = pca.inverse_transform(components)

    判断特征共线性

    1. 若某几个原始变量的PCA系数较大,且十分相近,那么这几个变量可能存在共线性。(数据挖掘与数据运营p123)

    相关文章

      网友评论

          本文标题:PCA

          本文链接:https://www.haomeiwen.com/subject/grwjjltx.html