数据降维
降维:特征的数量
- 特征选择
- 主成分分析
特征选择
- 冗余:部分特征的相关的高,容易消耗计算性能
- 噪声:部分特征对于预测结果有影响
- filter(过滤式)、embedded(嵌入式)、warpper(包裹式)
- Variance threshold :方差选择法 >>> filter
- sklearn.feature_selection.VarianceThreshold
- VarianceThreshold(thershold=0.0)
- 删除所有低方差特征
- Variance.fit_transform(X)
- X : numpy array格式的数据[n_samples,n_feature]
- 返回值:训练集差异低于方差特征的将被删除
- 默认值是保留所有非零的方差特征,即删除所有样本中具有相同值的特征
- 例[[0,2,0,3],[0,1,4,3],[0,1,1,3]]
- VarianceThreshold(thershold=0.0)
- sklearn.feature_selection.VarianceThreshold
- 主成分分析:decomposition PCA
- 本质:是一种分析,简化数据集的技术
- 目的:是数据维数压缩,尽可能降低原数据的维数(复杂度),损失少量信息
- 作用:可以削弱回归分析或聚类分析特征的数量
- 数据量过大时使用
- 把损失减少到最小
- 语法
- from sklearn.decomposition import PCA
- PCA(n_components=None)
- 将数据分解为较低难度空间
- PCA.fit_transform(X)
- X:numpy array格式的数据[n_samples,n_frature]
- 返回值:指定维度的array
- 初始化PCA,指定减少后的维度
- 调用fit_transform
- 例[[2,8,4,5],[6,3,0,8],[5,4,9,1]]
- n_components
- 小数:90%~95%之间 -保留90%数据
- 整数:较少到的特征数量
网友评论