sklearn调包侠之PCA降维

作者: 罗罗攀 | 来源:发表于2018-07-06 08:06 被阅读46次

PCA

PCA(主成分分析),它是一种维度约减算法,即把高维度数据在损失最小的情况下转换为低纬度数据的算法。

实战——人脸识别

数据导入

该数据集可通过sklearn进行下载。数据集总共包含40位人员的照片,每个人10张照片。通过fetch_olivetti_faces方法下载的图片,进行了处理,人脸会居中,并裁剪为64*64大小。

%matplotlib inline
import matplotlib.pyplot as plt
import numpy as np
from sklearn.datasets import fetch_olivetti_faces
faces = fetch_olivetti_faces()
X = faces.data
y = faces.target
pca

由于数据集样本少(400),特征高(64*64),需要对数据进行降维后,再建立模型。
那到底选择多少主成分合适了?我们这里计算多组主成分,获取数据还原率,如图所示,选择140个主成分,可以保证还原率大于0.95。

from sklearn.decomposition import PCA

candidate_components = range(10, 300, 30)
explained_ratios = []
for c in candidate_components:
    pca = PCA(n_components=c)
    X_pca = pca.fit_transform(X)
    explained_ratios.append(np.sum(pca.explained_variance_ratio_))

plt.figure(figsize=(10, 6), dpi=144)
plt.grid()
plt.plot(candidate_components, explained_ratios)
plt.xlabel('Number of PCA Components')
plt.ylabel('Explained Variance Ratio')
plt.title('Explained variance ratio for PCA')
plt.yticks(np.arange(0.5, 1.05, .05))
plt.xticks(np.arange(0, 300, 20))
切分数据集
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=33)
训练模型

这里使用svm进行模型训练,并使用网格搜索来获取最优参数。

from sklearn.model_selection import GridSearchCV
from sklearn.svm import SVC

param_grid = {'C': [1, 5, 10, 50, 100],
              'gamma': [0.0001, 0.0005, 0.001, 0.005, 0.01]}
clf = GridSearchCV(SVC(kernel='rbf', class_weight='balanced'), param_grid)
clf = clf.fit(X_train_pca, y_train)

print(clf.best_params_, clf.best_score_)

# result
# {'C': 5, 'gamma': 0.005} 0.778125
模型评估

最后,对模型进行评估:

clf.best_estimator_.score(X_test_pca, y_test)

# result
# 0.96250000000000002

相关文章

  • sklearn调包侠之PCA降维

    PCA PCA(主成分分析),它是一种维度约减算法,即把高维度数据在损失最小的情况下转换为低纬度数据的算法。 实战...

  • Sklearn中的降维究竟是如何实现的

    sklearn中的降维算法 1. PCA与SVD sklearn中降维算法都被包括在模块decomposition...

  • SKlearn - PCA数据降维

    PCA是无监督数据降维方式,目的是将一个高维数据集转换为一个低维数据集。如今我们的数据集往往有成百上千维的特征,但...

  • 用sklearn 实践PCA降维

    用sklearn 实践PCA 原文地址: https://towardsdatascience.com/pca-u...

  • 机器学习之sklearn中的降维算法

    1. PCA与SVD sklearn中降维算法都被包括在模块decomposition中,这个模块本质是一个矩阵分...

  • PCA

    PCA降维 一、算法原理 降维算法 还原算法 二、算法实现 三、scikit-learn PCA 四、PCA降噪 ...

  • sklearn的基本使用

    前言 于sklearn的使用来说,目前只是想成为一名调包侠,但是调包侠起码也得知道有哪些包可以调,为此找了一些教程...

  • 【R图千言】主成分分析之3D绘图

    主成分分析 (PCA, principal component analysis)是一种数学降维方法。 PCA降维...

  • sklearn调包侠之KNN算法

    天下武功,唯快不破。今天就正式讲解如何通过《sklearn小抄》武林秘籍,成为一代宗师调包侠。欲练此功,必先自宫;...

  • sklearn调包侠之线性回归

    线性回归原理 如图所示,这是一组二维的数据,我们先想想如何通过一条直线较好的拟合这些散点了?直白的说:尽量让拟合的...

网友评论

    本文标题:sklearn调包侠之PCA降维

    本文链接:https://www.haomeiwen.com/subject/dvieuftx.html