核函数主成分分析-Python

作者: 灵妍 | 来源:发表于2018-05-31 21:41 被阅读57次

核函数主成分分析-Python
核函数主成分分析-R
【数据分析】-007-数据预处理-Python主要数据预处理函数
CH04算法进阶_PCA主成分分析
数据探索 —— 数据预处理 4
主成分分析实现数据描述与变量压缩(附 Python code 与
白话“主成分分析” 1 ：主成分分析用于降维的思想
PART 4 数据建模分析_主成分分析（PCA）
主成分分析
群体结构——PCA分析

楔子：
如果数据是线性可分的，我们可以使用PCA经过线性变换，找出能够最大程度解释特征方差的特征量，但是如果数据是线性不可分的，也就是我们不能通过一条直线将二维特征数据分割开来，我们就要对特征变量做变换，将它映射到线性可分的范围内。

1、原理

kernelPCA直觉.PNG

我们运用kernelPCA将原本的两个自变量转变成新的自变量，使原本线性不可分的数据变得线性可分。

2、逻辑回归分类模型

逻辑回归模型.PNG

我们可以看出它对于高龄低资和低龄高资的用户是错分的，我们需要得到的是一条曲线，而不是直线。

3、运用kernelPCA后的逻辑回归模型

高斯核函数.PNG

kernelPCA逻辑回归.PNG

测试集.PNG

代码：

# Kernel PCA

# Importing the libraries
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

# Importing the dataset
dataset = pd.read_csv('Social_Network_Ads.csv')
X = dataset.iloc[:, [2, 3]].values
y = dataset.iloc[:, 4].values

# Splitting the dataset into the Training set and Test set
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.25, random_state = 0)

# Feature Scaling
from sklearn.preprocessing import StandardScaler
sc = StandardScaler()
X_train = sc.fit_transform(X_train)
X_test = sc.transform(X_test)

# Applying Kernel PCA
from sklearn.decomposition import KernelPCA
kpca = KernelPCA(n_components = 2, kernel = 'rbf')
X_train = kpca.fit_transform(X_train)
X_test = kpca.transform(X_test)

# Fitting Logistic Regression to the Training set
from sklearn.linear_model import LogisticRegression
classifier = LogisticRegression(random_state = 0)
classifier.fit(X_train, y_train)

# Predicting the Test set results
y_pred = classifier.predict(X_test)

# Making the Confusion Matrix
from sklearn.metrics import confusion_matrix
cm = confusion_matrix(y_test, y_pred)

# Visualising the Training set results
from matplotlib.colors import ListedColormap
X_set, y_set = X_train, y_train
X1, X2 = np.meshgrid(np.arange(start = X_set[:, 0].min() - 1, stop = X_set[:, 0].max() + 1, step = 0.01),
                     np.arange(start = X_set[:, 1].min() - 1, stop = X_set[:, 1].max() + 1, step = 0.01))
plt.contourf(X1, X2, classifier.predict(np.array([X1.ravel(), X2.ravel()]).T).reshape(X1.shape),
             alpha = 0.75, cmap = ListedColormap(('red', 'green')))
plt.xlim(X1.min(), X1.max())
plt.ylim(X2.min(), X2.max())
for i, j in enumerate(np.unique(y_set)):
    plt.scatter(X_set[y_set == j, 0], X_set[y_set == j, 1],
                c = ListedColormap(('red', 'green'))(i), label = j)
plt.title('Logistic Regression (Training set)')
plt.xlabel('Age')
plt.ylabel('Estimated Salary')
plt.legend()
plt.show()

# Visualising the Test set results
from matplotlib.colors import ListedColormap
X_set, y_set = X_test, y_test
X1, X2 = np.meshgrid(np.arange(start = X_set[:, 0].min() - 1, stop = X_set[:, 0].max() + 1, step = 0.01),
                     np.arange(start = X_set[:, 1].min() - 1, stop = X_set[:, 1].max() + 1, step = 0.01))
plt.contourf(X1, X2, classifier.predict(np.array([X1.ravel(), X2.ravel()]).T).reshape(X1.shape),
             alpha = 0.75, cmap = ListedColormap(('red', 'green')))
plt.xlim(X1.min(), X1.max())
plt.ylim(X2.min(), X2.max())
for i, j in enumerate(np.unique(y_set)):
    plt.scatter(X_set[y_set == j, 0], X_set[y_set == j, 1],
                c = ListedColormap(('red', 'green'))(i), label = j)
plt.title('Logistic Regression (Test set)')
plt.xlabel('Age')
plt.ylabel('Estimated Salary')
plt.legend()
plt.show()

我们这里没有对于数据进行降维，所以不需要显示解释方差比，我们可以看出经过kernelPCA的处理后，我们这里选择的核函数是rgb，高斯核函数，得到的分类模型，虽然也有错分的现象，不过错分的对象都是散点图，不会像之前那么集中，也就是我们之前明显将某一类对象错分。

网友评论

机器学习

本文标题：核函数主成分分析-Python

本文链接：https://www.haomeiwen.com/subject/rlycsftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

核函数主成分分析-Python

1、原理

2、逻辑回归分类模型

3、运用kernelPCA后的逻辑回归模型

相关文章