python-sklearn学习

作者: 李静数据分析 | 来源:发表于2019-07-31 16:40 被阅读0次

python-sklearn学习
python-sklearn中SVM调参中画学习曲线
学习学习学习
学习学习学习
学习学习学习！
学习学习学习
学习学习学习
学习！学习！学习！
学习！学习！学习！
学习学习学习！

sklearn学习

中文官网

一、一般使用

1.1 选择学习方法

流程图

从 START 开始，首先看数据的样本是否 >50，小于则需要收集更多的数据。
由图可知，算法有四类：分类，回归，聚类，降维。其中分类和回归是监督式学习，即每个数据对应一个 label。聚类是非监督式学习，即没有 label。另外一类是降维，当数据集有很多很多属性的时候，可以通过降维算法把属性归纳起来。
然后看问题属于哪一类问题，是分类还是回归，还是聚类，就选择相应的算法。当然还要考虑数据的大小，例如 100K 是一个阈值。

1.2 通用学习模式

Sklearn 把所有机器学习的模式整合统一起来了，学会了一个模式就可以通吃其他不同类型的学习模式。

from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
#创建数据
iris = datasets.load_iris()
iris_X = iris.data
iris_y = iris.target
print(iris_X[:2, :])
print(iris_y)
X_train, X_test, y_train, y_test = train_test_split(
    iris_X, iris_y, test_size=0.3)
#建立模型－训练－预测
knn = KNeighborsClassifier()
knn.fit(X_train, y_train)
print(knn.predict(X_test))
print(y_test)

1.3 sklearn 强大数据库

#导入模块
from __future__ import print_function
from sklearn import datasets
from sklearn.linear_model import LinearRegression
import matplotlib.pyplot as plt
#导入数据－训练模型
loaded_data = datasets.load_boston()
data_X = loaded_data.data
data_y = loaded_data.target
model = LinearRegression()
model.fit(data_X, data_y)
print(model.predict(data_X[:4, :]))
print(data_y[:4])
#创建虚拟数据－可视化
X, y = datasets.make_regression(n_samples=100, n_features=1, n_targets=1, noise=10)
plt.scatter(X, y)
plt.show()
X, y = datasets.make_regression(n_samples=100, n_features=1, n_targets=1, noise=50)
plt.scatter(X, y)
plt.show()

1.4 sklearn 常用属性与功能

from sklearn import datasets
from sklearn.linear_model import LinearRegression
loaded_data = datasets.load_boston()
data_X = loaded_data.data
data_y = loaded_data.target
model = LinearRegression()
#训练和预测
model.fit(data_X, data_y)
print(model.predict(data_X[:4, :]))
#参数和分数
print(model.coef_)  #输出模型的斜率
print(model.intercept_)  #输出模型的截距（与y轴的交点）
print(model.get_params()) #功能，它可以取出之前定义的参数
print(model.score(data_X, data_y)) #用R^2 的方式进行打分，输出精确度

二、高级使用

2.1 正则化（normalization）

数据标准化

from sklearn import preprocessing #标准化数据模块
import numpy as np
# 将资料分割成train与test的模块
from sklearn.model_selection import train_test_split
# 生成适合做classification资料的模块
from sklearn.datasets.samples_generator import make_classification 
# Support Vector Machine中的Support Vector Classifier
from sklearn.svm import SVC 
# 可视化数据的模块
import matplotlib.pyplot as plt
#建立Array
a = np.array([[10, 2.7, 3.6],
              [-100, 5, -2],
              [120, 20, 40]], dtype=np.float64)
#将normalized后的a打印出
print(preprocessing.scale(a))
#生成具有2种属性的300笔数据，未标准化
X, y = make_classification(
    n_samples=300, n_features=2,
    n_redundant=0, n_informative=2, 
    random_state=22, n_clusters_per_class=1, 
    scale=100)
#可视化数据
plt.scatter(X[:, 0], X[:, 1], c=y)
plt.show()
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3)
clf = SVC()
clf.fit(X_train, y_train)
print(clf.score(X_test, y_test))
#标准化后
X = preprocessing.scale(X)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3)
clf = SVC()
clf.fit(X_train, y_train)
print(clf.score(X_test, y_test))

2.2 检验神经网络（Evaluation）

为了检验,评价神经网络, 避免和改善这些问题, 我们通常会把收集到的数据分为训练数据和测试数据, 一般用于训练的数据可以是所有数据的70%, 剩下的30%可以拿来测试学习结果。
误差曲线
准确度曲线
正则化：比如 l1, l2 正则化, dropout 方法
交叉验证

2.3 交叉验证

Model 基础验证法

from sklearn.datasets import load_iris # iris数据集
from sklearn.model_selection import train_test_split # 分割数据模块
from sklearn.neighbors import KNeighborsClassifier # K最近邻(kNN，k-NearestNeighbor)分类算法
#加载iris数据集
iris = load_iris()
X = iris.data
y = iris.target
#分割数据并
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=4)
#建立模型
knn = KNeighborsClassifier()
#训练模型
knn.fit(X_train, y_train)
#将准确率打印出
print(knn.score(X_test, y_test))

Model 交叉验证法(Cross Validation)

from sklearn.cross_validation import cross_val_score # K折交叉验证模块
#使用K折交叉验证模块
scores = cross_val_score(knn, X, y, cv=5, scoring='accuracy')
#将5次的预测准确率打印出
print(scores)
# [ 0.96666667  1.          0.93333333  0.96666667  1.        ]
#将5次的预测准确平均率打印出
print(scores.mean())

以准确率(accuracy)判断

import matplotlib.pyplot as plt #可视化模块
#建立测试参数集
k_range = range(1, 31)
k_scores = []
#藉由迭代的方式来计算不同参数对模型的影响，并返回交叉验证后的平均准确率
for k in k_range:
    knn = KNeighborsClassifier(n_neighbors=k)
    scores = cross_val_score(knn, X, y, cv=10, scoring='accuracy')
    k_scores.append(scores.mean())
#可视化数据
plt.plot(k_range, k_scores)
plt.xlabel('Value of K for KNN')
plt.ylabel('Cross-Validated Accuracy')
plt.show()

以平均方差(Mean squared error)

import matplotlib.pyplot as plt
k_range = range(1, 31)
k_scores = []
for k in k_range:
    knn = KNeighborsClassifier(n_neighbors=k)
    loss = -cross_val_score(knn, X, y, cv=10, scoring='mean_squared_error')
    k_scores.append(loss.mean())
plt.plot(k_range, k_scores)
plt.xlabel('Value of K for KNN')
plt.ylabel('Cross-Validated MSE')
plt.show()

2.4 过拟合

sklearn.learning_curve 中的 learning curve 可以很直观的看出我们的 model 学习的进度, 对比发现有没有 overfitting 的问题. 然后我们可以对我们的 model 进行调整, 克服 overfitting 的问题。

from sklearn.learning_curve import learning_curve #学习曲线模块
from sklearn.datasets import load_digits #digits数据集
from sklearn.svm import SVC #Support Vector Classifier
import matplotlib.pyplot as plt #可视化模块
import numpy as np
digits = load_digits()
X = digits.data
y = digits.target
train_sizes, train_loss, test_loss = learning_curve(
    SVC(gamma=0.001), X, y, cv=10, scoring='mean_squared_error',
    train_sizes=[0.1, 0.25, 0.5, 0.75, 1])
#平均每一轮所得到的平均方差(共5轮，分别为样本10%、25%、50%、75%、100%)
train_loss_mean = -np.mean(train_loss, axis=1)
test_loss_mean = -np.mean(test_loss, axis=1)
plt.plot(train_sizes, train_loss_mean, 'o-', color="r",
         label="Training")
plt.plot(train_sizes, test_loss_mean, 'o-', color="g",
        label="Cross-validation")
plt.xlabel("Training examples")
plt.ylabel("Loss")
plt.legend(loc="best")
plt.show()

2.5 validation_curve 检视过拟合

*validation_curve,用这一种曲线我们就能更加直观看出改变模型中的参数的时候有没有过拟合(overfitting)的问题了。

from sklearn.learning_curve import validation_curve #validation_curve模块
from sklearn.datasets import load_digits 
from sklearn.svm import SVC 
import matplotlib.pyplot as plt 
import numpy as np

#digits数据集
digits = load_digits()
X = digits.data
y = digits.target

#建立参数测试集
param_range = np.logspace(-6, -2.3, 5)

#使用validation_curve快速找出参数对模型的影响
train_loss, test_loss = validation_curve(
    SVC(), X, y, param_name='gamma', param_range=param_range, cv=10, scoring='mean_squared_error')

#平均每一轮的平均方差
train_loss_mean = -np.mean(train_loss, axis=1)
test_loss_mean = -np.mean(test_loss, axis=1)

#可视化图形
plt.plot(param_range, train_loss_mean, 'o-', color="r",
         label="Training")
plt.plot(param_range, test_loss_mean, 'o-', color="g",
        label="Cross-validation")

plt.xlabel("gamma")
plt.ylabel("Loss")
plt.legend(loc="best")
plt.show()

2.6 保存模型

两种保存Model的模块pickle与joblib

#使用 pickle 保存
from sklearn import svm
from sklearn import datasets

clf = svm.SVC()
iris = datasets.load_iris()
X, y = iris.data, iris.target
clf.fit(X,y)
import pickle #pickle模块
#保存Model(注:save文件夹要预先建立，否则会报错)
with open('save/clf.pickle', 'wb') as f:
    pickle.dump(clf, f)
#读取Model
with open('save/clf.pickle', 'rb') as f:
    clf2 = pickle.load(f)
    #测试读取后的Model
    print(clf2.predict(X[0:1]))

#使用 joblib 保存
from sklearn.externals import joblib #jbolib模块
#保存Model(注:save文件夹要预先建立，否则会报错)
joblib.dump(clf, 'save/clf.pkl')
#读取Model
clf3 = joblib.load('save/clf.pkl')
#测试读取后的Model
print(clf3.predict(X[0:1]))

python-sklearn学习
sklearn学习中文官网一、一般使用 1.1 选择学习方法从 START 开始，首先看数据的样本是否 >5...
python-sklearn中SVM调参中画学习曲线
脑子经常短路，就把看到的随手给记录下，以防后续查看使用： score = [] gamma_range = np....
学习学习学习
第三天了，连续三天，早上睁眼开始，看视频，做课件，连续作业，直到晚上十二点才睡觉。吃饭不规律，想起来就吃，感觉不饿...
学习学习学习
23岁的我，才真正明白，什么是学习，什么是努力，努力和不努力真的不同，就好比同样是一篇稿子，我用一周背下来，有的人...
学习学习学习！
妈妈总是让我学习，我只能用装当办法。方法一: 方法二: 方法三: 方法四: ...
学习学习学习
001.今天看财富自由之路看了第二遍，而且看了一半，算是完成任务很开心。中间有想放弃的念头，坚持看完。眼睛痛，一直...
学习学习学习
马自达为什么坚持高压缩比自吸
学习！学习！学习！
学习的痛苦是暂时的没有学到的痛苦是永恒的因为学习而特别充实的一天很踏实～～～～ 2015.11.28.阴天...
学习！学习！学习！
无数次想要去逃离，可这封闭的世界根本出不去。你没有什么可以抛弃、只能咬着牙带着面具微笑的活下去。没有那个人、他也...
学习学习学习！
昨天和今天两个上午，都在学习新媒体运营，学习的过程中心里只有一个想法：这也太套路，太功利了吧。可真应了那句话...