机器学习步骤
- 观察数据
· 如果不用机器学习能不能轻松完成任务;
· 需要的信息是否包含在数据中。 - 发现异常值和特殊值(不一致或意料之外的数据):
· 数据可视化方法,散点图;
【注】散点图方法,只能查看2个特征之间的关系,因为计算机屏幕只有2维,因此我们只能两两查看所有的特征,而无法同时显示所有特征之间的关系,不能展示数据某些有趣的内容。
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
iris_dataset = load_iris()
X_train, X_test, y_train, y_test = train_test_split(iris_dataset.data, iris_dataset.target, test_size=0.2, random_state=0)
import pandas as pd
iris_dataframe = pd.DataFrame(X_train, columns=iris_dataset.feature_names) # 创建鸢尾花数据集,指定特征名称为列名
grr = pd.plotting.scatter_matrix(iris_dataframe,c=y_train,figsize=(15,15),marker='o',hist_kwds={'bins':20},s=60,alpha=.8)
![](https://img.haomeiwen.com/i15616414/f3f3dc07adf6e645.png)
pandas.plotting模块
andrews_curves(frame, class_column[, ax, …])
: 生成一个matplotlib画的调和曲线,用于可视化多变量数据集群【Andrews曲线将每个样本的属性值转化为傅里叶序列的系数来创建曲线。通过将每一类曲线标成不同颜色可以可视化聚类数据,属于相同类别的样本的曲线通常更加接近并构成了更大的结构】;
autocorrelation_plot(series[, ax])
:时间序列的自相关图;
bootstrap_plot(series[, fig, size, samples])
:Bootstrap plot on mean, median and mid-range statistics.
boxplot(data[, column, by, ax, fontsize, …])
:对DataFrame列的盒装画图方式;
deregister_matplotlib_converters()
:去掉pandas的格式和转换;
lag_plot(series[, lag, ax])
:为时间序列的Lag plot;
parallel_coordinates(frame, class_column[, …])
:平行坐标绘图;
plot_params
:存储pandas的绘图方式;
radviz(frame, class_column[, ax, color, …])
:在2D上绘制高维数据集;
register_matplotlib_converters()
:在matplotlib中注册pandas的格式和转换;
scatter_matrix(frame[, alpha, figsize, ax, …])
:绘制矩阵型的散点图;
table(ax, data[, rowLabels, colLabels])
:转换Dataframe和Series到matplotlibtable的帮助函数。
【小知识】
Andrews curves:调和曲线,由Andrews于1972年提出,因此又叫Andrews plots或Andrews curve,是将多元数据以二维曲线展现的一种统计图,常用于表示多元数据的结构。
Bootstrap:统计学上一种非常有用的非参数估计方法,实质上是对观测信息进行有放回的再抽样,重复的统计总体的分布情况。
数据可视化:https://www.jianshu.com/p/3bb2cc453df1
网友评论