美文网首页IT@程序员猿媛程序员
数据分析50图(六) —— 鸢尾花特征二元关联

数据分析50图(六) —— 鸢尾花特征二元关联

作者: iced_fd13 | 来源:发表于2019-04-07 15:17 被阅读8次

前言

A change of perspective is worth 80 IQ points Alan Kay

著名计算机科学家、艾伦·凯说过,换一个角度看问题值80点智商。

本期是最后一次介绍关联图了。有时候我们有一堆数据却无从下手,那就来个“jojo” 方法:全部画出来。

例9

i# Load Dataset
import seaborn as sns
import matplotlib.pyplot as plt
# Load Dataset
df = sns.load_dataset('iris')

# Plot
plt.figure(figsize=(10,8), dpi= 80)
sns.pairplot(df, kind="scatter", hue="species", plot_kws=dict(s=80, edgecolor="white", linewidth=2.5))
plt.show()

解析

看下数据表的样子

此表记录了3中鸢(yuan)尾花的花瓣长宽,萼片长款,和品种。

sepal_length sepal_width petal_length petal_width species
0 5.1 3.5 1.4 0.2 setosa
1 4.9 3.0 1.4 0.2 setosa
2 4.7 3.2 1.3 0.2 setosa
3 4.6 3.1 1.5 0.2 setosa
4 5.0 3.6 1.4 0.2 setosa

代码流程

  1. 载入数据
  2. 画出不同品种的,花瓣、萼片长宽,观察规律

方法参数解释

sns.pairplot()

成对相关,会把表格中的特征两两组合画出并且对角线上表示列不变,其他变量的分布情况。

  • kind 可选择 scatter 散点或者reg 带回归线的。
  • polt_kws s 点大小 本例中选择kind=reg 时s无效。
  • hue 不同标签映射到不同颜色

图像

61.png

应用

这是十分有用统计分类方法。许多物体的尺寸,或者尺寸之比会在一定范围内。比如人体四肢比例接近0.6。对于上图重叠区间低于置信度区间的第四列,花瓣宽度就能作为很重要的分类依据。应该让他拥有较高的权重。所以很多难题解决不了只是我们没有发现那些关键的信息。

下期预告

误差图 —— 让程度看的见

例程来自:https://www.machinelearningplus.com/plots/matplotlib-histogram-python-examples//

感谢b站UP "菜菜TsaiTsai" 分享这个博客.

相关文章

网友评论

    本文标题:数据分析50图(六) —— 鸢尾花特征二元关联

    本文链接:https://www.haomeiwen.com/subject/cnjsiqtx.html