今天复习了可视化的两个重要的库:matplotlib和seaborn
主要记一下我做数据分析时候用这两个的一些思路,方便日后翻看复习:
1.单变量分析:
a.可先由df.describe()方法看一下要分组的数据型特征中的大致数据分布(可以重点关注一下mean和std倍数关系为1/2或者1/3的,个人小tip,因为标准差是数据波动程度,波动特别大的数据个人觉得有一定研究的代表性)
ps:标准差std小于0.9的特征列一般也没有研究的必要。
b. 方法:(都是简写,只为了记录一下,可能只有本人看得懂)
df.[features].plot(kind=“”)
sns.displot()
2.类别特征分析:
df[].value_counts()
可视化:sns.countplot()
3.多变量可视化:
a. 数值型画相关矩阵:可先用pd的.corr()方法,实现:
corr= df[].corr()
sns.heatmag(corr)
b. 两个数值型:
plt.scatter()
sns.joinplot()
c.数值型引入类别型变量:
sns.lmplot(hue=“”)
sns.boxplot()
d.类别与类别:
sns.countplnt()
或者建立类别表:
pd.crosstab()
网友评论