1. 导入数据
加载数据集的方式有很多种,从数据库中加载,从文件中加载
names = ['preg','plas','pres','skin','test','mass','pedi','age','class']
df = pd.read_csv('data/pima-indians-diabetes.csv' , names=names)
这里涉及函数:read_csv
加载数据集的时候,我们需要知道,数据集的内容,分割符号等,如果是文件的话,可以先打开看一看。
2. 理解数据
-
查看下数据的具体内容:
df.head()
-
查看数据集的概要描述:
df.describe()
-
查看数据集的大小:
df.shape
-
查看字段的类型:
df.dtypes
3. 数据属性的相关性
数据属性的相关性,是指数据的两个属性是否相互影响 ,以及这种影响是什么方式的等
判断属性的相关性,会用到皮尔逊相关系数,相关系数,介于-1和1之间,1表示完全正相关,-1表示完全负相关。
在机器学习中,当数据的相关性比较高时,有些算法的性能会降低(linear、逻辑回归算法),当相关性较高时,可以考虑对特征进行降维处理
df.corr()
4. 数据的分布
通过分析数据的分布,来确认数据的偏离情况,这里有一个概念叫偏度
偏度(skewness)也称为偏态、偏态系数,是统计数据分布偏斜方向和程度的度量,是统计数据分布非对称程度的数字特征
正太分布的偏度为0;
偏度<0,则分布具有负偏离,即左偏(尾巴在左面);
偏度>0,则分布具有正偏离,即右偏(尾巴在右面)
pandas中,使用skew()
函数即可
网友评论