美文网首页
《机器学习Python实践 》读书笔记-数据理解

《机器学习Python实践 》读书笔记-数据理解

作者: 橘猫吃不胖 | 来源:发表于2020-09-11 09:41 被阅读0次

    1. 导入数据

    加载数据集的方式有很多种,从数据库中加载,从文件中加载

    names = ['preg','plas','pres','skin','test','mass','pedi','age','class']
    df = pd.read_csv('data/pima-indians-diabetes.csv' , names=names)
    

    这里涉及函数:read_csv
    加载数据集的时候,我们需要知道,数据集的内容,分割符号等,如果是文件的话,可以先打开看一看。

    2. 理解数据

    • 查看下数据的具体内容:df.head()

    • 查看数据集的概要描述:df.describe()

    • 查看数据集的大小:df.shape

    • 查看字段的类型:df.dtypes

    3. 数据属性的相关性

    数据属性的相关性,是指数据的两个属性是否相互影响 ,以及这种影响是什么方式的等

    判断属性的相关性,会用到皮尔逊相关系数,相关系数,介于-1和1之间,1表示完全正相关,-1表示完全负相关。

    在机器学习中,当数据的相关性比较高时,有些算法的性能会降低(linear、逻辑回归算法),当相关性较高时,可以考虑对特征进行降维处理

    df.corr()
    

    4. 数据的分布

    通过分析数据的分布,来确认数据的偏离情况,这里有一个概念叫偏度

    偏度(skewness)也称为偏态、偏态系数,是统计数据分布偏斜方向和程度的度量,是统计数据分布非对称程度的数字特征

    正太分布的偏度为0;
    偏度<0,则分布具有负偏离,即左偏(尾巴在左面);
    偏度>0,则分布具有正偏离,即右偏(尾巴在右面)

    pandas中,使用skew()函数即可

    相关文章

      网友评论

          本文标题:《机器学习Python实践 》读书笔记-数据理解

          本文链接:https://www.haomeiwen.com/subject/eeaeektx.html