美文网首页数据分析
第二章-第一节(数据清洗)

第二章-第一节(数据清洗)

作者: QuietRG | 来源:发表于2021-08-19 17:48 被阅读0次

    刚开始先补充一下上一节课拉下的东西 完成的仅有 第一章的第一节 剩下的第二节与第三节 赶紧补上
    后续的两节 主要的是理解 pandas的两种数据格式 DataFrame 与 Series 这里的一个简单的认知 D是表格 S是键值对 都是一个二维的数据 简单的学习了对于表格的查询操作 主要的还是要多练练手 多完成几个有意义的项目

    整体信息(直观).png

    对于缺失值的处理
    两种方法 dropna 与 fillna 主要的都是针对 np.nan这个值类型

    dropna.png
    image.png
    删除np.nan 参数的类型 默认按照行进行处理 axis='columns' 按照列进行删除 删除的方式 默认的是任意一个
    默认的类型都不在原表上进行操作

    fillna 参数类型

    fillna.png
    替换值 将np.nan进行替换
    传播非空值 method=''ffill' '
    fillna参数.png
    问题 image.png
    自己感觉并不是所有的空值 都是np.nan的形式 自己也不知道那个更好一些

    cut 与 qcut 对数据进行分箱(离散化)处理
    参数有三个 分割的列明 分割的规则 分割后的标签

    image.png
    查看文本变量及其种类 df.values_counts()
    df.unique() 查看名称

    替换列名 replace 两个参数 替换谁 替换成什么
    map 键值对 方式进行替换

    提取特征

    利用正则表达式

    相关文章

      网友评论

        本文标题:第二章-第一节(数据清洗)

        本文链接:https://www.haomeiwen.com/subject/rqhabltx.html