美文网首页数据清洗我爱编程Pandas.Numpy.
利用Python Pandas进行数据预处理-数据清洗

利用Python Pandas进行数据预处理-数据清洗

作者: Always_6778 | 来源:发表于2017-04-06 12:49 被阅读955次

数据缺失

数据缺失在大部分数据分析应用中都很常见,Pandas使用浮点值NaN表示浮点和非浮点数组中的缺失数据,他只是一个便于被检测出来的数据而已。

Python内置的None值也会被当作NA处理

处理NA的方法有四种:dropna,fillna,isnull,notnull

is(not)null,这一对方法对对象做出元素级的应用,然后返回一个布尔型数组,一般可用于布尔型索引。

dropna,对于一个Series,dropna返回一个仅含非空数据和索引值的Series。

问题在于DataFrame的处理方式,因为一旦drop的话,至少要丢掉一行(列)。这里解决方法与前面类似,还是通过一个额外的参数:dropna(axis=0,how=’any’,thresh=None),how参数可选的值为any或者all.all仅在切片元素全为NA时才抛弃该行(列)。thresh为整数类型,eg:thresh=3,那么一行当中至少有三个NA值时才将其保留。

fillna,fillna(value=None,method=None,axis=0)中的value除了基本类型外,还可以使用字典,这样可以实现对不同列填充不同的值。

另一个过滤DataFrame行的问题涉及问题序列数据。假设只想留一部分观察数据,可以用thresh参数实现此目的:

不想滤除缺失的数据,而是通过其他方式填补“空洞”,fillna是最主要的函数。

通过一个常数调用fillna就会将缺失值替换为那个常数值:

若是通过一个字典调用fillna,就可以实现对不同列填充不同的值。

可以利用fillna实现许多别的功能,比如可以传入Series的平均值或中位数:

检测和过滤异常值

异常值(outlier)的过滤或变换运算在很大程度上就是数组运算。如下一个(1000,4)的标准正态分布数组:

DataFrame的duplicated方法返回一个布尔型Series,表示各行是否是重复行。

与此相关的还有一个drop_duplicated方法,它用于返回一个移除了重复行的DataFrame:

上面的两个方法会默认判断全部列,也可以指定部分列进行重复项判断,假设还有一列值,而只希望根据k1列过滤重复项。duplicates和drop_duplicates默认保留第一个出现的值组合。传入take_last=True则保留最后一个

相关文章

  • 利用Python Pandas进行数据预处理-数据清洗

    数据缺失 数据缺失在大部分数据分析应用中都很常见,Pandas使用浮点值NaN表示浮点和非浮点数组中的缺失数据,他...

  • data cleaning

    利用pandas 库进行数据清洗——实战练习 这周的计划是用之前看过的pandas模块对具体数据做数据清洗并做数据...

  • Python pandas

    在Python中,pandas是基于NumPy数组构建的,使数据预处理、清洗、分析工作变得更快更简单。pandas...

  • 2019-10-12

    原文请看利用Python进行数据分析(10) pandas基础: 处理缺失数据 利用Python进行数据分析(10...

  • 数据预处理(pandas and sklearn)

    使用python的pandas和sklearn库对数据进行预处理 数据 参考https://blog.csdn.n...

  • Python pandas用法

    介绍 在Python中,pandas是基于NumPy数组构建的,使数据预处理、清洗、分析工作变得更快更简单。pan...

  • 利用Python Pandas进行数据预处理

    Pandas的数据结构: Series:一维数组,与Numpy中的一位Array类似。二者与Python基本的数据...

  • pandas索引取数

    注:《利用python进行数据分析》的学习笔记-pandas import pandas as pd import...

  • 用Python进行数据分析 第五章 Pandas入门 上

    Pandas是贯穿Python的主要工具,它所包含的数据结构和数据处理工具的设计使得在Python中进行数据清洗和...

  • Pandas学习笔记

    Pandas 简介 Pandas是Python中进行数据处理的一个常用库,利用Pandas可以高效地处理格式化数据...

网友评论

    本文标题:利用Python Pandas进行数据预处理-数据清洗

    本文链接:https://www.haomeiwen.com/subject/ujafattx.html