Pandas（数据清洗）

作者: GHope | 来源:发表于2018-11-12 12:02 被阅读5次

data cleaning
Pandas（数据清洗）
Pandas数据清洗
pandas 数据清洗
爬虫分析之数据存储——基于MySQL,Scrapy
Pandas 基本使用(三) — DataFrame.to_di
pandas入门
《利用Python进行数据分析》 13.1pandas与建模代码
Pandas学习
pandas操作技巧

在数据分析和建模的过程中，相当多的时间要用在数据准备上：加载、清理、转换以及重塑。这工作会占到分析师时间的80%或更多。

pandas和内置的Python标准库提供了一组高级的、灵活的、快速的工具，可以让你轻松地将数据规整为想要的格式。

处理缺失数据

检测缺失数据

检测

在统计应用中，NA数据可能是不存在的数据或者虽然存在，但是没有观察到（例如，数据采集中发生了问题）。当进行数据清洗以进行分析时，好直接对缺失数据进行分析，以判断数据采集的问题或缺失数据可能导致的偏差。

Python内置的None值在对象数组中也可以作为NA：

None

滤除缺失数据

滤除缺失

DataFrame对象，dropna默认丢弃任何含有缺失值的行

丢弃含有缺失值的行

传入how=‘all’将只丢弃全为NA的行

丢弃全为NA的行

将特殊值置为NA之后进行相关操作

根据非NA的个数决定是否删除

填充缺失数据

fillna方法是主要的函数。通过一个常数调用fillna就会将缺失值替换为那个常数值。

常数替换

通过一个字典调用fillna，就可以实现对不同的列填充不同的值。

字典参数，实现分列填值

fillna默认会返回新对象，但也可以对现有对象进行就地修改。

默认返回对象，也可以就地修改

对reindexing有效的那些插值方法也可用于fillna

插值方法

传入Series的平均值或中位数

传入平均值

数据转换

移除重复数据

重复数据

DataFrame的duplicated方法返回一个布尔型Series，表示各行是否是重复行

判断是否是重复行

drop_duplicates方法，它会返回一个DataFrame，重复的数组会标为False

返回无重复行的数组

只希望根据k1列过滤重复项

指定列去重

duplicated和drop_duplicates默认保留的是第一个出现的值组合。传入keep=‘last’则保留最后一个

指定多列去重并选择保留值

利用函数或映射进行数据转换

根据数组、Series或DataFrame列中的值来实现转换工作

数据准备

添加一列表示该肉类食物来源的动物类型。我们先编写一个不同肉类到动物的映射

映射

使用Series的str.lower方法，将各个值转换为小写

完成映射

也可以传入一个能够完成全部这些工作的函数

一个函数搞定

替换值

数据准备

-999这个值可能是一个表示缺失数据的标记值。要将其替换为pandas能够理解的NA值

替换缺失数据

一次性替换多个值

替换多个缺失数据

让每个值有不同的替换值，可以传递一个替换列表

对应替换多个缺失数据

data cleaning
利用pandas 库进行数据清洗——实战练习这周的计划是用之前看过的pandas模块对具体数据做数据清洗并做数据...
Pandas（数据清洗）
在数据分析和建模的过程中，相当多的时间要用在数据准备上：加载、清理、转换以及重塑。这工作会占到分析师时间的80%...
Pandas数据清洗
原文：https://www.cnblogs.com/BoyceYang/p/8182053.html https...
pandas 数据清洗
缺失值填充：fillna()函数详解重复数据删除：https://blog.csdn.net/weixin_38...
爬虫分析之数据存储——基于MySQL,Scrapy
上一篇->爬虫练习之数据整理——基于Pandas上上篇->爬虫练习之数据清洗——基于Pandas 配置MySql ...
Pandas 基本使用(三) — DataFrame.to_di
Pandas 处理数据的基本类型为 DataFrame，数据清洗时不可必然会关系到数据类型转化问题，Pandas ...
pandas入门
pandas入门简介 pandas包含的数据结构和操作工具能快速简单地清洗和分析数据。 pandas经常与Num...
《利用Python进行数据分析》 13.1pandas与建模代码
第十三章 Python建模库介绍 13.1 pandas与建模代码的结合使用pandas用于数据载入和数据清洗...
Pandas学习
Pandas介绍 Pandas基于Numpy的一个第三方的工具库，Pandas主要是，用于做数据清洗方面的工作，如...
pandas操作技巧
本文中记录Pandas操作技巧，包含：导入数据导出数据查看、检查数据数据选取数据清洗数据处理：Filt...