美文网首页
数据清洗的步骤和方法

数据清洗的步骤和方法

作者: 东日情书 | 来源:发表于2019-02-26 22:18 被阅读0次

数据清洗主要是把有用的数据留下,无用的数据删掉。

1.去除重复的数据

Pandas库:duplicated():找到重复数据,重复的数据方法返回false。

                drop_duplicates(): 找到重复数据,删除掉重复数据。

举例说明:df.duplicated(“name”); 找到name行中的重复数据,并且标记为false。

            df.drop_duplicates(‘age’);结果处理为 删除掉age列中的重复数据。

2.对于缺少数据的处理

1)先要找到缺少的数据

from pandas import DataFrame

df.isnull(): 判断数据是否为空值。

df.notnull(): 判断数据是否不为空值。

2)找到缺失值后要如何处理

你可以选择删除:df.dropna()

                        标记当行里数据全部为空时,才选择删除:df.dropna(how=‘all’)

                        当以列为单位删除时: df.dropna(how=‘all’,axis=1)

你可以选择用其他数值进行填补:

                        用问号填补空白数据:df.fillna(‘?’) 

                        用同一列上的前一个数据来填补:df.fillna(method = 'pad')

                        用同一列上的后一个数据来填补:df.fillna(method = 'bfill')

                        问题:如何用limit限制每列可以替代NAN的数目。

你可以选择用统计性数值的数据来替代:

                        用列上除控制之外的平均数来替代:df.fillna(df.mean()) (个数不包括空值)

                        用其他的列的统计数据来替代:df.fillna(df.mean()['高代':'解几'])(用解几列的平均值来替代高代列上的空值)

你可以选择指定数据来填补:

                        df.fillna({‘数分':100,'高代':0}) (意思是:数分列上的空值填补为100,高代列上填补的空值为0)

你需要清除字符型数据左右首尾的字符rstrip():

                        df['name'].str.rstrip('n')   //删除最右边的字符。如果是n,则删除n;否则,就删除最右边字符就OK。

                        

相关文章

  • 数据清洗的步骤和方法

    数据清洗主要是把有用的数据留下,无用的数据删掉。 1.去除重复的数据 Pandas库:duplicated():找...

  • 缺失值处理1

    数据预处理步骤有数据清洗、数据集成、数据变换、数据规约。实际工作中不是每一步都必须。 数据清洗包括缺失值和异常值,...

  • 数据清洗的步骤是什么(上)

    数据清洗工作是数据分析工作中不可缺少的步骤,这是因为数据清洗能够处理掉肮脏数据,如果不清洗数据的话,那么数据分析的...

  • 数据预处理

    总 数据预处理包括数据清洗、无量纲化、特征分桶、统计变换和特征编码等步骤, 数据清洗 无量纲化 说明 一般而言,原...

  • 大数据进行数据清洗的基本流程【详细讲解】

    数据清洗的基本流程一共分为5个步骤,分别是数据分析、定义数据清洗的策略和规则、搜寻并确定错误实例、纠正发现的错误以...

  • 大数据进行数据清洗的基本流程

    数据清洗的基本流程一共分为5个步骤,分别是数据分析、定义数据清洗的策略和规则、搜寻并确定错误实例、纠正发现的错误以...

  • 2. SPSS基本使用:数据清洗

    一、数据清洗的总体步骤 打开telco.sav文件 看下数据清洗的步骤,要拷贝(因为这里是样本,所以不用做这一步)...

  • 浅谈缺失值清洗的步骤和方法

    缺失值是最常见的数据问题,处理缺失值也有很多方法,建议按照以下四个步骤进行: 确定缺失值范围:对每个字段都计算其缺...

  • 浅谈格式内容清洗的步骤和方法

    如果数据是由系统日志而来,那么通常在格式和内容方面,会与元数据的描述一致。而如果数据是由人工收集或用户填写而来,则...

  • TorchText数据清洗与加载

    流程:1、数据清洗2、数据加载 基本步骤1、Load2、Split -> (train, validation, ...

网友评论

      本文标题:数据清洗的步骤和方法

      本文链接:https://www.haomeiwen.com/subject/xpctuqtx.html