美文网首页
常见的数据清洗

常见的数据清洗

作者: sniche | 来源:发表于2019-01-28 15:23 被阅读0次

以kaggle竞赛的入门Titanic数据集为例:

一、处理空值

1、打印空值数目:
print("Training columns with null values:\n",training.isnull().sum())

print("-"*20)

print("Test columns with null values:\n",training.isnull().sum())

2、用平均值填补

dataset['Age'].fillna(dataset['Age'].median(),inplace = True)

3、用众数填补

dataset['Embarked'].fillna(dataset['Embarked'].mode()[0],inplace = True)

二、label_encoder对分类数据编码并生成dummy_variable

label=LabelEncoder()

for dataset in all:

dataset['Sex_Code']=label.fit_transform(dataset['Sex'])

dataset['Embarked_Code']=label.fit_transform(dataset['Embarked'])

dataset['Title_Code']=label.fit_transform(dataset['Title'])


data1_x=['Sex','Pclass','Embarked','Title','SibSp','Parch','Age','Fare','FamilySize','IsAlone'

training_dummy = pd.get_dummies(training['data1_x'])

data1_dummy.head()

三、对人名的处理

1、从人名中提取出title

dataset['Title']=dataset['Name'].str.split(", ",expand=True)[1].str.split(".",expand=True)[0]

相关文章

  • 常见的数据清洗

    以kaggle竞赛的入门Titanic数据集为例: 一、处理空值 1、打印空值数目:print("Training...

  • 【OFFICE 365】Excel 如何删除空格、非打印字符

    数据整理包括数据清洗,数据抽取,数据筛选,数据合并等。本节,我们将要学习的是 Excel 数据清洗中常见的操作,删...

  • sql学会这几步,数据分析就能立马掌握

    什么,sql也能做分析? 常见的数据清洗,预处理,,数据分类,数据筛选,分类汇总,以及数据透视等操作,用SQL一样...

  • 像Excel一样使用SQL进行数据分析

    Excel是数据分析中最常用的工具 ,利用Excel可以完成数据清洗,预处理,以及最常见的数据分类,数据筛选,分类...

  • 像Excel一样使用SQL进行数据分析

    Excel是数据分析中最常用的工具 ,利用Excel可以完成数据清洗,预处理,以及最常见的数据分类,数据筛选,分类...

  • 数据

    1、三种常见的清洗数据 1)重复值数据 定义:把数据结构中,行数据相同的剔除 unique 函数语法: uniqu...

  • 2018-03-07

    Python文本数据与图像数据分析的常见技术文本分析:清洗与常见算法a) 正则表达式b) 分词与关键字提取图像分析...

  • 09 特征工程 - 总结

    08 特征工程 - 特征降维 - IDA 数据清洗常见流程 异常数据处理 案例 - 车辆数据预处理 每个样本具有7...

  • 从Excel到Python:最常用的36个Pandas函数

    本文涉及pandas最常用的36个函数,通过这些函数介绍如何完成数据生成和导入、数据清洗、预处理,以及最常见的数据...

  • 关于Excel,你一定用的到的36个Python函数

    本文涉及pandas最常用的36个函数,通过这些函数介绍如何完成数据生成和导入、数据清洗、预处理,以及最常见的数据...

网友评论

      本文标题:常见的数据清洗

      本文链接:https://www.haomeiwen.com/subject/twmfdqtx.html