常见的数据清洗

作者: sniche | 来源:发表于2019-01-28 15:23 被阅读0次

常见的数据清洗
【OFFICE 365】Excel 如何删除空格、非打印字符
sql学会这几步，数据分析就能立马掌握
像Excel一样使用SQL进行数据分析
像Excel一样使用SQL进行数据分析
数据
2018-03-07
09 特征工程 - 总结
从Excel到Python：最常用的36个Pandas函数
关于Excel，你一定用的到的36个Python函数

以kaggle竞赛的入门Titanic数据集为例：

一、处理空值

1、打印空值数目：
print("Training columns with null values:\n",training.isnull().sum())

print("-"*20)

print("Test columns with null values:\n",training.isnull().sum())

2、用平均值填补

dataset['Age'].fillna(dataset['Age'].median(),inplace = True)

3、用众数填补

dataset['Embarked'].fillna(dataset['Embarked'].mode()[0],inplace = True)

二、label_encoder对分类数据编码并生成dummy_variable

label=LabelEncoder()

for dataset in all:

dataset['Sex_Code']=label.fit_transform(dataset['Sex'])

dataset['Embarked_Code']=label.fit_transform(dataset['Embarked'])

dataset['Title_Code']=label.fit_transform(dataset['Title'])

data1_x=['Sex','Pclass','Embarked','Title','SibSp','Parch','Age','Fare','FamilySize','IsAlone'

training_dummy = pd.get_dummies(training['data1_x'])

data1_dummy.head()

三、对人名的处理

1、从人名中提取出title

dataset['Title']=dataset['Name'].str.split(", ",expand=True)[1].str.split(".",expand=True)[0]

常见的数据清洗
以kaggle竞赛的入门Titanic数据集为例：一、处理空值 1、打印空值数目：print("Training...
【OFFICE 365】Excel 如何删除空格、非打印字符
数据整理包括数据清洗，数据抽取，数据筛选，数据合并等。本节，我们将要学习的是 Excel 数据清洗中常见的操作，删...
sql学会这几步，数据分析就能立马掌握
什么，sql也能做分析？常见的数据清洗，预处理，，数据分类，数据筛选，分类汇总，以及数据透视等操作，用SQL一样...
像Excel一样使用SQL进行数据分析
Excel是数据分析中最常用的工具，利用Excel可以完成数据清洗，预处理，以及最常见的数据分类，数据筛选，分类...
像Excel一样使用SQL进行数据分析
Excel是数据分析中最常用的工具，利用Excel可以完成数据清洗，预处理，以及最常见的数据分类，数据筛选，分类...
数据
1、三种常见的清洗数据 1）重复值数据定义：把数据结构中，行数据相同的剔除 unique 函数语法： uniqu...
2018-03-07
Python文本数据与图像数据分析的常见技术文本分析：清洗与常见算法a) 正则表达式b) 分词与关键字提取图像分析...
09 特征工程 - 总结
08 特征工程 - 特征降维 - IDA 数据清洗常见流程异常数据处理案例 - 车辆数据预处理每个样本具有7...
从Excel到Python：最常用的36个Pandas函数
本文涉及pandas最常用的36个函数，通过这些函数介绍如何完成数据生成和导入、数据清洗、预处理，以及最常见的数据...
关于Excel，你一定用的到的36个Python函数
本文涉及pandas最常用的36个函数，通过这些函数介绍如何完成数据生成和导入、数据清洗、预处理，以及最常见的数据...