美文网首页
泰坦尼克:缺失值概况

泰坦尼克:缺失值概况

作者: 巴拉巴拉_9515 | 来源:发表于2017-06-28 11:42 被阅读0次

01、原始数据

有两个数据集:train和test数据集
(1)train数据集包含12个变量,891条数据
(2)test数据集只有11个变量,缺少一个“是否生存”的变量,一共有418条数据


原始数据

02、缺失值查看

缺失值处理参考

2.1、train数据集

(1)使用VIM包,查看整个数据集缺失情况。可以发现train数据集中age变量缺失严重,缺失177个数值
(2)查看具体哪几行的Age变量缺失
(3)验证一下age变量缺失行数

library(VIM)  
aggr(train,prop=FALSE,numbers=TRUE)
#查看age具体哪几行缺失
a<-train$PassengerId[is.na(train$Age)]
a
length(a)  #177
train数据集 具体缺失哪几行
2.2、test数据集

(1)test数据集中age变量和fare变量缺失
(2)age缺失86个
(3)fare缺失一个

library(VIM)
aggr(test,prop=FALSE,numbers=TRUE)
#-------------------------------------------------------------->age
age<-test$PassengerId[is.na(test$Age)]
age
length(age)   #86
#-------------------------------------------------------------->fare
fare<-test$PassengerId[is.na(test$Fare)]
fare   #1044
length(fare)  #1
test数据集

03、缺失值处理

来幅没什么关系但漂亮的图
3.1、mice包

R中的mice包通过合理的数据值可以帮助我们填充缺失值。
这些合理的数据值都是从一个分布中得到的,这个分布是根据缺失数据点的特定情况设计的

3.2、Age变量缺失值处理

由train缺失值展示可以知道,Age变量缺失值严重
使用mice函数做变量处理,完成缺失值填充

set.seed(129)
library(mice) 
#mice函数进行插补缺失数据,某些不太有用的变量删除掉
mice_mod <- mice(full[, !names(full) %in% c('PassengerId','Name','Ticket',
'Cabin','Family','Surname','Survived')],method='rf') 
mice_output <- complete(mice_mod)
结果
3.3、Age与存活关系

右侧图显示在泰坦尼克灾难中,大部分男性是死亡的;
女性的生存率比较高,并且高龄女性的存活率很高

女男、年龄、存活的关系

相关文章

  • 泰坦尼克:缺失值概况

    01、原始数据 有两个数据集:train和test数据集(1)train数据集包含12个变量,891条数据(2)t...

  • Titanic-2

    接着上一篇文章,本文上对泰坦尼克数据进行清洗和建模的部分。 数据清洗 缺失值补充:age 缺失量为263,缺失量比...

  • pandas数据缺失处理

    在泰坦尼克号(取自Kaggle)的数据集的feature age中有很多缺失值。我们可以通过以下方法来查找这些缺失...

  • 1111总结,missing value,文本操作,datafr

    missing value 缺失值 检测缺失值,丢弃缺失值,填充缺失值,缺失值一般不会被计算 pd.isnull(...

  • 【python】数据清洗

    1.处理缺失值 判断是否含缺失值/统计缺失值 筛选所有含缺失值的表格 删除含缺失值的数据 用新值填充空值 对应值替...

  • Pandas_3 处理缺失值、数据透视表以及apply的用法

    1.处理缺失值 Pandas使用NaN(Not a Number)来表示缺失值 1.1判断是否存在缺失值以及缺失值...

  • 数据的缺失值处理说明

    缺失值说明 缺失值产生的原因 缺失值处理 缺失值说明 缺失数据是指粗糙数据中由于缺少信息而造成的数据的聚类、分组、...

  • 数据挖掘中的预处理

    【数据清洗】Part 1:缺失值处理 忽略元组 人工填写缺失值 使用一个全局常量填充缺失值:例如将缺失值用“Unk...

  • DataWhale金融风控打卡记录 Task02

    Task02 1.学习目标 1.1学习如何对数据集整体概况进行分析,包括数据集的基本情况(缺失值,异常值) 1.2...

  • 102-mlr3之德国信用卡案例1

    1、数据准备与数据理解 其中credit_risk为结果变量,表示信用卡风险情况。查看数据集缺失值等概况。 Tab...

网友评论

      本文标题:泰坦尼克:缺失值概况

      本文链接:https://www.haomeiwen.com/subject/jmfucxtx.html