美文网首页
缺失值处理

缺失值处理

作者: cHarden13 | 来源:发表于2020-04-12 19:42 被阅读0次

第三节-第六节:缺失值的处理

image

https://zhuanlan.zhihu.com/p/39171442

为何要对缺失数据进行分析探索?

1.单纯将缺失值删除会导致信息丢失
2.探索缺失数据有利于发现缺失形成的规律,从而找打插补方法。
eg:1.乳酸的缺失值可能是患者病情稳定。2.CRP的缺失可从WBC进行推断,从而形成插补。

数据缺失类型:

将数据集中不含缺失值的变量(属性)称为完全变量,数据集中含有缺失值的变量称为不完全变量。
1.完全随机缺失(MCAR:missing completely at ramdom ):缺失是完全随机的,不依赖任何其他完全变量和不完全变量,不影响样本的无偏性,实际的数据中这样的例子非常少见。
2.随机缺失(MAR:missing at random):数据缺失不是完全随机的,缺失依赖于其他的完全变量。如‘配偶年龄’的缺失依赖于‘婚姻状态’。
3.非随机缺失(MNAR:missing not at ramdom):数据缺失与不完全变量自身的取值有关。如一个病人乳酸值的缺失可能是由于他病情稳定,因此未行抽血检测乳酸值。即乳酸值的缺失与乳酸本身有关。这就是所谓的左删失数据(left-censored data)。

识别数据缺失

小样本时:is.na、dplyr包的Complete.case()函数
大样本时:mice包里的ma.pattern函数

缺失值处理

zhangzh里12345和reshape文件

相关文章

网友评论

      本文标题:缺失值处理

      本文链接:https://www.haomeiwen.com/subject/beibmhtx.html