美文网首页
数据分析学习记录W28——如何快速核算各字段的空值率

数据分析学习记录W28——如何快速核算各字段的空值率

作者: 演奏的船长 | 来源:发表于2020-04-21 18:25 被阅读0次

在数据分析过程中,常见的一个问题是数据表的字段繁多,条目数巨大。若不加筛选检视,不仅会给分析造成干扰——要花更多的时间才能翻出来自己需要的字段,更可能在开展分析后才发现关键的字段值有缺失,导致分析思路要调整,甚至分析结论有误。所以,在拿到数据的那一刻就能快速判断数据的基本质量,那些字段可用不可用,也即空值的比例,就显得尤为重要。
这段时间就在思考这个问题,目前找到了三种解决思路,在此进行一个梳理。

1. 使用Excel公式

这是我之前使用的方式,优点是上手容易门槛低,excel每个电脑都有装,公式也是现成的,马上就能应用;缺点是操作比较麻烦,如果数据源不是excel文件,就需要先从数据库导出或转换。如果遇到数据量很大的情况,就玩不转了。

2. 使用Python库里现成的指令

这个是听同事讲的,在Python的库中就有一个dataframe.info()的指令,以及更高级的 Pandas Profiling 包,可以快速列出数据表的基本信息。优点显而易见,指令简单,快速出结果。缺点也显而易见,就是得先入门Python。


image.png
3. 使用Tableau Prep

Prep本身就是处理数据的,所以自动会在每个下面显示出字段的名称类型空值等信息。这是它的优点,你可以一个字段一个字段的进行观察。缺点则是不够一目了然,而且还是要单独再打开一个程序,配置连接等等。


以上就是目前我找到三种核算空值率的思路,整体来说是“核算”有余,“快速”不足。还需要更进一步的思考和实践。

相关文章

网友评论

      本文标题:数据分析学习记录W28——如何快速核算各字段的空值率

      本文链接:https://www.haomeiwen.com/subject/ildpihtx.html