在数据分析过程中,常见的一个问题是数据表的字段繁多,条目数巨大。若不加筛选检视,不仅会给分析造成干扰——要花更多的时间才能翻出来自己需要的字段,更可能在开展分析后才发现关键的字段值有缺失,导致分析思路要调整,甚至分析结论有误。所以,在拿到数据的那一刻就能快速判断数据的基本质量,那些字段可用不可用,也即空值的比例,就显得尤为重要。
这段时间就在思考这个问题,目前找到了三种解决思路,在此进行一个梳理。
1. 使用Excel公式
这是我之前使用的方式,优点是上手容易门槛低,excel每个电脑都有装,公式也是现成的,马上就能应用;缺点是操作比较麻烦,如果数据源不是excel文件,就需要先从数据库导出或转换。如果遇到数据量很大的情况,就玩不转了。
2. 使用Python库里现成的指令
这个是听同事讲的,在Python的库中就有一个dataframe.info()的指令,以及更高级的 Pandas Profiling 包,可以快速列出数据表的基本信息。优点显而易见,指令简单,快速出结果。缺点也显而易见,就是得先入门Python。
![](https://img.haomeiwen.com/i2142737/c2b34f261a530c06.png)
3. 使用Tableau Prep
Prep本身就是处理数据的,所以自动会在每个下面显示出字段的名称类型空值等信息。这是它的优点,你可以一个字段一个字段的进行观察。缺点则是不够一目了然,而且还是要单独再打开一个程序,配置连接等等。
![](https://img.haomeiwen.com/i2142737/e4cc3b518961a921.png)
以上就是目前我找到三种核算空值率的思路,整体来说是“核算”有余,“快速”不足。还需要更进一步的思考和实践。
网友评论