美文网首页
数据分析-整洁的数据

数据分析-整洁的数据

作者: feng_zhenrong | 来源:发表于2020-04-21 17:46 被阅读0次

    什么是整洁的数据?

    你的数据应该以一种整洁的格式存在。简单来说,整洁数据集是满足以下条件的一种表格数据集:

    每个变量占一列(Each variable is a column)

    每个观察值占一行(Each observation is a row)

    每种观察单位是一个表格(Each type of observational unit is a table)

    下面的前三张图片描述了一个整洁的数据集。这个整洁的数据集来自医疗保健领域,有两个表格:一个是患者表格(包括患者 ID、姓名和年龄),一个是治疗表格(包括患者 ID、患者服用的药物 Drug,以及药物剂量 Dose)。

    整洁数据集的每个变量都必须具有自己的列 整洁数据集的每个观察值都必须具有自己的行 整洁数据集每个观察单位都必须具有自己的表格

    下一张图片描述了相同的数据,但是呈现为一种非整洁模式(还有可能存在其他非整洁模式)。Drug ADrug B 和 Drug C 列应该组成一个 “Drug” 列,因为这些药物都属于一个变量。整个表格应该拆分为两个:一个患者表格和一个治疗表格。

    该非整洁数据集只遵守了整洁数据集第二条规则,每个观察值占一行

    如果还想了解更多信息,可以查阅 Python 中的整洁度数据 这篇文章的作者是 Jean-Nicholas Hould

    参考文献:优达学城

    相关文章

      网友评论

          本文标题:数据分析-整洁的数据

          本文链接:https://www.haomeiwen.com/subject/jsspihtx.html