对于非数据行业从业者来着,最常用的数据分析工具是Excel。因为它不仅体积小,而且功能齐全,能满足绝大多数轻量级数据的统计和分析工作。是提升效率的不二之选。
但是,我们在实际操作的时候,却并没有发现效率提升有多少,甚至还降低了。
这时,我们一贯的操作是埋怨工具不好。而实际上,影响效率很大的一个原因出在了你收集数据时,设置的数据收集不恰当。比如下面这个数据结构。

上面这个结构不能说错,因为它是按照时间维度统计不同指标数据的,每一行数据是相对唯一。
但问题就在于,上面这个图的指标是有重复的。比如网民规模,它和手机网民数、非手机网民数这两个指标,表示的就是同一类数据,都指的是网民数量。
而且,上面这样的数据结构,不利于我们快速的检索数据。比如你只想看手机网民数,这时你就会发现并不好筛选,只能一列一列的看。
因此,我们收集数据的时候,要牢记两个原则:
- 每一列数据是相对独立的,代表着各自不同的数据指标。
- 每一行代表每一次的观察结果,你可以是时间维度,也可以是其他维度,唯独要保证是每一次的结果。
比如下面这个优化后的数据结构。

这样优化后,无论你是按时间统计数据,还是按类别统计数据,甚至是数据可视化,效率都比上一种数据结构更高。亲测有效的哟。
网友评论