对比分析(如同比、环比),是数据分析中,最简单、常见的分析方法。不仅是数据分析师,几乎人人都会用,但不一定都能用对。【文末附对比分析错误案例解析】
简单常见的对比分析最经常出现的四大错误:
错误一:对比对象不一致
美国历史上有一个海军的征兵宣传:与西班牙交战期间,美国海军死亡率为千分之9,而同期纽约市的居民死亡率为千分之16。所以参军更安全!
这个案例的问题在于对比的对象范围不同:一边是身强力壮的参军小伙,另一边的纽约居民包含了更多范围如自然死亡、老弱病残、交通事故、刑事犯罪等问题。
同样的问题也频繁出现在新闻里,如《外卖小哥薪资远超白领》:显然将外卖小哥行业中薪资最高的那一小撮人与普通白领“降维比较”自然就可以得出这样的结论。
错误二:时间范围不一致
例如某应聘HR的简历上有这样的自我宣传,前公司以前销售员的离职率是12%,而该HR到岗后,公司销售员的离职率下降至4%。
这时,作为专业的数据分析师,必须要问多一句:这两个指标的计算时间范围是否一致?是否都是按月/季度/年计算?
错误三:定义、计算逻辑不同
业务指标背后的数学公式有很多变形,如果没有统一好,这样的对比也是没有意义的。
复杂的指标,例如重购金额,因为业务需求不同,如何定义“重购行为”就很容易产生误差:
曾经注册过的会员,回柜消费,就算是重购
仅曾经消费过的人,回柜消费,才算重购
再比如,当月完成首次消费和二次消费的会员,在计算当月重购指标时,也会有困难:如果按消费行为,将首次消费算入首购金额,二次消费订单算入复购,但这个会员是否可算入重购会员中?
所以,每当看到指标对比时,要第一反应想起背后的计算公式是否在同一语境下。
错误四:数据源不一致
数据源错误的问题很隐蔽,一个常见的场景就是在尚未建立数据中台的企业里,业务部门有不同的信息系统存储数据,例如订单数据就可以存在在ERP系统、POS系统、CRM系统中,数据在系统之间流转,难免会产生误差,所以即使是同样的数据计算指标,在CRM系统里计算出来,和在ERP系统里计算出来可能会有误差。
此外,随着业务需要,系统维护升级是家常便饭,在升级过程中,数据同步往往会有波动,这时候再去计算指标,或许会得到不一样的结果。
所以不同业务部门之间进行指标对比时,要放在同一语境下,才有意义。
【实战案例】数据同比分析中常见的【同比错误】
案例一:【日销售报表】分析中,2021年1月4日的零售额同比2020年1月4日下降30%,所以2021年1月4日销售存在问题?
实际上,结合具体行业思考,如果是在季节/周期性较强的零售业,这样的对比并没有实际意义:因为2021年1月4日是工作日,而2020年1月4日是周六,根据常识,周末的人流一定会更多,进而各方面的销售指标也更优。


也就是说对于零售企业来说,这两个日期处在不同业务场景,所以不能这样直接比较。
同样的原则(【是否周末】)可以延展到【是否节日】,如情人节与情人节同比、圣诞节与圣诞节同比。
此外,还有隐藏比较深的【放假周期】:今年十一放七天假,上一年是否也是同样地放七天假;【活动周期】:尤其是在天猫等电商行业,每年的双十一活动周期都不一样,例如2020年双十一与2019年相比,多了11月1日-3日的正式销售高峰,所以在做同比时,数据指标期望上应该有所调整。
案例二:假设不考虑疫情影响,【月报分析】中,2021年2月的销售同比2020年2月下降5%,所以2021年2月销售存在问题?
此时我们不得不借助【日历】来判断这样的分析是否合理。
1、【销售日数】查看日历就可以发现:
2020年是平年2月有28天
2021年是闰年2月有29天
所以相差1天的背景下,销售有差距是否合理?
2、【是否节日】此外,再来看日历也会发现:
2020年春节在1月25日

2021年春节在2月12日

对于零售企业,是否存在春节档期的销售更好的情况?如果是的话,有节假日的月份销售是否应该比没有节假日的同期2月更多才对呢?
3、【周末数量】再来重新观察日历:
2020年2月有9个周末

2021年2月只有8个周末

正如案例一里讨论的,零售行业相差一个周末,可能销售数据就是百分之几的差距。
所以综合以上几点,再来判断2月销售表现可能更合理一些。
网友评论