做了多年的分析师总归有一些感触,常规的业务分析基本都会围绕企业运营月度、年度指标达成率,然后在报告的结尾补上仍然可以提升的部分,提升部分一般可以分为两类,一类是利润价值较大的新产品可以推广,而改进的另一端则是做的不尽如人意的产品可以优化品质、规避风险地区销售降低损失间接提高利润率。今天我要聊得就是最后这一页内容的分析方法。
这里我举个轮胎厂商的例子,假设该厂的品质分析师有一张日更的报表,有多个字段而其中最主要的是5个核心字段,由于他负责品质监控所以对价格、利润、退赔金额、销量相对关注低一些,找到问题才是他的主要目的。
这张品质分析表每天最多会更新 3* 10 * 30 * 100 = 90000 条记录,他虽然年纪不大也算是个职场小法师,刚来单位的时候忙于学习excel函数、报表可视化以及各种高频率的周报材料整理,刚开始做品质分析时总是笨手笨脚地统计数据然后凭灵感分析,逐渐在分析了几个月后找到了规律。
常规分析套路:
1)先看整体指标走势即整体退赔率是否稳定,如出现了显著的上升就要启动一次全面的排查
2)层层下钻,针对轮胎类型分析是个例还是普遍上升
3)层层下钻,针对轮胎尺寸分析是个例还是普遍上升
4)层层下钻,针对轮胎型号分析是个例还是普遍上升
5)层层下钻,针对代理商分析是个例还是普遍上升
但实际上异常的源头可能出现在轮胎尺寸比如是工厂品控出现问题导致使用该批模具的轮胎都存在问题,也可能是轮胎型号(花纹)出了问题,某一批次的胶料品质部稳定,导致使用该胶料的型号都容易出现爆破,那么代理商会不会出问题?当然会,比如某一地区路况不佳,路面坑洼以及弯道较多或者地面温度特别高都会导致该地区的代理商大部分轮胎出现问题。所以任何维度都有可能成为主要原因,那么从数据结构上来说问题源的排列组合会呈现:
1代表当前字段中只有一个枚举值退赔率增长(如轮胎类型中只有轿车退赔率涨了),多代表多个枚举值(如轮胎类型中轿车和卡客车退赔率都涨了)都出现退赔率增长,只要整体指标出现了异常,每个维度都会有至少1个枚举值受到牵连,理论上不存在0个异常枚举值。
现在我们一起研究下红色这条数组,卡客车(假设)11R22.5(假设)的多个型号(花纹)在A代理商那出现了退赔率增长的情况,导致整体退赔率上升。其实这句话顺着说倒着说都是客观真实的,但是人的理解能力是无穷大的,我们可以通过调整顺序帮助读者更快理解问题的结点并供读者联想可能关联的事件。我们可以这么表达这句话:
A代理商的11R22.5(卡客车轮胎尺寸)多个型号出现了退赔率异常增长的现象,导致整体退赔率上升XX%
读者第一时间想到的是该代理商有没有发生过类似的事件,甚至已经有预感是不是又是那几家代理商由于当地路况问题引起指标了波动,宛如蝴蝶效应发生在你的报表,有一些变量下的枚举值就是那么的张扬和力挽狂澜。
可能每天都有数以万计的分析师在处理类似或更复杂的报表以期望从数据中排查出问题或者商机,一些相对年长的老法师会有一些蹊径分析方法,他们会跳过一些探索性的分析直导黄龙,那就是将所有的字段当做一个维度(算不算降维分析),直接排查退赔率最差的对象。可以预设一个警报阈值,一旦低于该阈值则对低于阈值的维度组合进行统计,然后就可以找共性识别异常的源头。
假设我们公司具备实时报警推送的技术能力和平台资源,可以用固定的模板加上一些计算逻辑帮助业务、产品、开发第一时间了解异常和提供必要信息帮助排查原因。按照话术的精准度和智慧程度可以分为四类等级:
1)最初级:只在整体发生了明显异常时发出报警,虽然看到消息的人能在宏观层面上得到了异常的信息,但要知道微观对象能影响到宏观层面往往说明微观影响很大且有一定时间的积淀,到发现时可能已经产生了很大损失;
2)初级:将异常指标对应完整的四个维度(本文中的轮胎案例)推送给接收人,如果因为一个代理商销售区域内路况非常糟糕,则可能会导致该代理商卖的大部分轮胎都会进入报警文本中,每小时都重复推送。但至少能通过不到1分钟的阅读就能找到其中的规律。但如果是多重原因导致不同维度同时出现异常,则接收到的雪花一样的数据还是得靠手动分析;
3)理想级:统计异常的共性,分别统计每个维度下涉及异常的枚举值个数,依次按照异常枚举值少至多输出报警话术。按照上文中红色的案例那样输出。如果要更完备可以添加枚举值相同时展示维度的优先级,但在处理每个维度都存在多枚举值时相对疲软,重点很难突出;
4)完美级:可识别多原因并发的现象,基于历史数据总结异常原因模型。
既然完美级的报警可能需要一些些机器学习分析的能力(如AIOPS智能运维),那我们可以让个步先做出理想级的报警产品。
报答数据的最好方式就是睡在数据里。
网友评论