(一晃有一年多没有动笔写东西了。最近的各种变化,促成了写一些“小感”的意愿,给自己过去的一年半,一个交代。)
当下,正在组建一支初步定位于“数据产品”的团队。回顾过去带一支商业分析团队,与公司内各种角色的配合经历,有个问题越来越困扰我:我们做的是数据分析么?
从我个人角度,做些不准确的抽象:
- 统计业务指标,附加业务信息,多渠道呈现。
- 用数字和浅层的图表,描述业务状况。
- 量化业务目标,形成KPI,然后层层拆解与核对。
- 以业务动作和特性,解释业务结果,再用数据来“贯通”这个过程。
- 从业务理解出发,用数据搭建运营框架或产品框架。
- 数据源治理,数据表设计,指标管理。
- 罗列多个指标,从一些模棱两可的结论中,选出出某些“洞察”或者“策略”。
- 先有判断,或者先有目的,再用数字“验证”。
- 根据业务需求,交付需求方想要的“东西”。
- 。。。
这些工作,都有价值,也都有逻辑可循,并没有对错及好坏。但这些是数据分析么?换个角度思考,上述做法,有许多并不是“分析”,而有的是“分析”,但分析的是业务问题或者商业问题。
不是“分析”的工作,一定条件下可以往“分析”转变,或者以“分析”作为支撑。而何谓“分析”?讨论“分析”这个定义,我们需要从“起点”、“对象”、“目的”、“路径”、“评价”几个维度展开。起点是什么?往往最关键。
再往下问一层,就是数据分析的起点是什么?从我个人角度看:
“数据分析的起点应该是蕴含在可获取的量化数据集中的有效信息。”
怎么理解这句话呢?
首先,“量化数据集”,可理解成“标尺”。举个栗子,客户吐槽产品体验的一段文本,不是量化数据集,而从文本转化而来的客户满意度分值,是量化数据集。
其次,“有效信息”,是指量化的数据,需要有实际的业务含义。举个栗子,根据客户吐槽文本,转化而来的对产品的喜好分值,是有效的;而文本中“的”字的使用次数,也是个量化的结果,但一般就不是有效的信息。
最后,是“可获取”,是指在成本可接受的情况下,能收集到,或通过商业理解及算法能“挖掘”而出的可能。再来个栗子,用户通过各种方式向好友推荐产品的次数,也许花再多的钱和精力,也统计不到俩人见面吃饭时候聊天的内容;但是却有可能挖掘用户在线上与好友互动的行为,由算法评估出推荐的程度。
从起点,业务分析 VS 数据分析
为什么要这么拆开来看呢?这两者不应该是一体么?
从前我也这么认为,但渐渐地我发现,现在的分析师们,也许太沉溺于皮毛的业务描述,而丢掉了从“量化数据集”中挖掘信息的能力。我希望以“起点”的讨论,激起大家的思考,填补日常工作当中也许已经缺失很久的部分。
业务分析(或者说商业分析)的起点,往往是业务问题。往细了说,也许是举棋不定需要做的决策,也许是需要验证的某个功能,也许是需要看清楚形势,也许是需要用于争取资源的“支撑”,也许。。。
以我的观察,日常工作中,往往是需求方以这些起点,直接引申成了分析需求;而分析师丢失了将业务起点转换为数据分析起点的过程,或者说不具备这个能力。再加上分析师往往不够理解业务本质,不了解业务执行细节,没有全面的信息来源,导致后续的执行链条,和对数据的应用,全都在浅层的业务逻辑上打转。
我的观察也许比较片面,但读者可以根据下面的列表,判断一下自己是否有如下表现。若有,说明忽略了“数据分析的起点”,应该反思怎么做,能回归数据分析,找到业务解读和数据解读的平衡。
- 对取好的数据,拿来就用,不做数据集的认知,检验数据质量,比如空值、异常值、数据分布、全距、方差标准差、变异系数等等。
- 对数据字段的加工,只做汇总和算数平均,不做字段内的数学转化,如对数化、标准化或离散化;也不做字段间的组合运算或模型转化,如指数化、PCA、线性拟合、指示函数化等。
- 对于时间序列数据,只会用折线图展示原始指标或者初步汇总的数据,缺乏趋势线、预测线、异常值、波动范围等辅助观察手段;缺乏周期性的观察和检验;缺乏时间序列之间的相关性观察和检验。
- 对于截面数据,只会展示数值,而不考虑组合排序、离散化、编码、横向对比、模糊聚类、异常值识别等处理。
- 对于表格或者数据对比场景,只展示环比或者同比,缺乏累计同比、定基比、差分、双重差分、交叉对比、与外部输入信息对比等多角度的对比方式。
- 在需要分层或者分类的场景中,只是对指标进行取舍,只通过2-3个指标数值的分段,“切豆腐块”。缺乏多维下的聚类、异常识别等处理;也缺乏多指标降维的处理,及指标间关系的研究。
- 在预测性问题中,只用线性回归,且不严谨考虑回归的拟合效果;而不尝试多种方法对比,或分阶段建模,或搭建集成模型。(见过许多R平方值0.5以下的结果,也对外展示的报告)
- 。。。
暂且列举这么多,如果大家命中了以上列表,真的需要静下心来想一想,脱离了数据分析的起点,你的分析价值会有多大?
网友评论