近几年来,在广告领域里大数据及用户画像技术已经变成“常规武器”,关于大数据价值的思考也开始向实用化方向延伸。如果你做的技术恰好有合适的业务指标进行评价,那么恭喜你,你自然的有了评价自己工作效果的手段,如果你恰好在“专注”的做数据供给各个业务部门或其它第三方公司使用那很“不幸”,你面临最大的问题和困惑就是:如何证明你的产出是优秀的对业务有提升的?因为仅仅证明你做的是对的是不足以打动数据使用者的。
“做对”就是件不容易的事情
很多人觉得目前大数据平台技术和机器学习开源包使得做对是件很容易完成的事情,无非就是工程化的过程而已,其实事情往往不那么简单。
数据管理平台基本架构从上述的数据管理平台的基本架构可以看出,从数据收集->数据处理->数据服务是一个流程比较长的过程,期间还伴生着很多要这个流程正常运作的基础类目及运营监控,每个地方略有疏忽都会影响到数据的对外服务。而往往很多时候这些东西因为没有产出而被“忽略”,因为大家可以很“正确”的说,如果没有好的产出,这些东西都是没有价值的,很“神奇”的是对于这种观点即便觉得有那么点儿不对可是总体上说的好像也没有错。其实做数据是件很“严谨(苦逼)”的事情,上述的每个地方做的不好怎么可能有好的产出呢?
"做好"是件更不容易的事情
如何评价一个数据管理平台的产出是好还是坏本身就是个难题,往往现在的数据平台在对外交流的时候说的都是自己的数据源如何如何的覆盖高数据准,很少会提自己的技术多好多先进,为什么呢?因为前者比较好理解,后者很难说清楚。也有些会说自己做的对,但是不保证“好用”,因为各自的业务的差异。
可是如果你是个弱势的第三方或者公司里边的一个部门,如果不说清你做得“好”,如何评价你的价值呢?所以还是要建立一些指标来对产出进行评价。
经过多年的探索,业界渐渐形成一套不太完善的评估体系,该体系大体可以分成两个部分:离线评估与在线评估。每个阶段有些自己的指标:
离线评估
步骤1:用户重合度
步骤2:标签的准确率(有监督和基于规则)
半手工的方式进行,基于监督数据或规则与用户行为分析判断标签的准确性。
(结合规则的使用率和日志覆盖度及人群标签的分布)
步骤3:标签的覆盖度
统计标签及各个子类的人群覆盖度,流量覆盖度。
在线评估
在线评估根据对线上指标的影响分析,对数据进行评估。
其实离线评估或许还相对客观可衡量,在线评估就相对比较难。因为从数据多业务指标可能还隔着很远的“路程”,影响的因素也千变万化,但从概率上来分析这种评估方式还是可以被各方接受的。
总结
做数据价值的评估是件难做的事情,可是也不是无规律可循的,认认真真把每一个步骤做好才能得到期待的结果(虽然这个事情很难)。做任何事情的第一个步骤就应该是制定评价标准,这样做事情才能确定方向。“神化”和“工程化”数据平台技术都是片面的,大数据正在照进现实,扎扎实实的做好每个步骤,确确实实的支撑业务才是正道。
网友评论