美文网首页数据科学家成长之路数据@产品
为什么数据对齐这么难?(数据质量系列之一)

为什么数据对齐这么难?(数据质量系列之一)

作者: 老树之见 | 来源:发表于2018-02-13 08:57 被阅读65次

    (文章始发个人公众号:川术;欢迎关注)

    引言

    作为数据分析师,我们的日常工作中,“核对数据”在所难免;某些“命途多舛”的时节,甚至几天都在解决口径核对的问题。同样的一个指标名称,数值却千差万别;各方有各方的说辞,听上去都有道理,可凑到一起,除了“撕逼”再无其他。为了解决这样的困局,最近我开始介入到口径治理这样的项目中。折腾快一个月,发现自己最初也低估了事情的难度。打算边干,边总结,边写,写成一个数据质量系列。希望这段经验能为更多人所用。

    原因剖析

    一、对数据业务发展阶段没有准确的认知

    我所在的是某互联网独角兽公司。在这样的公司,大家往往会产生“我们数据量很大=我们的数据很全面=我们的业务是数据驱动的=我们能用好数据=我们能把数据分析做好”的美好幻觉。说实话,这个幻觉只有第一部分准确,而往往是数据量极大,才会使得后面的问题更加突出。本文的目的并不是一一戳破幻觉,因此暂不展开。

    数据业务发展阶段的认知
    如上图,我是这么总结一个公司或者部门的数据业务发展阶段。要做到口径清晰,人人用对,至少发展到“分析师能描述&业务方懂量化”的程度。而现实是,我们还没有达到“分析师取对数&业务方要数据”的层次。
    何谓“能描述”?即分析师能深入理解业务上下文,能构造一个或者多个信效度都优秀的指标,将业务问题准确表达。何谓“懂量化”?即业务方(数据结果的使用者),能够理解分析师构造的指标逻辑和目的,能够将指标的变化与业务变化对应上,并且在表达和应用中,保持“同名同意”。

    二、数据基础设施不健全

    取相同指标,10个人有10个数据源外加10种sql写法,3个环节都还会出错,要对齐,概率比中500万高不了多少。因此,在数据基础设施上总结起来就一句话:“异人,同源,同路,同法”。同源,即将数据分析师应用的数据源尽量减少。数据仓库的层次清晰:

    • 最细颗粒度的底层表,不同主体具备唯一性,专人高频维护。
    • 不同业务部门的数据汇总需求,做成主题式的表或视图,继承于唯一性的底层表。
      同路,即指标维护有相应的平台;核心指标的口径和样例代码,长期稳定,变更要有严格审核流程。
      同法,即不同的分析师遵照同一平台和规范,定义指标并写代码。
      (数据基础设施完善是一个专题,会有专门讨论的文章。)

    三、数据使用者高估自己的头脑

    前面说到过数据量大造成的一系列幻觉。其中“我们是数据驱动=我们能用好数据”这个环节,尤其容易蒙蔽双眼。老板强调“数据驱动决策”本没有错,但并不意味着强调了,我们就掌握数据驱动。很营养的东西吃多了,并不会身强体健,而会消化不良。这当中有一个“学习消化”的环节。
    训练自己的大脑,使其具备更清晰的逻辑思维能力,更多样化的思考框架,是应用数据的前提。现实情况中,我们总会发现,不管是分析师还是业务人员,面对着一堆数据、图表或者模型结果,不知所云;管理层听得似懂非懂,听众不懂装懂。我们大多数人(包括90%时间的我自己),面对问题和数据,只能应用最低效的思考方式,说好听点叫“启发式思维”,说难听点就是“想一出是一出,全靠蒙”。不训练,哪来的脑力提高?
    举一个更具体的例子,我称之为“数据质量悖论”:

    因为数据对不上的问题,许多业务人员没有安全感,会从多个数据源(多个分析师或者多个数据产品)取数核对,而多个数据源的计算逻辑是他们的“脑力”所不能支持的,因此会有更多核对不上的问题,造成更大的不安全感。这种不安全感会转化成对数据团队负面的反馈和评价,进而造成更多人的不安全感和数据团队的信心缺失,这个循环的波及面就会迅速扩大。

    这个悖论,听上去让人很绝望,这就是数据对齐很难的一大核心原因。有解决方案吗?应该是有的,但我们正在寻找中。有一点可以明确,那就是控制自己脑子获取的数据量。我们都应该承认:我们是不够聪明的,而数据是复杂的(多指标交叉多维度)。所以,不要轻易“四处要数据”。

    四、分析师没有规范&数据使用者没有质量意识

    这一点,也许是目前困境的最直白表述。
    目前,我们的某些分析师取数写码非常“想当然”,即只按自身理解来提取数据,完全不理会已有的数据平台上对于指标的标准定义和样例代码。加上业务方没有数据质量意识,拿了就用;再加上业务领导也没有数据质量意识,听了就信,信了就决策。。。
    从这个角度说,我希望所有数据的使用者,拿到一个结果,先好好审核,有没有计算口径说明,是不是合理且标准的定义,多反问对接的分析师。以我的理念,在数据报告或者产品中,不写出口径定义的分析师,都是耍流氓,这是一种及其不负责任的行为。
    许多分析师,总把注意力集中在模型、算法、业务决策、产品方案等看上去高大上的事情上,不是说这不对,但这需要根基。根基就是踏踏实实的数据质量:

    • 高质量的sql代码:注释全面、口径明确、层次清晰。
    • 严谨、负责的职业素养。
    • 全面、及时的沟通习惯。

    五、数据应用能力尚待提高

    简单地说,就是所有人,都要多学习,而且是互相学习。如果人人都懂业务、懂数据分析、懂产品、懂开发,那我相信就没有这么多数据对不上的“幺蛾子”。但我知道这是不可能实现的。但人具备复合型的知识,非常有必要。我们不需要门门精通,但需要样样入门。锻炼我们的思维,梳理我们的逻辑,不要用我们既有的知识去理解发展当中的问题。
    最后,入门数据分析,推荐我的书
    《数据化运营俗称手册》

    相关文章

      网友评论

        本文标题:为什么数据对齐这么难?(数据质量系列之一)

        本文链接:https://www.haomeiwen.com/subject/dnxjtftx.html