在谈数据质量的时候,我们会面临一个语义的理解问题,语义理解问题要是没有办法做好的话,我们很多标准做不出来。但是我们大部分时候怎么做呢?人工做。这次我知道百度有一个很好的产品,也获奖了,就是自动标注的那个。我没有细看,我觉得这个为我们未来做自动化处理规则,已经迈出了很关键的一步,我找时间还是再请教,我觉得这个主题非常好,因为它涉及到数据、信息语义和业务规则,每一个环节都构成了我们未来对数据质量的影响,这个我想等一下会看到这个概念。
图1.6回到这个,我一直还是非常认同,在数据质量里面我们看什么,我们讲固本清源,固本清源讲什么?包括定义、分析、度量、提升,这是我们在讲数据质量时候的4个角度。什么叫定义?刚才我们提到了规范性的问题,这放在第一个,要是定义不准,标准不准,你去做数据质量,再好的技术也没用。
图1.7我们再看另外一个角度,我们讲这个是业界的角度,我们关注数据、规则、监控、遵从、可追溯、剖析,这是来自业界的一些理解。
图1.8这个是来自我们对一些工具的理解,这里面我把工具名称给隐掉了,我相信大家也接触很多工具,这个工具我们看什么呢?我们讲剖析、集成、匹配、规则发现、数据补充、集成架构,这些都是我们在谈数据质量的时候,在不同的角度去理解这个问题。
图1.9我想重点讲一下这张图,其实我们在谈整个数据质量的管理,当然这里不是我的总结,是业界的知识,在60年代、80年代的时候,谁最关注数据质量?基本上是统计的领域。然后到信息时代,80年代到2000年,我们号称信息时代。再就是2000年以后,我们讲这个阶段我们在看的事情。左边有很多方法论,当然这里不全,大家去研究数据质量的时候有这些流派,你们都能看的到。时间轴上也是这么走的,ISO9000,最新的38505,包括一些大的企业方法论。
横向的,这是我们的数据积累,整个结构跟技术的发展是有关的,就是说数据质量的管理跟技术的发展会影响我们,当然我相信未来对我们方法论的一些反哺也会对我们现在整个数据质量发展的技术,包括我们做的事情是有影响的。
上下两个板块,下面板块就是数据质量衡量的维度。最早的时候我们看的是准确性,当时的场景,包括我们的技术手段,包括我们能做什么,包括我们关心什么,这个是准确性,接着是及时性,我们考虑的深度会越来越往这个方向走。
前面我们讲数据质量的管理是以人为中心的,为什么以人为中心呢?其实就是究竟怎么能够让我的企业用在最恰当的时候,我的感知是很重要的,要是我的感知没有办法有,我就没有办法知道具体这个事情做的好还是不好,所以在前面我们会做定义测量分析提升,再往后我们会看以应用为中心,以数据为中心,以服务为中心。
再往下我们现在讨论成本与效益,我们现在做很多事情的时候离不开成本、效益,以前我们可能不讨论,但是现在必须要讨论成本,现在是大数据时代,这是非常重要的情况。
未来的发展,这里面有几个技术,一个是数据探查的技术,包括我们刚才提到的NLP的技术,非结构化跟结构化数据,我们怎么把它们集成在某些共性上进行数据处理。自动标注技术,我刚才讲到了。还有一个规则发现技术,还有我们自动化处理技术。这些技术都会影响我们在整个数据质量的方法或者实施的路径,包括我们的效果。
图1.10以数据探查能力为例,这里面我们有三个板块。最早的板块在我们人工的时候我们会做到浅色的这部分,比如说在早期的时候我们去体检可能只是X光就OK了,因为你没有太多手段,你们X光看到什么你就做什么。但是现在有CT了,现在还有无痛治疗的方法,非常多的技术,它会让你的探查越来越深,它会对你的数据脉络越来越清楚,这个也为我们未来做数据治理带来更多的技术支持。
数据探查包括我们的数据信息,包括我们的业务规则,都是支持怎么让这些东西做的更加通透,了解我们自己是什么,了解我们数据是什么,这是决定我们下一步应该怎么做的关键。
图1.11第二个技术是自动化处理技术,我们现在也是在做这个领域的探索,这个自动化技术我们希望整合自然语言处理,包括结构化处理,包括我们现在迭代跟完善的规则,这些规则更好地让我们在整个数据处理过程中降低我们的成本,缩短我们的时间,这是我们讲数据治理的一些考虑点。
图1.12另外我们要提出的是你在做数据质量,包括数据治理的时候其实有三个维度,首先你有什么样的技术,你有什么样的探查能力,有什么样的理解数据的能力,决定了你数据处理的效能,包括他的效益,也反哺告诉我们在做咨询的时候,在做管理制度的时候,哪些是我们的痛点,哪些是我能够得到的,哪些是不能够得到的。
中间这个是我们的技术,怎么去处理我们的数据,能够让数据更加清晰。上面是来指导我们在咨询里如何获得量化的结论,让我们的咨询能基于一些量化的基础进行一些预测,而不是仅凭一种理解或者一种经验,我觉得这是我们现在面对的主要问题,因为数据本身就实实在在存在那里,我们应该怎么去理解数据。
图1.13我们企业管理有几个维度,包括考核、管理、方法、路径、模型,这是我们都要做的。这是我们相对的一些优先级,
包括我们的组织机构更重要,还是我的规范更重要,还是我们的支撑平台更重要,这个取决于我们每个企业他的特点,但是这跟三者是离不开的,我们应该怎么样比较好地综合这三种元素,来决定我们整个企业建设的方法。
图1.14最后一章,我们要考虑的是时间、成本、质量,我们后续做数据质量、数据治理的时候离不开这三个维度,因为我们要落地,我们要真正为企业赢得效益,所以时间、成本、质量是我们的三个维度。
图1.15最后给各位关于数据治理的建议:
第一,找到自己的起点。
第二,怎么解决标准问题。因为它是我们花最多时间,也最容易产生漏洞地方。
第三,一定要考虑时间与成本。它不是一个科研的项目,是一个企业真实的效能项目。
谢谢各位。
网友评论