BI自助取数是怎么炼成的?

作者: 傅一平 | 来源:发表于2018-03-04 14:43 被阅读0次

写过一篇《为什么BI取数这么难？》，今天来来谈一谈如何打造一个自助取数平台，仅是一家之言，欢迎拍砖。

首先，自助取数平台很难买到。

也就是，你很难找到符合你企业要求的通用产品，诸如BAT等企业内部的自助取数工具，一般也是自研的，为什么？

一是自助取数是个极度重视数据处理的工具，不仅需要一张可视化的皮，更需要依据企业现状提供数据解决方案，也就是数据和功能紧耦合，很多功能需要根据数据的特点量身定做。

比如，我这个企业有个上百亿记录的HBASE指标库，自助取数产品需要基于这个引擎进行，如何抉择？

二是BI产品越往上走越垂直，到达客户操作一层，操控更加难以抽象，报表可视化可能业界已经有些操作的规则，无非是选择维度和指标，但取数到底怎么个取法并没有固定的套路，它又写又读又查询又分析的，一个字：复杂。

三是自助取数受企业的业务特点影响太大了，有些企业，以清单级的关联取数为主，有些企业，以复杂的汇总分析取数为主，有些企业，取数逻辑简单，但查询的速度要求却很高，不同的业务需求对于自助取数引擎要求可能很大不同，只有基于企业的特点才能得到一个妥协的方案。

四是自助取数迭代要求偏高，企业的数据和分析变换万千，取数要素也必然随之要不停更新，这个工具显然要持续运营的，而产品化的东西，感觉很难跟上。

话说，淘宝魔方本质上也是个自助取数平台，但这个能买得到吗？它其实也很难抽象成通用的产品，只适合电商，甚至只适合淘宝。

其实可以类比，为什么这么多行业分别需要建立自己的C R M系统，市面上不是有很多C R M产品吗，自助取数道理跟它一样，没有包打天下的C R M，也就没有包打天下的取数工具，况且，数据的维度组合无限，而CRM好歹功能算是有限。

BI自助取数要么自研，要么定制开发，很难奢望能有一个通用产品能真正符合要求，这由其特点决定。

其次，务必做好自助取数的可行性判断。

自助取数很能完全替代人，想想也不可能，比如市场综合分析人员冒出的那种海阔天空的分析取数要求，在取数的时候涉及复杂的关联、跟踪等操作，自助取数很难支撑，即使勉强支撑，也会导致功能的极其复杂，带来体验的极度下降。

取数有个特点，越偏向管理，越难取，规则越无法抽象，比如一般取数的难度排名如下：老大-领导-主管-分析-营销-执行，原因很简单，层级越高，人的自主性越大，越不可捉摸，如果老大怎么想的规律被你抓到了，就不要玩了。

因此，自助取数实际只能解决部分问题，到底有没有价值，值不值得做，这就需要事先进行客观的评估。

幸好，一个企业的取数，往往简单通用类的取数还是占据了大部，这为特定企业自助取数工具的成功奠定了基础，比如某些运营商，一线简单的营销清单类取数，规则比较简单，且占到总取数量的60%到80%，而大多时候，这些取数还是在靠IT支撑人员写一个个脚本在取，效率可想而知，这让自助取数工具有了用武之地。

因此，自助取数也是有点时势造英雄的感觉，不在那个行业，没有那个条件，就不要轻易上马一个自助取数项目。

第三，做好自助取数需求的分析，这决定了工具的成败。

自助取数的需求分析是很艰难的工作，有两项最为重要的工作，一是数据需求分析，二是功能分析。

针对数据进行分析，需要对历史的取数工单进行系统分析，至少能得出以下结论，字段属性的排名并作取舍，模型的分析并作取舍，要做到这个，需要对于企业的业务和数据有全局而深入的理解。

本质上，自助取数是面向业务的，不是一个纯技术活，这也是自助取数很难产品化的原因。

有一点特别要提，理论上做一张大宽表是体验最好的，但由于维度的限制，这是不可能的，因此，数据建模师就很重要了，设计需要达到很高的性价比，为了符合取数的特点，甚至需要全新打造一套新的取数数据模型。

功能则需要调研，类似于设计产品，必须到一线中去了解需要哪些功能，怎么设计最好的配置方式，如何方便的找到相关模型、如何做好业务和数据的映射、如何方便的进行关联、如何方便的选择属性、如何方便的进行在线分析、如何方便的调度和监控、如何方便的导入导出数据、如何与现有的取数流程进行自动衔接、如何进行SQL解析、是否需要打造一个取数社区等等。

下图是一张系统架构的示例，供参考。

最后就是要做出高保真设计，让业务人员试用，一定要简单简单再简单。最好不要培训也会配，你可以设计成4步法或者5步法，步数越多，则会大幅增加工具的使用门槛，比如：

第一步，基本信息填写：填写取数的基本信息，包括业务目的、业务口径等信息。

第二步，选取合适的取数模型：可以通过标签及搜索的方式从取数模型库中选取合适的模型。

第三步，取数模型配置：对取数模型的配置主要包括三个方面，一是对模型输出结果的勾选，二是业务筛选条件的配置，三是外部数据的配置，允许导入外部数据，以及对取数结果进行特殊剔除等。

第四步，模型间组合（可选）：选择两个以上的模型，可以通过拖拽的方式对模型进行自由组合。

第五步，取数任务执行：配置完数据的地域和时间范围之后即可提交取数。

取数模型选择

取数任务执行

第四，运营是临门一脚，业务人员不是一张白纸。

取数作为企业的一项基础工作，传统取数的方式和流程已经成为套路，自助取数工具作为一种新的支撑手段，是对传统方式的挑战，即使产品再好，也需要做好内部的运营推广。

曾经将研发的自助取数叫作取数机器人，强调了其自动化的特性，宣传口号是“完全自助，永远在线，极简操控，知识共享”。

事实上，很多企业业务人员提出取数需求的代价并不高，取数也是企业的一项刚性成本投入，要改变流程和习惯并不容易，这就更考验产品的能力。

况且自助取数与一般的企业内生产系统不同，其并不是必需的，人工取数是它最大的竞争对手，需要接受业务人员的最挑剔眼光。

即使做过很多企业内部推广，还是有不少一线单位没有使用，究其原因，一是工具还没好到一定程度，二是缺乏持续的运营推广，三是企业人工取数成本太低，如果搞个虚拟结算估计会好很多，呵呵。

第五，不同企业效果可能不同，但成功还是可期。

当然，运营的效果还是要数据说话，说啥都是虚的，可以看到，后续自助的比例稳定在50%左右。不少企业能做到80%以上，也是令人非常羡慕的。

同时发现，一旦自助取数被投入实用，往往会大幅激发潜在取数需求，这对于公司是好事，说明原有的靠人工取数的方式已经抑制了大量的数据需求，信息技术的确是生产力，它让我们分析的成本、迭代的成本间接降低了。

自助取数的速度依赖于使用的技术引擎和取数复杂度，一般可以达到小时或半小时，这个已经远远低于传统的按天的人工取数周期了。

同时，自助取数的永远在线、口径的标准化、知识传承及很少出错也是其天然的优势。

第六，给用户足够的自主权。

自助取数最大的变数是业务，业务会带来数据模型的快速变化，因此需要最大可能的提供一线用户的模型自主权，因此，即使项目前期做了大量的数据调研，也务必能够让一线人员能够自行定制模型表，这也是一种开放化的思维。

实际上，自助取数演变到现在，一线专业人员自行开发配置的模型已经占到了60%以上。因此，我们需要做这个发动机，一旦自助取数工具能够启动，也许，星星之火，就能燎原了。

当然，自助取数工具还有大量的问题，需要去持续解决。

自助取数强调关联查询的实时分析能力，原来的自助取数工具，是基于IOE的，这个性能的瓶颈显然是很难解决的，包括在线、实时等计算分析能力，这给用户的体验造成了极大的困惑，对于自助取数，平均半个小时显然也太长了。

因此很羡慕BAT，其较传统企业，通过技术自主创新，还是能领先一步，诸如淘宝魔方这种所见即所得的取数方式，正是我们孜孜以求的，而这个靠购买产品的方式，显然很难。

当然，如果有厂家能解决前面我提到的问题，也许真的能打造出通用的PaaS取数平台也不一定，但相信肯定是一体化解决方案，而不是轻量级的一个工具。

由此想到了大数据，最近也在考虑MPP等数据库替代方案，比如GBASE、EXDATA啥的应该更好一点，但显然无法达到实时水平，也许IMPALA/SPARK等也可以尝试一下，无论如何，如果自助取数能移植到大数据平台上，还是能推动企业数据生产力的大幅提升。

要承认，当前自助取数工具对于清单级的取数也许支撑的还可以，但对于汇总分析类的取数支撑难度就上了一个量级，因为一旦分析表格太复杂，自助配置复杂度也将达到一个量级，这就失去了自助的意义。

也许，并不存在完美的自助取数，直接开放最终数据给业务人员，可能才是终极解决之道，再牛逼的工具或产品，在无边的数据形式面前，也需要妥协。

大数据时代，机会无处不在，自助取数还是要继续加油！

下一篇，会谈谈取数的基友报表，《如何才能做好一张报表》，感兴趣的朋友可以关注一下。

BI自助取数是怎么炼成的?

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

我爱编程