多年前导师曾给我讲,慎谈智能,当时不是很理解,现在看来深以为然,不过在如今的大数据时代,机器智能好像有点谱了。这篇文章我就来谈谈商业智能(Business Intelligence, BI)的智能问题,商业智能最早由加特纳集团(Gartner Group)于1996年提出,发展至今已过20年,各大型企业、机构花巨资建设的BI系统真的智能了吗?显然不是,当今的大数据时代,甚至有很多质疑传统BI的声音,花巨资建设的系统沦为豪华报表,耗费了大量的人力物力和时间,却难以有效满足决策支持和操作型业务支持等。为什么会这样子?大数据时代的商业“智能”之路怎么走?传统BI能否扩展强化为堪比AI的真智能?下面关于BI的智能化之路提几点浅见,供大家探讨。
1.传统的商业智能离智能还很远。
首先,我们要认识到现阶段的商业智能,还仅仅是提供基本的商业情报信息决策支持,我们看维基百科的商业智能定义:”a set of techniques and tools for the acquisition and transformation of raw data into meaningful and useful information for business analysis purposes”,利用一系列技术和工具把原始数据转化为有价值的信息,为商业分析服务,这个定义本身就离智能相差很远。传统BI一般是成套技术解决方案,对企业日常经营过程中产生的大量数据进行采集、ETL处理和数据仓库存储,通过OLAP分析,挖掘技术等将集中的数据进行分析,转化为有用的信息和知识,从而为精益化管理和商业决策提供科学的数据支持,可见传统BI的核心是进行决策支持,这种支持远没有智能化。我们再看看什么叫智能,智能简称智慧和能力,至少包括三个方面的能力:理解、分析、解决问题的能力,归纳、演绎推理能力,自适应生存和发展能力。机器和系统要智能,至少具备初步的自动控制、分析推断和自适应更新能力。所以从这个意义上讲,前二十年要说商业智能有多智能那都是忽悠。应该说,进入大数据时代之后,商业智能才有望摸到点智能的门,当然要解决一系列关键技术问题,换个角度讲,传统BI如果不能在“智能”上做足文章进行凤凰涅磐,很可能是消亡的命运。
2.操作型BI与大数据集体智慧。
为什么BI的智能化要重视业务操作端(专业的说法叫操作型BI-Operational BI),一般来讲BI是为各级领导决策服务的,传统BI的业务操作端功能很弱,甚至没有,这种情况跟大数据的理念是相悖的,因为没有群体的深度参与就难以产生智能,同时这也是导致很多BI项目最终失败的根本原因。集体智慧简单来讲,可以理解为一种集体决策能力,它至少等同或优于群组中的任何一个成员(Hiltz & Turoff,1978),集体智慧在计算机领域的实现来讲,可以被看作一种创造性生产力,一种分布式计算过程,一种有关连结的智慧等等。其核心特征:一是集体(多种来源,集体智慧由个体行为以显性或隐性的方式汇聚而成),二是关联(个体联系,形成共同的认知、行为状态或趋势)。Kaggle,GitHub,知乎,百科等平台就是集体智慧的体现,而互联网是整个地球人类集体智慧的体现。在大数据时代,一个组织、企业要实现管理的智能化和决策进化,还是原来那种靠领导拍脑袋进行决策,是很危险的,特别是面对复杂关联和相互扩散影响等问题,有兴趣的朋友可以了解华为的运作机制,应该说对这方面把握的很好,轮值CEO、全球化办公云、各种内外部社区交流等都是集体智慧的体现。
大数据条件下的BI不只是数据抽取、存储和展现,而是要通过BI过程精细化掌握企业各方面情况,能找出相关业务环节的瓶颈并分析问题,并给出问题的解决方案。BI固然是为决策支持服务,但要满足精细化管理和预测性决策支持目标,一线业务操作端的智能化支持不容小觑,BI需要为普通的业务人员服务,从数据采集、数据反馈和数据迭代等多个层面进行支持,提供实时性预判性的指导,OBI的服务围绕企业的业务一线,如智能客服、精准营销、库存优化、流程优化等活动。如果说大数据决策支持中心是企业的大脑的话,那么这些一线操作业务涉及的相关数据就是企业的神经末梢,负责各种实时数据的采集、预判和反馈,通过全面地数据采集、流动和增强,来提升企业的决策能力,就好比蜂群的集体智慧,从单个部门或人员数据中找预测规律比较难,整个生态种群的全面数据采集和分析就容易多了。所以说,BI要智能化,要同样重视业务操作端,业务操作端的集体智慧决定了数据质量、数据范围和企业内外部数据的精细化服务能力,而这些恰恰是智能的基础。
3.大数据融合与智能学习扩展。
本体意味着世界本身已经存在了一个完美的知识体系,我们学习成长过程就是从本体中摸索、推测和构建自我知识体系的过程。计算机要产生智能同理,现阶段的机器学习只是碎片化的片段知识构建,机器要智能化必须能部分实现这个认知过程。窃以为融合事物本体知识和跨模态数据处理能力的大数据机器学习(深度学习)是机器智能诞生的可行方法(最近深度学习结合知识库、存储记忆和注意力机制等研究也说明了这一点)。本体论对机器来讲是一种解决关联和推理的技术手段,而跨模态数据融合是解决全样本问题的关键。从这个角度来讲,大数据和商业智能其实不矛盾,只是各有侧重罢了:传统商业智能还是以结构化数据为主,ETL、数据仓库、OLAP多是处理结构化数据,结构化数据本质还是数据孤岛,虽然形式上的数据仓库做了数据集中,但并没有完成深层的数据关联和融合,所以谈不上智能;而大数据处理没有结构化数据限制,结构化、半结构化、非结构化数据都能统一纳入处理,这就需要跨模态、全样本数据融合处理的支持,另外本体库、知识库要解决计算机对数据的深层关联和认识推理等关键问题。如何整合多源异构数据资源、实现本体构建和深度学习、推理、预测,为管理决策和业务操作端提供更加完整、可靠和智能的服务,是未来BI智能化要突破的关键技术瓶颈。所以,大数据条件下,传统BI的技术架构已经不能满足这个需求,不管是多模态处理、多模式计算还是深度、实时学习和分析等方面,基于ETL、数据仓库、OLAP和一般可视化等技术的传统BI都有较大局限。
但是不是就意味着传统BI就完全没有用了呢,也不尽然,从技术角度讲,传统BI的功能都可以被对应的大数据组件所替代,但考虑到成本和技术、数据积累等问题,能进行深度扩展的系统就不用完全重建。我在前文的《企业大数据应用三段论》有提到过,大数据分基础描述性分析和高级智能分析阶段:传统BI应该算是一种基础分析手段,特别是在企业信息化和数据获取能力较弱的条件下,可以用BI来进行数据分析应用的普及(只是传统BI那种高成本架构就完全没必要了,特别是没用较强扩展能力的产品);基于机器学习和深度学习的预测性数据挖掘可以理解为高级分析,基础分析做不好,高级分析就无从谈起,当然两者的架构是有较大差异的。大数据和BI可否融合起来呢?答案是肯定的,SAP、ORACLE、IBM等BI产品逐步在支持各种开源大数据技术系统。
个人认为,大数据和BI应该是一个融合和集成的关系,传统商业智能分析历史,真正的智能要能预测(预见)未来,不管是BI系统还是大数据系统,都是围绕数据分析展开,一个是偏单模态数据基础分析,基于ETL、数据仓库、数据集市、OLAP等技术;一个是多模态(多源异构)数据高级预测分析,基于数据融合、自动特征工程、列式存储、深度学习、可视化关联分析等技术。数据规模的大小不是关键,关键在于数据融合和智能学习的强化,所以说,大数据时代的商业智能要真正实现智能化,不一定是对BI系统进行推倒重来,只需针对大数据处理特点对传统BI技术架构进行并行扩展,解决跨模态数据融合,离线和在线,实时和历史,存量和增量,基础分析与智能学习等核心问题。总之大数据时代,第一解决全样本数据融合问题,第二解决智能学习问题,借助于人工智能、机器学习、深度学习等技术,商业智能才有望实现智能进化。
4.以业务(问题)为中心与自助式探索分析。
以人为中心还是以技术为中心,这是传统BI衰落的关键原因,如Tableau, Qlikview等新型BI产品的冲击在倒逼传统BI产品缓慢改进。将来除了基础设施之外,一切重量级的系统或产品很可能存在应用陷阱,天下武功唯快不破,大数据时代更是在强化这一点。Tableau等能在一个动态的,互动的可视化UI界面去探索数据的多面性,实时地回答用户的问题,方便用户理解数据的关联和因果,新型BI不再是领导层的专属,而是鼓励全面参与的数据分析,傻瓜化的探索方式、参与第一、以人和问题为中心,这种集体智慧式的BI分析才符合大数据应用的目标,毕竟智能需要靠人的深度互动和参与,系统只是辅助,不管数据层面还是学习层面都不能忽视这一点。正如约翰.怀尔德杜克所说:“面对那些我们坚信存在或不存在的事物时,探索性分析代表了一种态度,一种方法手段的灵活性,更代表了人们寻求真相的强烈愿望”。
这里重点强调下可视化,大数据可视化不是万能的,但蹩脚的可视化技术是万万不能的:(1)友好的可视化界面让人人成为数据分析师成为可能,何为友好,如何考虑大众的信息化能力,不只是炫目的展示,而是能激发人的参与激情,能引导人的快速学习,能启发人的深层理解,这是决定大数据和BI是否具有灵活性和预见性的关键;(2)传统BI的衰落,就是因为大数据时代,我们的产品注意力转移到了前端,怎么自动化快速解决实际问题,怎么方便上手使用是第一位的,算法技术再牛交互做得不好也是失败的产品;(3)业务人员能独立完成问题的分析,初步找到答案,由技术驱动转为业务驱动,才能强化BI系统的智能化建设,为全员提高数据分析技能的同时,为操作型BI和群体智慧的进化打下基础。强调前端可视化并不意味着就能轻视后端技术,反而需要强大的后端技术进行支撑,不然很可能沦为华而不实的炫目图表。通过自行拖拽式操作,如何快速融合多源异构数据,并有各种跨模态机器学习模型进行支撑?可视化数据的各项属性指标如何快速让用户理解其概念、层级、意义及其联系?各种分析场景下的问题识别与知识发现、跨域关联挖掘、多维度关联探索等,都是BI需要考虑的环节。总之,高效的可视化探索,对后端大数据技术的要求其实是提高了。
5.敏捷、开放、迭代与闭环
前述智能的自适应能力、操作型BI的实时响应能力、大数据融合与跨模态处理能力、可视化的快速变换响应能力,无不需要敏捷技术的支持。我在前文《说说敏捷大数据》有提到过敏捷,但还不成体系,后续会发文来深入探讨这一领域。总之,大数据时代,数据规模增大的同时,我们的决策也在面对前所未有的变化:企业在变、客户在变、技术在变、服务在变、基础设施在变、商业模式也在变…而且变化趋势在加剧。另外,面对可供选择的庞大技术栈、工具集和产品服务越来越多,如何构建具备扩展性、兼容性、动态性、容错性和决策进化的大数据系统是未来信息化、智能化面临的关键问题。需要重点关注如下几个方面:(1)大数据和数据科学的迭代性本质,意味着预测的不确定性、探索性,很多的分析场景都是在不断的业务探索中找出来的,这需要BI的业务和技术能具备开放性和迭代能力,才能响应各种变化需求,大数据应用就是在与时间赛跑,业务层面+技术层面的全面敏捷势在必行;(2)大数据时代的BI要能解决增量问题,如增加新的数据、提出新的问题、发现新的模式,相应地需要进行多源异构数据融合支持、自助式探索分析支持和交互式反馈验证支持等,在反馈闭环中进行各种关键模型的智能进化。(3)开源技术和购买产品的互补选型,去IOE有其发展必然性,特别是DT技术泛型跟传统IT产品技术的不连续甚至是断裂问题,完全基于三方产品的生态系统要智能化,相当困难。所以说,前些年大公司专属BI的没落,也是时代发展的必然,传统IT工业重量级产品的基因里少有敏捷、开放、迭代等关键词,要智能也就更难了,IBM沃森与大型医院的合作失败,号称50亿美元的医疗AI项目打水漂,有兴趣的朋友可以关注一下相关技术。
6.小结
大数据时代的商业“智能”之路不好走,对传统重量级BI产品来讲,是一条涅盘之路,要突破的问题很多,产品太重量级,太贵,技术扩展性和敏捷性都不好,不利于快速学习掌握,要实施好很困难等;对新兴大数据技术来讲,是一条融合和兼容并包之路,大数据离开企业结构化数据库就少了半壁江山,大数据强大的前端可视化交互分析能力,大数据技术交互式,实时性,开放性,迭代性,容错性等数据科学基因,都是传统BI要学习的地方,当然传统BI的积淀对大数据应用来讲也会起到事半功倍的效果。总之,整合BI和大数据系统并非易事,两种技术泛型的磨合和还需要时间,耐心和创新,同时这个大浪淘沙的过程也是以互联网和传统企业为代表的两类IT巨头们的技术对决,搞大数据的小伙伴们可不要站错队:)不过可以肯定的是,留给传统BI产品的时间不多了。
来源:点金大数据 作者:杜圣东
网友评论