服务于商业的各式分析方法汗牛充栋,虽然市场巨大但是其中也包含了很多滥竽充数,令人困惑的模棱两可的话术和套路,但是时代的发展趋势是巨大的,通过细节中不断的改变,潜移默化中已经给出了产业界的投资和发展方向。在信息时代,数据驱动的“早起的鸟儿有虫吃”指的其实就是像谷歌,Facebook和苹果这样的巨头公司在先人一步囤积数据,因为数据就是黄金。
但仅仅囤积数据是不够的。还需要善于筛选,整理,理解数据湖中的所有数据。只有这样,才能根据数据做出更好的决策,打造出更智能的产品。
然而,在这个拥挤且资金横流的市场中,想要具有穿透各路商家、企业所散布的迷雾几乎是不可能的。为了帮助理解这个庞大而混乱的商业市场,科多大数据带你来看看未来五年的最重要的一些领域的变化,并适当进行了一些展望,希望有所帮助。
从BI系统到APP应用
在过去的二十年里,我们见证了一场革命。不是一夜之间发生的那种,而是逐渐发生的那种。其实,你可能没有注意到其间的变化会这么慢。
BI正在死亡。或者更确切地说,商业智能是变幻莫测的。
一家成立了快20年的公司Tableau是最后一个发展独角兽的“BI”公司。虽然,Tableau并不是真正的能够一统江湖的商业智能解决方案,但它是一个数据可视化工具,从前面几代的BI系统中脱颖而出,满足了当代的众多业务需求。
每一年,用户都在通过他们使用的应用程序越来越多的分析,如HubSpot,SalesForce和MailChimp。分析正在迁移到业务应用程序的结构中。
实质上,业务应用程序页正在获取他们自己的分析界面,根据他们的数据和用例进行量身定做。这种集成和定制使得用户可以更容易地使用分析界面,而不是通过深奥而复杂的通用BI(尽管以增加数据孤岛为代价,但是仍然难以帮助用户看清大局)。
随着B2B应用开始在数据智能产品上展开竞争(这些简单的单页分析仪表板已经开始进入历史的故纸堆),这一趋势还将持续下去。
计算引擎上的编译器
历史上,新鲜热辣的数据分析往往采用以下两种方式:预处理(当公共聚合预先计算并存储在内存中,如在OLAP引擎中),或分析引擎(包括像Teradata和Vertica的分析数据库)。
分析引擎(如Spark和Tableau中的数据引擎)负责执行所需的计算,以回答关于存在于业务数据中的关键问题。
现在又出现了一个新的竞争者:分析编译器。分析编译器可以灵活地将计算部署到不同的基础设施。分析编译器的例子包括现在热门的TensorFlow,它可以将计算部署到GPU或CPU,Drill和Quasar Analytics。
编译器比引擎更加灵活,因为编译器可以采取数字处理的方法,并将它们转换为运行在不同的基础架构(数据库,Spark,GPU等)。理论上,编译器也可以生成工作流,其运行速度比任何采用解释器执行的引擎都要快。
即使Spark一致寻求添加基本的编译组件,但是保留编译器的信号已经很明确了,并且最终可能会迭代出一个纯粹的计算引擎。
多样化的数据清洗
依据英文首字母进行的缩写词会极大地增加“ETL”的工作难度和压力,会导致抽取 - 转换 - 装载不完整、重复和不相关。
ETL是智能化,效率和数据驱动的对立面。ETL意味着无限复制的数据,无数的延迟和高昂的费用。这通常还意味着无法回答最重要的问题。
为了使ETL更加灵活,业界开发了多种替代方案,目前VC积极参与其中。这些解决方案的范围很广,从使ETL更容易进入Hadoop或数据仓库的高级ETL工具,到流式ETL解决方案,到利用机器学习交叉引用和重复数据删除的ETL解决方案等等。
另一个非常有趣的技术类别包括Dremio和Xcalar等工具,它们将ETL重新设计为提取负载转换(也称为ELT,extract-load-transform)。实质上,它们将转换一推到底并使其变得傻瓜化,因此用户不必进行任何前期提取,加载或转换。
从历史上看,ELT的发展一直很慢,但是这些下一代解决方案通过动态重塑,索引和缓存常见转换来使ELT更快速。这为您提供了传统ETL的性能,以及后期转换的灵活性。
无论您如何分割,ETL正在经历巨大的演变,使企业能够比以前更容易地快速利用数据,而无需在IT系统中进行耗时且昂贵的前期投资。
开放的数据孤岛
大型组织所面临的一些大问题其实并不涉及花哨的分析。大多数传统行业的公司甚至不能把他们各个子公司,下属部门机构的数据进行有效的汇总和利用。不是因为总数和数量很难,而是因为现代组织中的数据是分散的,分散在诸如一万个数据孤岛中。
由于云(包括API革命和托管数据解决方案)以及ETL的最新进展,组织以结构化的方式访问更多数据变得越来越容易。
下一代数据管理解决方案将在利用这些技术进步,使所有组织的数据及时分析所有合适的人员方面发挥重要作用。
落地的机器学习技术
机器学习刚刚才经历了舆论的炒作高峰期。那些不明白机器学习如何运作的网红和大V们继续着他们对机器颠覆人类那种末日图景的想象,即使同时间消费者还不停的在拿微软小冰来开各种玩笑。
当机器学习运行产生错误时(因为它经常不可避免地发生这个情况),常常没有人去责怪它,也没有人愿意从错误中进行总结(因为它运行在黑箱状态下)
对于任何一种关键任务分析来说,这绝对是不行的。
所以,直到我们能够在整个社会最聪明的知识之上训练人造思维,能够回答企业数据的任何问题的神奇预言离得很远,远远超过五年,十年。
而在那之前,我们可能会看到非常专注于机器学习的应用。例如,ThoughtSpot与BI的自然语言接口; 结构化数据集的黑箱预测分析; 人类辅助技术可以让人们看到不同数据源之间的联系,纠正常见的错误,并通过数据分析发现异常。
这些不是科幻小说中承诺的超级智能,而只是让用户更容易找出要问的问题,并帮助指导他们寻找正确的答案。
这些领域,代表了一类技术的发展趋势,这些趋势包括数据智能向业务应用程序的持续迁移,可以将工作流程部署到动态编译器上,ETL快速发展的状态,数据孤岛对组织的可访问性增加,以及通过实用的和非实用的机器学习方法去改进分析工具。
最终,大众注意力所关注到以及没有关注到的方向上,创业公司仍然会一直如雨后春笋般涌现出来,因为这是一个变革的时代。
参考文献:your-analytics-strategy-is-obsolete
网友评论