到2021年,具有智能数据探索分析功能的新型BI和分析平台的用户数量将是不具有智能数据探索分析功能的产品和平台的两倍,并且将创造两倍的商业价值。from 深入解读《Gartner2017年商业智能和分析平台魔力象限报告》**
不在本文的讨论范围之内的话题
- 语音识别相关的工作。个人理解语音只是输入与输出的一种方式,取代人工的文本输入;按钮点击;阅读。目前的计算机应该还是需要把语音转换成语义才能进行下一步计算。语音输入与文本输入唯一的区别可能就是语气,在数据服务中可能仅仅用于调整请求的优先级。
- 数据服务的稳定性,实时性,高性能计算。个人觉得这些属于数据分析服务的基础设施,与智能无关。当然这些是智能的前提。
- 搜索本身。当然搜索可以是智能服务的发起者,搜索也是一种技术手段。
- 单一数据的分析。比如灰度预测模型,神经网络预测,数据的统计学分析等。
- 实现智能的技术手段。
为什么写这篇文字
很快自己在杭州的第二个四年即将结束,虽然自己对数据分析服务理解并不透彻,不过还是想跟2010年写本科毕业论文那会一样,拼拼凑凑,加一点想法,写点像样的文字来总结过去四年对于数据服务的认知。
下面开始是正文。
已有内容的探索发现
本小节提到的内容包括数据源、数据集、分析维度(比如时间,部门等)、指标(又称度量,如收入,利润,人数)、简单报表、复杂报表(又称仪表盘)、图表、数据分析报告等。
具体的场景包括:
-
用户打开你的服务,可以根据用户相似性推荐他可能感兴趣的内容
-
用户可以根据关键字来找到对应主题的内容
-
用户添加了数据集后,自动推荐使用了对应数据集的“上层”内容
-
用户在阅读某份报告的时候,向其推荐类似的报告
-
用户可以根据某个可视化的简图或者照片来搜索对应的报告
相关技术:图像相似性
场景:用户记得图的样子,但是找不到是具体哪个报告里 -
基于地理位置来推荐内容
场景:一个会议上,大家同时讨论一个对象
已有内容的智能排序
不同的时间点,地理位置,数据消费者需要根据不同的报表来进行决策。
- 每周一早上例会可能需要一份指定的报告
- 每天下班前可能需要确认一份数据
- 到门店交流时需要用到一份指定报表
问询式的数据服务
用户无需了解是否已经存在已有的报表或者图表,只需要告知引擎他心中的问题,引擎自动去提取合适的分析维度与指标。结果可以是一个数字,或者一个图表。

上图中的例子是用户想知道某个地区附近最贵的房子。例子与图片来自Tableau 2017 - 2020 年的产品规划。
微软的Power BI 已经提供类似功能。

数据的自动可视化呈现与解读
当数据加载完毕,引擎是否可以知道用户的下一步意图呢?有数据积累的公司,比如Google,已经可以做到了。在Google Spreadsheet上用户点击任意一个Cell(最小数据单位),页面右侧便有对应的可视化呈现与解读。可视化是一部分,解读更是重要的一部分。

注:可以点击查看大图来阅读Google对于这些数据与图表给出的解读。
同一份数据,机器可能更知晓最合适的呈现方式,是基本饼图、条形图、折线图,还是热图、树图、数据地图或者散点图。
讨论一下技术实现,如果你有大量的数据与匹配的可视化样本,你可以拿来做深度学习。但是解读这部分,你可能需要更多互联网上的“经验”,比如财经新闻,科技报道,咨询报告。无疑,Google在这方面的积累遥遥领先。
异常数据的监测与自动解释
对于数据消费者,看到一条曲线出现突变,你肯定会特别留意并需要找到突变的原因。智能的引擎应当能够监测标注并给出解释。比如某产品销量的下降可能跟以下因素有关,
- 恶劣天气、假期
- 供货商供货不及时
- 另外一款产品进行了促销活动

(图片来自Tableau Software)
监测到异常数据告警之类的应该不属于智能服务 :)
咨询服务
一个App,一家餐饮连锁,一家银行,不同时期需要关注的数据是哪些? 平台化的数据分析服务提供者有能力提供此类智能的咨询服务,这可能也是最高级的智能服务。
微软的Power BI上提供了一系列的模板帮助消费者快速分析一个对象,比如一个网站的访问情况(基于Google Analytics 数据),一个软件工程的状态(基于Github数据)。

当然真正值钱的咨询服务还是要收费的,预收费还是后付费的问题。
数据清理
注:本小节无具体表述。
其他
我们大刀阔斧地投入人力与财力研发产品之前,或许需要思考智能化的服务可以带来什么真正的价值,当然带来商业价值也是一种价值。
本文没有讨论技术手段,但是很多智能都需要基于数据与样本,那么那些服务部署在企业私有云上的厂家就要考虑这个问题了。“借刀杀人”是个不错的策略。
网友评论