本文我们谈谈如何解决暗数据问题。
什么类型的数据可能是暗数据?
根据最新的IBM研究成果显示,超过80%的数据是非结构化的暗数据。IBM预计到2020年这个比例将上升到93%。举例来说,汽车行业每秒产生350MB的数据,这些数据都会沉淀下来。
暗数据因业务而异,不同的行业和公司有不同类型的暗数据,但归纳起来以下几种比较常见:
1. 电子表单(一个有1500名雇员的公司大约有250万表单,其中总计包含了几十亿单元格的数据)
2. 多个旧版本的文档
3. Email附件和下载完的压缩文件
4. 闲置的数据库和未被利用的客户信息
5. 前员工的档案和其他内容(例如项目说明)
6. 分析报告和调查数据
7. 日志文件、账户信息和交易记录
最终结果就是,这些数据被遗忘在流程之外,分散在业务的各个层面。
为什么要挖掘暗数据?
就像我们之前所说的,暗数据指的是平常业务流程中产生的非结构化或结构简单的,但未被有效利用的数据。而被一个部门认为无关紧要的数据,对另一个部门来说可能极度有价值。
举例来说,在企业呼叫中心系统日志里一个访问者的所在时区信息或者企业微博上产生的用户互动等这类数据都属于暗数据。它们可能从未被好好利用,但能帮助企业判别特定时区的有价值用户,或者获取和企业品牌在某方面产生互动的用户的有价值信息。
挖掘暗数据还能对传统的一些数据源比如销售报表或送货记录等进行补充。例如,销售报表本身很单一,但如果将微博上的用户反馈和销售额的下降相匹配,就能挖掘出很多有价值的信息。
利用暗数据能解决很多棘手的问题,尤其当企业目前所利用的数据只是冰山一角时。光识别暗数据还不够,利用和挖掘其真正的价值才是挑战所在。
如何点亮暗数据?
在动手挖掘暗数据前,必须先明确利用暗数据是想解决什么问题,如果这都没想清楚,肯定无从下手。
要想清楚这件事情,可以从问自己一个问题开始。这个问题可以很明确很实际,比如季度销量报告显示某客户群体的购买量无缘由的下降,背后的原因到底是什么;这个问题也可以很模糊,例如企业的产品为什么在某个市场的表现不佳。
无论用哪种方式,在开始之前明确自己的目标非常重要。暗数据应该被用来解决业务中已经出现但通过现成数据无法解释的问题。例如,基础数据能告诉我们某个月的产品销量和利润,但要想知道为什么某季度的销量或利润下降的主要原因可能就需要从暗数据里挖掘出更多信息了。
如果有一个工具,能帮助我们从各种维度看到数据的分布状态,我们是不是就实时可以掌控暗数据?答案是肯定的,利用云途可视化智能BI一体化平台,点亮暗数据只需3步:
STEP 1:全面捕获数据——从边缘数据到云端
点亮暗数据的一个关键步骤是确保拥有一个全面的归档策略。业务部门如何才能自我分析数据?他们需要一个有效的IT支撑手段,需要IT部门把暗数据透明化,变成透明的数据。实现数据透明化的一个基础是数据标准化,建立标准化平台。暗数据存在于不同系统中,需要重新格式化、解析、筛选、标准化、整合以及细化, 使其为输入到任何分析工具和应用 程序中做好准备。各个部门在不同应用和数据库上存储的数据包含着高价值的内容。为了有效利用暗数据,必须从所有生成数据的地方采集数据。
云途可视化轻松连接并同步多种数据源,各类数据库、各类业务平台等一网打尽;只需一次连接即可实现数据定时自动同步,无需花费人力重复操作,帮助企业快速完成多数据源整合,建立统一数据口径,实现可重复的暗数据挖掘流程。不论是企业的数据专家还是普通业务人员,云途可视化都能为其快速完成数据分析前的准备。
STEP 2:可视化分析——点亮暗数据的最后一公里
对于暗数据,一方面企业需要新的工具才能分析和理解; 另一方面,企业最终的目的是利用这些数据更好的做商业决策,并通过数据分析能够最直观的理解数据的含义。数据可视化是达成这一目标的最佳途径。
数据可视化对企业挖掘暗数据主要有3个作用:
1. 大规模的数据可视化可以帮助企业管理者对大量的数据有个迅速的了解,工作更高效。
2. 正确的数据可视化可以清晰展现数据背后的意义。
3. 数据可视化可以帮助企业做出准确的决策。
数据串联起来所揭示的含义和产生的价值远远大于其单独存在的意义,将不同的散点通过内在和外在的联系聚合在一起,使得数据之间可以通过不同的维度进行关联,传递数据的价值。随着数据量的增大,企业越来越希望搞清楚数据背后的意义,云途可视化就是一个帮助企业达成数据分析目标的一体化平台,通过拖放就可快速创建美观分析视图,并可随时修改,基于Web的操作提供了多种交互,同时智能推荐最适合的图形展示形式,让数据说话。利用云途可视化平台,可以轻松实现数据挖掘和分析,帮助企业快速洞察市场趋势,发现业务盲点。
STEP 3:分享与协作——实时同步,提升效率
云途可视化平台支持内部、外部的多种数据的无缝整合,并自服务式创建分析模型。分析结果通过灵活设置的账号体系在企业级监控下平滑的实现从数据到内容的交付,让用户能以各种输出形式和分发方式对分析内容进行发布和共享,摆脱了分析结果只能是静态报告的窘境。
真正释放“暗数据”潜能,让数据见光需要一定的策略变化,其中一个关键点是启动可重复利用的 “暗数据”流程。大多数公司所犯的最大错误是认为他们只需对“暗数据”进行一次深入探究,然而不仅数据的规模、多样性和价值在不断增长,提供数据的应用程序的数量和类型也会不断变化。
企业中定期需要呈现的数据报告制作过程是复杂且重复性的操作,制作报表的用户需要找到各个相关业务部门获得数据,之后进行数据的整理、清洗、汇总,然后再生成报表和数据分析报告,这一过程,需要占用员工占用几个小时甚至数天的时间且这一过程通常是重复性的。
因此,与其一遍又一遍地解决单个“暗数据”项目,应该考虑建立一个可重复的流程。这意味着需要采取技术建立现代化的基础架构,以使企业的所有数据随时可供访问并保持一致,使其保持洁净、安全、互联互通。
云途可视化平台提供一账号管理多数据源,一账号自动推荐式生成报告等多种自助式数据分析功能,您无需再做这些重复性的操作,只需要3步,接入数据---分析数据---分享报告即可完成您的日常数据报告需求。通过云途可视化的账号体系灵活的支持账户角色分组和权限设置,企业能分级分层对数据、分析报告进行管理并且同时实现数据报告的协同。
“暗数据”并非仅仅表明技术开支效率低下,它还表明企业难以利用其积累起来的丰富知识,“暗数据”是一个有待发掘的潜在金矿。在我国当前新型工业化进程中,提倡大数据的前奏叫数字化,数字化能够贯通各个环节,把原来可能隐藏在工业流程当中的数据释放出来,用数据来描述工业流程。
说到这里你已经能够想象到它对企业的价值了吧?那么还等什么,快来点亮您的暗数据吧。
欢迎关注“云途数据”微信公众号(ID:yuntudata),每日分享大数据干货。
网友评论