在这个数字化世界,每个人都留下了其身影,从个人的旅行轨迹,到日常锻炼,再到娱乐活动。网络连接设备的数量越来越多,这些我们用于日常交流的设备同样也记录着关于我们的大量数据。为此有一个名称赋给了它:大数据。
安永是这样给大数据定义的:大数据是指由人、工具和机器产生的动态的、巨大的、不同的数据容量,通过新的、创新的和可扩展的技术来捕捉、管理和分析处理所收集的大量数据,以便获得与消费者、风险、利润、绩效、生产力管理和提升股东价值相关的实时商业洞见。
大数据没有一个统一的定义,但在不同的定义中有一些共同的元素,比如高速(Velocity)、容量(Volume)、多样(Variety)、真实性(Veracity)、价值(Value)。这便是大数据的“5V”:
高速:数据的生成速度极快,此过程从未停止。近实时流、本地和基于云的技术可以非常快速地处理信息。每分钟,长达数小时的视频上传到平台,平台与此同时会生成数据。可以想象,数据在数小时、数天和数年内积累的速度有多快。
容量:数据的规模,或存储的数据量的增加。数据源的增加、更高分辨率的传感器和可扩展的基础设施是数量增长的驱动因素。世界人口约70亿,绝大多数人正在使用数字设备:移动电话、台式电脑和笔记本电脑、可穿戴设备等等。这些设备都会生成、捕获和存储数据——每天大约25亿字节,这相当于1000万张蓝光DVD。
多样:数据的多样性。结构化数据在关系数据库中按照行和列的方式整整齐齐地展示,而非结构化数据不是以预定义的方式组织的,如推特、博客、图片、数字和视频等。多样性还反映了数据的不同来源,各机构内部和外部的机器、人员和流程。驱动因素包括移动技术、社交媒体、可穿戴技术、地理技术、视频等等。想想不同类型的数据:文本、图片、电影、声音、可穿戴设备的健康数据,以及来自连接到物联网的诸多不同类型的数据。
真实性:数据的质量和来源,是否与事实相符、是否准确。驱动因素包括成本和对可追溯性的需求。随着大量数据的出现,关于数字时代数据准确性的争论也愈演愈烈。这些信息是真的还是假的?80%的数据被认为是非结构化的,因此必须设计出方法来产生可靠和准确的洞见。数据须进行分类、分析和可视化。
价值:将数据转化为价值的能力和需要。价值不仅仅是利润,还可能有医疗或社会福利,以及客户、员工和个人满意度。人们花时间去理解大数据的主要原因是从中获取价值。
当今数据科学家从大数据中获取洞见,并应对这些海量数据集带来的挑战。所收集数据的规模意味着使用传统的数据分析工具是不可行的。然而,利用分布式计算能力的替代工具可以克服这个问题。诸如Apache Spark、Hadoop及其生态系统等工具提供了跨分布式计算资源提取、加载、分析和处理数据的方法,提供了新的洞见和知识。这为企业提供了更多与客户联系的方式,并丰富了他们所提供的服务。因此,下次当你系上智能手表、解锁智能手机或记录锻炼时,请记住,你的数据正在开始一段旅程,可能会通过大数据分析走遍全球,然后回到你身边。
网友评论