美文网首页@IT·互联网大数据玩转大数据
当我说大数据时,我在说什么?

当我说大数据时,我在说什么?

作者: 慕容老K | 来源:发表于2016-08-20 17:13 被阅读1458次

    这几年,大数据非常火,作为一个IT从业者,如果所属公司没有涉足大数据,并且自己再不主动了解一下大数据,出去都不好意思跟人打招呼。

    大数据本身是一个宽泛的概念, 业界尚未给出统一的定义,大家都在尝试着定义大数据, 所以在大数据的诠释上就形成了百家争鸣的态势。随之而来的大数据时代、大数据思维、大数据技术、大数据应用、大数据服务等一系列的词汇加剧了大数据的理解难度,在被问及“大数据是什么”时,总有一种无力感。

    今天,我尝试描述一下自己理解的大数据,供参考。

    1、作为一个名词,大数据是记录集#

    百度百科将“大数据”和“巨量数据集合(IT行业术语)”合并描述为:无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。

    1.1、数据资产

    世界经济论坛2012年发布报告,说“大数据为新财富,价值堪比石油”,一下子让服务器上堆积的那些历史数据身价倍增起来,数据开始被郑重其事地视作资产进入了大家的视野。

    关于资产,百度百科的定义为“任何公司、机构和个人拥有的任何具有商业或交换价值的东西”,数据以及数据产生的信息目前已经被公认为是企业的资产。企业通过数据资产,提供更好的产品和服务,降低成本,控制风险。

    1.2、大数据的特征

    大数据的特征经历了3V、4V到5V的演变。

    2001年,高德纳分析员道格·莱尼在一份与其2001年的研究相关的演讲中指出,数据增长有三个方向的挑战和机遇,是为3V:数量(Volume)、速度(Velocity)、多样性(Variety)。

    在莱尼的理论基础上,IBM提出大数据的4V特征得到了业界的广泛认可,即:数量(Volume)、多样性(Variety)、速度(Velocity)、真实性(Veracity)。

    国际数据公司 IDC 也定义了一套 4V特征: 数据类型繁多( Variety)、处理速度快( Velocity)、数据体量巨大( Volume)、数据价值( Value)。

    阿姆斯特丹大学的 Yuri Demchenko 等人提出了大数据体系架构框架的 5V 特征: 数据类型繁多( Variety)、处理速度快( Velocity)、数据体量巨大( Volume)、数据价值( Value)、真实性( Veracity)。

    大数据5V特征from《大数据标准化白皮书 V2.0》

    以上是大数据的数据特征,描述了“巨量数据集合”的特征。

    2、作为一个形容词,大数据引出了n个概念

    很多人提及的大数据是一个形容词,但他省略了大数据后面那个被修饰的关键词。

    2.1、大数据思维

    维克托·尔耶·舍恩伯格在《大数据时代:生活、工作与思维的大变革》中指出“大数据时代最大的转变就是,放弃对因果关系的渴求,而取而代之关注相关关系”,【注重事物间的相关关系】可以作为大数据思维的关键特征之一。

    大数据思维是一种跨域的、面向全样本的、数据导向的、认为历史数据可预测未来的思维方式,关于大数据思维的原理,《大数据行业人士必知10大数据思维原理》一文简单将其概括为10项原理:

    • 数据核心原理
    • 数据价值原理
    • 全样本原理
    • 关注效率原理
    • 关注相关性原理
    • 预测原理
    • 信息找人原理
    • 机器懂人原理
    • 电子商务智能原理
    • 定制产品原理

    运用大数据思维,在看待问题、解决问题时就多了一个角度——大数据视角(哈,又多了一个概念)。

    2.2、大数据技术

    大数据技术的包括大数据采集技术,大数据存储、管理和处理技术,大数据分析和挖掘技术,以及大数据呈现和应用技术,这些技术可以表现为一种数据处理方法(并行计算),也可以表现为一种软件工具(Hadoop、Spark、Storm等)。

    IT技术人员提及的大数据多数是指大数据技术,甚至更狭义地指代Hadoop,“某某最近在学习大数据”,最可能的情形是“某某在啃Hadoop技术文档”。

    数据分析、数据挖掘、机器学习与大数据技术紧密相关,有些人认为它们应该独立于大数据技术(这些概念都早于大数据技术产生),也有人将它们纳入大数据技术的范畴(例:某机器学习算法的Spark实现),类似的还有以Redis、Kafka,个人认为无需纠结于概念的范围归属,可以将精力投在掌握具体技术的适用场景方面。

    2.3、大数据应用场景

    大数据应用场景一般对应于一个特定行业的具体问题,在数据规模不足够大、数据处理效率不足够高的时候,或者说在大数据(名词,巨量数据集合)和大数据技术之前,这些问题无法解决或者无法妥善解决,但虽然数据的持续积累和大数据技术的不断成熟,这些问题得以解决或者出现了解决的契机和研究方向。

    • 在电力行业,基于电网运行和设备检测、监测、检修数据,可以在“电力设备监测预警”、“电力设备缺陷分析”、“电力设备寿命预测”方面开展分析和研究(这里出现了三个大数据应用场景 :D)。
    • 在交通行业,通过在城市多处设置的传感器,我们能随时掌握在某个地方有多少辆汽车,车速是多少。有了这些数据就可以建立起模型进行分析,指导人们“优化出行计划避免交通拥堵”(这也是一个大数据应用场景)。

    2.4、大数据+

    先看看“互联网+”,百度百科显示:“互联网+”就是“互联网+各个传统行业”,但这并不是简单的两者相加,而是利用信息通信技术以及互联网平台,让互联网与传统行业进行深度融合,创造新的发展生态。

    个人认为“大数据+”和“互联网+”简直是一样一样的,“大数据+”就是“大数据+各个传统行业”。以“大数据+医疗”为例,它以医疗行业的患者档案、临床操作、药品处方、诊疗方案等各类数据为基础,运用大数据技术逐步构建智慧化医疗服务体系,也可称为医疗大数据。

    2.5、大数据服务

    大数据服务是大数据产业链商业维度的概念。大数据产业链上包括大数据资源提供者、大数据技术提供者、大数据服务提供者三类公司,大数据服务是大数据服务提供者的价值体现,本质是“通过发掘隐藏在大数据中的价值,不断推动大数据产业链中各个环节的发展和成熟”。

    大数据服务提供者有两种,一种是应用服务提供者,另一种是咨询服务提供者;当然,把大数据技术提供者称作技术服务提供者当也未尝不可。

    3、大数据不仅仅是概念

    中国工程院院士李德毅认为,云计算、大数据、人工智能是引领中国创新发展的原动力,如果将“互联网+”比作一只大鸟,大数据和云计算就是互补的两个翅膀,而人工智能则是鸟背上的乘客。

    根据《2016年大数据交易白皮书》的有关数据显示,2015年我国大数据市场规模1692亿元,同比增长了63.07%,仍处于快速发展期,预计2020年市场总体规模将达到13626亿元,年复合增速将达到51.8%。

    所以,每个IT人员都应该主动了解大数据,不仅仅是为了见面打招呼,它还会为我们带来某些实质性的收益。

    相关文章

      网友评论

        本文标题:当我说大数据时,我在说什么?

        本文链接:https://www.haomeiwen.com/subject/lyedkttx.html