我们首先从大数据是什么开始讲起,!下面由我来带领大家!展开我们本次的大数据学习之旅!大数据是什么,内容将包括大数据的产生,发展大数据的基本概念。首先我们来追溯一下大数据的产生与发展,大数据的产生和发展主要经历了三个阶段。
第一个阶段,我们称为是萌芽期!自上世纪九十年代至本世纪初,随着数据挖掘理论和数据库技术的逐步成熟,一批商业智能工具和知识的管理技术也开始得到应用,比如数据仓库,专家系统知识管理系统等等。第二阶段我们称为是成熟期。本世纪的前十年Web2.0应用的迅猛发展,非结构化数据的大量产生,使得传统的处理方法已经难以应对,而大数据技术却快速的突破。而大数据的解决方案也逐渐的走向成熟。大数据在成熟期形成了并行计算与分布式系统两大核心技术。谷歌的GFS和MapReduce等大数据技术呢也受到了追捧!开源技术Hadoop平台也开始大行其道!而第三个阶段我们称为大规模的应用期。2010年以后,呢大数据开始广泛用到各行各业!人们开始用数据来驱动决策,社会的信息化智能化程度也大幅的提高。
所以,大数据的发展,历经茫崖成熟,再到大规模应用三个阶段。
我们了解了大数据的发展历程,那究竟什么是大数据?关于大数据的概念众说纷纭,甚至已经成为了一个商业问题,并且在商业出版社被大量的报道。比如福布斯的杂志报道称,大数据已经抵达赛特医疗保健家庭,通过使用这个分析工具,每年超过200万的复杂病例患者得到了帮助。纽约时报指出,数据已经成为一类新的经济资产,就像货币或者是黄金一样。而CNBC呢也曾这样比喻,数据就像新型石油一样,为挖掘的没有什么价值,但经过加工提炼以后,将会极大的助力世界发展。那么我们究竟如何去定义大数据?其实呢到目前为止,大数据还没有一个明确的统一的定义,不同组织机构对大数据有着不同的描述。麦肯锡认为,大数据是指大小超出了典型数据库软件的采集存储管理和分析等能力的数据集。他认为大数据的一般范围是从几个TB到几个pb,而维基百科给出的定义是,无法在一定时间内使用常规的软件工具,对其内容进行抓取管理和处理的大量而复杂的数据集合。
美国国家标准技术研究院给出的定义是,数量大,获取速度快,或者是形态多样的数据,难以使用传统的关系型数据分析方法进行有效的分析,或者需要大规模的水平扩展,才能高效处理的这种数据形态。而Gartner公司认为大数据是一种体量大快速和多样化的信息资产,需要使用高效率和创新型的信息技术加以处理,来提高发现洞察,做出决策和优化流程的能力。可见对大数据的定义还没有统一的定论。但不论哪一种描述,关于大数据的思维特征却是一致公认的。那什么才是大数据的思维特征?呢我们来一起认识一下。首先第一个V指的是VOLUME,容量。主要指非结构化数据的规模和增长速度。因为非结构化数据占数据总量的80%到90%,同时也比结构化数据增长快十倍到50倍,并且数据量是传统数据库的十倍到50倍。第二个V指的是为Variety,多元化。主要指大数据的易构和多样性。数据有很多不同的形式,比如文本图像视频机器数据等等,这些数据大多是无模式或者是模式不明显。第三个V值得是value,价值,主要体现在大量的不相关,信息价值密度低,需要通过深度复杂分析,才可以对未来的趋势和模式进行预测。第四个V指的是Velocity高效。主要体现在实时分析,实时呈现分析结果。
好,那么接下来我们详细分析一下思维特征。第一个,V580亩数据的体量巨大,主要体现在从TB级别到pb级别。截至目前为止,人类生产的所有印刷材料的数据量是两百个pb。那么当前典型的个人计算机硬盘的容量为TB量级,而一些大企业的数据量已经接近到一B级别,这是什么概念?呢我们来看一下容量单位的一些形象事例。比如一个pb等于1024个TB相当于50%的全美学术研究图书馆藏书的内容总和,一个1B等于1024个pb,那五个E币就相当于至今全世界人类所讲过的所有话语,一个ZB等于1024个1B如同全世界海滩上的沙子的数量总和。一个歪B等于1024ZB相当于7000为人类体内的细胞数的总和,可见呢大数据的数据量确实是海量的。第二个VVIP多样化,其实物联网数据互联网数据企业行业内的数据呢都是大数据的数据组成部分。
那么大数据的多样性主要体现在,第一数据的来源多,企业内部多个应用系统的数据,互联网和物联网的兴起,带动微博社交网站传感器等多种数据来源。
第二,数据的种类多,保存在关系型数据库中的结构化数据其实呢只占少数,而80%到90%的数据是诸如图片音频视频模型连接信息文档等等一些非结构化和半结构化数据。那么相对以往便于存储的以文本为主的结构化数据而言,这些非结构化数据越来越多。同时这些多类型的数据对数据的处理能力也提出了更高的要求。
第三,关联性强。数据之间的频繁交互,比如游客在旅途中上传的图片和日志,其实与游客的位置和行程等信息呢有很强的关联性。因此大数据不仅体现在量的巨大,还体现在种类的丰富多样。而第三个VV6价值。对于大数据本身而言,它的价值密度低,这是它的典型特征。而如何去挖掘大数据的潜藏价值,像沙里淘金一样,从海量数据中挖掘稀有并且珍贵的信息,那么才是大数据的核心。那么第四个V指的是什么?
在大数据领域能否实现实施的数据流处理,是区别大数据引用和传统数据仓库技术BA的关键差别之一。那比如我们以一秒为临界点,对于大数据应用而言,要求必须在一秒内形成答案,否则处理结果就是过时或者是无效的。根据Idc的数字宇宙报告,预计到2020年,全球数据的使用量将达到35.2个ZB那么在如此海量的数据面前,处理数据的效率就是企业的生命。好,以上就是大数据的思维特征。
下一次我们将继续探索大数据,如想进一步视频学习,请请访问华为云学院(https://edu.huaweicloud.com/)
我在华为云学院等你,不见不散喔~
网友评论