1.什么是数据
数据是事实或观察的结果,是对客观事物的逻辑归纳,是用于表示客观事物的未加工的原始材料。数据经过加工之后就成为信息。
2.大数据的定义
麦肯锡给出的大数据定义是:大数据是指大小超过常规的数据库工具获取、存储、管理和分析能力的数据集。但它同时强调,并不是说一定要超过特定的TB值的数据才能是大数据。
亚马逊的大数据科学家John Rauser给出了一个简单的定义:大数据是任何超过一台计算机处理能力的数据量。
百度百科中说到:大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
总之,对大数据的概念并没有一个明确的概念,也没有说数据要有多大才能算是大数据。通熟易懂地将,大数据就是很大很大的数据,要多大有多大。
3.大数据有多大?“互联网上的一天”告诉我们大数据有多大
一天之中,互联网产生的全部内容可以刻满1.68亿张DVD;
发出的邮件有2940亿封之多(相当于美国两年的纸质信件数量);
发出的社区帖子达200万个(相当于《时代》杂志770年的文字量);
卖出的手机为37.8万台,高于全球每天出生的婴儿数量37.1万……
截止到2012年,数据量已经从TB(1024GB=1TB)级别跃升到PB(1024TB=1PB)、EB(1024PB=1EB)乃至ZB(1024EB=1ZB)级别。
国际数据公司(IDC)的研究结果表明,2008年全球产生的数据量为0.49ZB,2009年的数据量为0.8ZB,2010年增长为1.2ZB,2011年的数量更是高达1.82ZB,相当于全球每人产生200GB以上的数据。而到2012年为止,人类生产的所有印刷材料的数据量是200PB,全人类历史上说过的所有话的数据量大约是5EB。
4.大数据的特点 4个V
Volume大量:这个特点不用说就知道了吧,不是若不是大量的,怎么能说是大数据呢?
Variety多样:大数据有多种多样性:文字、图片、视频、音乐等等
Value价值:我们通过大数据分析,就可以得到大数据中蕴含的信息,这些信息是最珍贵的。比如说你经商上某宝,有一天你搜索了大数据的书,那么它就会在首页给你推荐所有关于大数据的书,这就是你的搜索记录让大数据分析系统分析出你需要一本关于大数据的数,于是给你智能推荐你需要的书,这个也就是精准营销。大数据分析出你的搜索记录搜索行为这些信息,是很珍贵的,这就是它的价值。
Velocity高速:大数据也是高速的,比如说你出行的时候需要查找最优路径,于是大数据系统会分析现在各条路上的人流量,给你推荐人最少的的最优路径,这个是需要实时计算的,也就是高速计算。
5.大数据工具网站 www.apache.org,绝大多数大数据的工具都是在这个网站中的。
网友评论