美文网首页
大数据就是大量的数据吗?

大数据就是大量的数据吗?

作者: CoryLiu | 来源:发表于2020-01-21 22:08 被阅读0次

    大数据,就是大量数据吗,比如100G, 一个T的视频,又或者是1000万,甚至一个亿的姓名资料。这些可以算是大数据吗?

    吴军博士在《智能时代》一书中,给我们介绍了大数据的几个特征。

    大数据的特征

    首先是体量大,这一点业内业外都认同,技术发展到今天,我们不管是传输还是存储数据的能力都有了量级的提升,以前觉得1T都挺多,现在都以P,E,Z来记了。

    实际上大数据的大只是一个相对的概念(是big 而不是large),比如全中国人所有人的姓名资料,也许只有几百兆,这是个大数据。相反手头上有独立的几百部电影,也许有几个T,也不构成大数据。

    大数据更重要的另外两个特征,一个是多维度,一个是完备性。

    多维度意思是,数据类型多种多样,比如照片,不仅有图像信息,还包含地理位置,照相时间,用什么相机照的,用什么软件加工过等,这就是多维度的信息。

    完备性体现为完整性连续性,比如上面照片例子,如果获取了一个地区一段时间内所有人手机所照的照片,那这个信息就是大数据了。

    大量的具备多维度和完备性的数据,其实最后体现出来的结果是,数据具可分析性,可以从数据中挖掘出有价值的信息。

    大数据的本质

    大数据的本质就是利用信息消除不确定性。

    吴军在书中也举了几个大数据来挖掘出有用信息的例子。

    比如美国通过居民的用电大数据,分析其用电模式,找出在房间里面种大麻的罪犯。

    一些购物网站分析用户的购买习惯,还有退货记录。推荐不同的产品,甚至报不同的价格。

    谷歌的翻译软件,通过学习网络上所有翻译段落,直接将源语言转化成目标语言。

    用相关性取代因果关系

    以前我们习惯用的机械思维,总是希望找到事物的因果关系,找出原理,从小样本中找到规律然后推导到全局。

    大数据的思维,是直接分析全部样本,统计事件发生的相关性,通过相关性直接找到问题的答案。

    前面例子谷歌翻译不再研究语法,不再研究为什么要这么翻译,而是透过大量数据的统计分析,直接找到这个翻译的答案。

    相关文章

      网友评论

          本文标题:大数据就是大量的数据吗?

          本文链接:https://www.haomeiwen.com/subject/svcyzctx.html