大数据的本质

作者: 一阳归来 | 来源:发表于2019-12-20 08:01 被阅读0次
大数据的本质

首先我们必须承认世界的不确定性,这样我们就不会采用确定性的思维方式去面对一个不确定性的世界。当我们了解到信息或者说数据能够消除不确定性之后,便能理解为什么大数据的出现能够解决那些智能的问题,因为很多智能问题从根本上来讲无非是消除不确定性的问题。对于前面提到的大数据的三个特征,即数据量大、多维度和完备性。在这个基础之上,我们就能够讲清楚大数据的本质。

先谈谈数据量的问题。在过去,由于数据量不够,即使使用了数据,依然不足以消除不确定性,因此数据的作用其实很有限,很多人忽视它的重要性是必然的。在那种情况下,哪个领域先积攒下足够多的数据,它的研究进展就显得快一些。具体到机器智能方面,语音识别是最早获得比较多数据的领域,因此数据驱动的方法从这个领域产生也就不足为奇了。

关于大数据多维度的重要性问题,可以从两个角度来看待它。第一个视角是「互信息」,为了获得相关性通常需要多个维度的信息。比如我们要统计「央行调整利息」和「股市波动」的相关性,只有历史上央行调整利息一个维度的信息显然是不够的,需要上述两个维度的信息同时出现。第二个视角是所谓的「交叉验证」,我们不妨看这样一个例子:夏天的时候,如果我们感觉很闷热,就知道可能要下雨了。也就是说,「空气湿度较高」和「24小时内要下雨」之间的互信息较大。但是,这件事并非很确定,因为有些时候湿度大却没有下雨。不过,如果结合气压信息、云图信息等其他维度的信息,也能验证「24小时内要下雨」这件事,那么预测的准确性就要大很多。

最后,我们从信息论的角度来看看数据完备性的重要性。在大数据时代,在某个领域里获得数据的完备性还是可能的。比如在过去把全国所有人的面孔收集全是一件不可想象的事情,但是今天这件事情完全能做到。当数据的完备性具备了之后,就相当于训练模型的数据集合和使用这个模型的测试集合是同一个集合,或者是高度重复的。在这种情况下,就不会出现覆盖不了很多小概率事件的灾难。

这样数据驱动才具有普遍性,而不再是时灵时不灵的方法论。

由此可见,大数据的科学基础是信息论,它的本质就是利用信息消除不确定性。虽然人类使用信息由来已久,但是到了大数据时代,量变带来质变,以至于人们忽然发现,采用信息论的思维方式可以让过去很多难题迎刃而解。

相关文章

  • 数据的本质

    1有一种思想是以数据为核心。

  • C基础-内存的四驱模型

    数据类型的本质 数据类型本质:一个固定大小连续的内存块。数据类型的作用:分配内存空间大小 变量的本质 变量的本质:...

  • 大数据敲门砖,想入行大数据必须学习这些知识

    基础概念 大数据的本质 一、数据的存储:分布式文件系统(分布式存储) 二、数据的计算:分部署计算 基础知识 学习大...

  • 大数据的本质

    首先我们必须承认世界的不确定性,这样我们就不会采用确定性的思维方式去面对一个不确定性的世界。当我们了解到信息或者说...

  • 数据的哲学本质

    最近一直在思考数据的哲学本质,从哪里来到哪里去是什么,越来越倾向于一种真实世界中无处不在的万物之本的物质,水。 水...

  • MYSQL实战优化——buffer pool生产经验

    数据库并发性能优化 1、buffer pool在访问的时候需要加锁吗buffer pool本质就是一大块内存数据结...

  • 语言的数据类型及其本质

    1、语言是信息的载体,信息的本质就是数据。语言的本质是一种对信息或数据的计算;计算机的语言本质是一种数据计算,自然...

  • 物联网

    数据才是物质的本质

  • ContentProvider 使用方法详解

    ContentProvider是Android四大组件之一,其本质上是一个标准化的数据管道,它屏蔽了底层的数据管理...

  • 小数据思维的应用

    大数据的作用是毋庸置疑的,从宏观层面看大基本面,再从某个面去细化更多的数据,拆解各中本质,而小数据更是可以再具体的...

网友评论

    本文标题:大数据的本质

    本文链接:https://www.haomeiwen.com/subject/kmsjgctx.html