执迷于精确性是信息缺乏时代和模拟时代的产物。在那个信息贫乏的时代,任意一个数据点的测量情况都对结果至关重要。所以我们需要确保每个数据的精确性,才不会导致分析结果的偏差。如今,大数据给我们带来的利益,让我们能够接受不精确的存在了。莱维斯说:“预测给我们知识,而知识赋予我们智慧和洞见。”大数据的核心在于预测,有时候事物的发展趋势比精确性更重要。
Hadoop是与谷歌的MapReduce系统相对应的开源式分布系统的基础架构,它非常善于处理超大量的数据。 大的数据库并不是固定在某个地方的,它一般分散在多个硬盘和多台电脑上。为了确保其运行的稳定性和速度,一个记录可能会分开存储在两三个地方。如果一个地方的记录更新了,其他地方的记录则只有同步更新才不会产生错误。传统的系统会一直等到所有地方的记录都更新。
相比依赖于小数据和精确性的时代,大数据因为更强调数据的完整性和混杂行,帮助我们进一步接近事实的真相。大数据时代将要释放出的巨大价值使得我们选择大数据的理念和方法不再是一种权衡,而是通往未来的必然改变。但是在我们达到目的地之前,我们有必要了解怎样才能到达。
“数字化”和“数据化”是两个不同的概念,数字化指的是把模拟数据转换成用0和1表示的二进制码;数据化是指把一种事物或者某种现象量化的过程。数字化带来了数据化,但数字化无法取代数据化。数据化是将模拟数据变为计算机可读的数据,和数据化有本质上的不同。计量和记录的需求是数据化的前提,计量和记录一起促进了数据的诞生,所以量化一切是数据化的核心。
社交网络上发表的状态、心情都可以反映一个人的情绪,通过统计分析一个人发的状态信息,可以将其情绪数据化,这样可以对人进行情感分析,可以做性格预测,甚至反腐。因为大数据时代,数据公开更有利于政府运营效率,能使权利在阳光下运行。
所谓大数据思维,是指一种意识,认为公开的数据一旦处理得当就能为千百万人急需解决的问题提供答案。过分强调技术和技能而忽视数据本身的重要性也是不可取的,数据才是最核心的部分。
我们往往倾向于把专业人才看得比全才更重要,也就是说深度就是财富。然而,专业技能就像精确性一样,只适用于小数据时代,当时人类掌握的数据永远不够多也不够准确,所以需要依赖直觉和经验指导。在那个时代,经验是先决的,因为只有通过这种无法从书本上和别人口中得到的、埋藏在潜意识里的知识的积累,我们才能做出更明智的决定。
网友评论