不是精确性,而是混杂性
允许不精确
在不断涌现的新情况里,允许不精确的出现已经成为了一个新的亮点,而非缺点。因为放松了容错的标准,人们掌握的数据也多了起来,还可以利用这些数据做更多新的事情。这样不就是大量数据优于少量数据那么简单了,而是大数据创造了更好的结果。
- 在很多情况下,与致力于避免错误相比,对错误的包容会带给我们更多好处。
- 数据不可能完全错误,但是为了了解大致的发展趋势,我们愿意对精确性做出一些让步。
- 当我们试图扩大数据规模的时候,要学会拥抱混乱。
大数据的简单算法比小数据的复杂算法更有效
- 1954年,IBM以计算机的250个词语和六条语法规则为基础,将60个俄语词组翻译成了英语,失败。
- 20世纪80年代后期,IBM试图让计算机自己估算一个词或一个词组适用于用来翻译另一种语言中的一个词和词组的可能性,然后再决定某个词和词组在另一种语言中的对等词和词组。20世纪90年代,将加拿大会议资料翻译成英语和法语并出版,似乎很有效。然而,飞跃后,成效不大。
无所不包的谷歌翻译系统
- 2006年,Google翻译开始利用全球的互联网。谷歌翻译系统会从各种各样语言的公司网站上寻找对译文档,还会去寻找联合国和欧盟发布的官方文件和报告的译本。它甚至会吸收速读项目中的书籍翻译。尽管输入源混乱,翻译质量最好,翻译内容更多。
谷歌之所以能比IBM多利用成千上万的数据,是因为它接受了有错误的数据。
纷杂的数据越多越好
大数据时代要求我们重新审视精确性的优劣
- 信息时代,我们所掌握的数据库越来越全面,我们不再需要担心某个数据点对整套分析的不利影响;
- 我们要接受纷繁的数据,从中获益,而不是以高昂的代价消除所有的不确定性;
- 当我们掌握了大量的新型数据时,精确性就不那么重要了 ,我们同样可以掌握事情的发展趋势;
- 错误性不是大数据固有的,它是测量工具的缺陷。
麻省理工与通货紧缩预测软件
- 联邦政府采集数据花费两亿五千万美元,数据精确有序,但是存在滞后。
- MIT的贝托·卡瓦略(Alberto Cavell)和罗伯托·里哥本(Oberto Rigobon)提出大数据方案,那就是接受更混杂的数据。
- 通过软件在互联网上收集信息,尽管数据很混乱,但和好的分析法结合,他们比那些依赖官方数据的人早2个月知道通货紧缩趋势。
混杂性,不是竭力避免,而是标准途径
在“小数据”范围内,分类法和索引法可以帮助我们存储和检索数据资源,一旦把数据规模增加好几个数量级,这些预设一切都各就各位的系统就会崩溃。
- 清楚的分类机制被更混乱却更灵活的机制所取代了;
- 任何人都可以输入新的标签,标签内容事实上就成为了网络资源的分类标准;
- 我们添加标签时所固带的不准确性从某种意义上说明我们能够接受世界的纷繁复杂。
互联网上最火的网址都表明,它们欣赏不精确而不会假装精确。
- Facebook的“like”,数量不多时,会显示精确数字,当数量很大时,则只会显示近似值。这并不代表系统不知道正确的数据是多少,只是当数量规模变大的时候,确切的数量已经不那么重要了。
要想获得大规模数据带来的好处,混乱应该是一种标准途径。而不应该是竭力避免的。
- 传统的数据库引擎要求数据高度精确和准确排列。索引是事先就设定好了的,这也限制了人们的搜索。增加一个新的索引往往既消耗时间,又惹人讨论,因为需要改变底层的设计。
- 我们现在拥有各种各样、参差不齐的海量数据。很少数据完全符合预先设定的数据种类。而且,我们想要数据回答问题时,也只有在我们收集和处理数据的过程中才会知道。
新的数据库设计的诞生
非关系型数据库的出现,它不需要预先设定记录结构,允许处理超大量五花八门的数据。因为包容了结构多样性,这些数据库设计就要求更多的处理和存储资源。
-
帕特·赫兰德认为处理海量的数据会不可避免地导致部分信息的缺失。虽然这本来就是有“损耗性”的,但是能快速得到想要的结果弥补了这个缺陷。
-
大的数据库并不是固定在某个地方的,它一般分散在多个硬盘和多台电脑上。一个记录可能会分开存储在两三个地方。当一个地方的记录更新了,其他地方的记录只有同步更新才不会产生错误。当数据变得很多时,同步更新就比较不现实了。因此,多样性是一种解决的方法。
Hadoop与VISA的 13分钟
- 典型的数据分析需要经过“萃取、转移和下载”这样一个操作流程,但是Hadoop就不拘泥于这样的方式。相反,它假定了数据量的巨大使得数据完全无法移动,所以人们必须在本地进行数据分析。
- 信用卡公司VISA使用Hadoop,能够将处理730亿单交易所需的时间,从一个月缩短至仅 13分钟。
“宽容错误会给我们带来更多价值”
接受混乱,我们就能享受极其有用的服务,这些服务如果使用传统方法和工具是不可能做到的,因为那些方法和工具处理不了这么大规模的数据。
社会将两个折中的想法不知不觉地渗入了我们的处事方法中。
-
第一个折中是,我们默认自己不能使用更多的数据,所以我们就不会去使用更多的数据。但是,数据量的限制正在逐渐消失,而且通过无限接近“样本=总体”的方式来处理数据,我们会获得极大的好处。
-
第二个折中出现在数据的质量上。对于大部分事情,快速获得一个大概的轮廓和发展脉络,就要比严格的精确性要重要得多。
相比依赖于小数据和精确性的时代,大数据因为更强调数据的完整性和混杂性,帮助我们进一步接近事实的真相。
网友评论