更杂:不是精确性,而是混杂性
允许不精确
对“小数据”而言,最基本、最重要的要求就是减少错误,保证质量。因为收集信息的有限意味着细微的错误会被放大,甚至有可能影响整个结果的准确性。
在大数据时代,在不断涌现的新情况里,允许不精确的出现已经成为一个新的亮点,而非缺点。因为放松了容错的标准,人们掌握的数据也多了起来,还可以利用这些数据做更多新的事情。
在整合来源不同的各类信息的时候,因为它们通常不完全一致,所以也会加大混乱程度。混乱还可以指格式的不一致性,因为要达到格式的一致,就需要进行数据处理之前仔细地清洗数据,而这在大数据背景下很难做到。
虽然我们得到的信息不再那么准确,但收集到的数量庞大的信息让我们放弃严格精确的选择变得更加划算。
“大数据”通常用概率说话,而不是板着“确凿无疑”的面孔。整个社会要习惯这种思维需要很长的时间,其中也会出现一些问题。但现在,有必要指出的是,当我们试图扩大数据规模的时候,要学会拥抱混乱。
大数据的简单算法比小数据的复杂算法更有效
彼得·诺维格,谷歌公司人工智能方面的专家,和他的同事在一篇题为《数据的非理性效果》的文章中写道:“大数据基础上的简单算法比小数据基础上的复杂算法更加有效。”他们就指出,混杂是关键。
纷繁的数据越多越好
大数据时代要求我们重新审视精确性的优劣。执迷于精确性是信息缺乏时代和模拟时代的产物。如今,我们已经生活在信息时代。我们要做的就是要接受这些纷繁的数据并从中受益,而不是以高昂的代价消除所有的不确定性。
大数据不仅让我们不再期待精确性,也让我们无法实现精确性。接受数据的不精确和不完美,我们反而能够更好地进行预测,也能够更好地理解这个世界。
错误不是大数据固有的特性,而是一个亟待我们去处理的现实问题,并且有可能长期存在。
混杂性,不是竭力避免,而是标准途径
清楚的分类被更混乱却更灵活的机制所取代了。互联网上最火的网址都表明,它们欣赏不精确而不会假装精确。这并不代表系统不知道正确的数据是多少,只是当数量规模变大的时候,确切的数量已经不那么重要了。
要想获得大规模数据带来的好处,混乱应该是一种标准途径,而不应该是竭力避免的。
新的数据库设计的诞生
新的数据库设计打破了关于记录和预设场域的成规。近年的大转变就是非关系型数据库的出现。
传统数据库的设计要求在不同的时间提供一致的结果。但是,随着数据数量的大幅增加以及系统用户的增加,这种一致性将越来越难保持。当数据广泛地分布在多台服务器上而且服务器每秒钟都会接受成千上万搜索指令的时候,同步更新就比较不现实了。因此,多样性是一种解决的方法。
据估计,只有5%的数字数据是机构化的且能适用于传统数据库。如果不接受混乱,剩下95%的非结构化数据都无法被利用。通过接受不精确性,我们打开了一个从未涉足的世界的窗户。
我们怎么看待使用所有数据和使用部分数据的差别,以及我们怎样选择放松要求并取代严格的精确性,将会对我们与世界的沟通产生深刻的影响。随着大数据技术成为日常生活中的一个部分,我们应该开始从一个比以前更大更全面的角度来理解事物,也就是说应该将“样本=总体”植入我们的思维中。
相比依赖于小数据和精确性的时代,大数据因为更强调数据的完整性和混杂性,帮助我们进一步接近事实的真相。
大数据要求我们有所改变,我们必须能够接受混乱和不确定性。精确性似乎一直是我们生活的支撑。但认为每个问题只有一个答案的想法是站不住脚的,不管我们承不承认。一旦我们承认了这个事实甚至拥护这个事实的话,我们离真相就又近了一步。
(46-66)
网友评论