《大数据时代》读书笔记-02更杂

作者: 毅然v | 来源:发表于2015-07-29 14:12 被阅读50次

执迷于精确性是信息缺乏时代和模拟时代的产物。只有5%的数据是结构化且能适用于传统数据库的。如果不接受混乱，剩下的95%的非结构化数据都无法被利用，只有接受不精确性，我们才能打开一扇从未涉足的世界的窗户。45

假设你要测量一个葡萄园的温度，但是整个葡萄园只有一个温度测量仪，那你就必须确保这个测量仪是精确的而且能够一直工作。反过来，如果每100棵葡萄树就有一个测量仪，有些测试的数据可能会是错误的，可能会更加混乱，但众多的读书合起来就可以提供一个更加准确的结果。因为这里面包含了更多的数据，而它不仅能抵消掉错误数据造成的影响，还能提供更多的额外价值。48

现在想想增加读书频率的这个事情。如果每隔一分钟就测量一下温度，我们至少还能够保证测量结果是按照时间有序排列的。如果变成每分钟测量十次甚至百次的话，不仅读书可能出错，连时间先后都可能搞混掉。48

计算机象棋程序总是步步为赢是由于对残局掌握的更好了，而之所以能做到这一点也只是因为往系统里加入了更多的数据。实际上，当棋盘上只剩下六枚棋子或更少的时候，这个残局得到了全面的分析，而且接下来所有可能的走法（样本=总体）都被制入了一个庞大的数据表格。这个数据表格如果不压缩的话，会有一太字节那么多。所以，计算机在这些重要的想起残局中表现得完美无缺和不可战胜。50

无所不包的谷歌翻译系统——2006年，谷歌公司也开始涉足机器翻译。这被当作实现“收集全世界的数据资源，并让人人都可以享受这些资源”这个目标的一个步骤。谷歌翻译开始利用一个更大更繁杂的数据库，也就是全球的互联网，而不再只利用两种语言之间的文本翻译。……尽管其输入源很混乱，但较其他翻译系统而言，谷歌的翻译质量相对而言还是最好的，而且可以翻译的内容更多。……之所以能做到这些，是因为它将语言视为能够判别可能性的数据，而不是语言本身。53

错误并不是大数据固有的特性，而是一个亟需我们去处理的现实问题，并且有可能长期存在。因为拥有更大数据量所能带来的商业利益远远超过增加一点精确性。56

当我们上传照片到Flickr网站的时候，我们会给照片添加标签。也就是说，我们会使用一组文本标签来编组和搜索这些资源。人们用自己的方式创造和使用标签，所以它是没有标准、没有预先设定的排列和分类，也没有我们必须遵守的类别的。任何人都可以输入新的标签，标签内容事实上就成为了网络资源的分类标准。……因为它们的存在，互联网上的资源变得更加容易找到，特别是像图片、视频和音乐这些无法用关键词搜索的非文本类资源。59

互联网上最火的网址都表明，它们欣赏不精确而不会假装精确。当一个人在网站上见到一个Facebook的“喜欢”按钮时，可以看到有多少其他人也在点击。当数量不多时，会显示像“63”这种精确的数字。当数量很大时，则只会显示近似值，比方说“4000”。这并不代表系统不知道正确的数据是多少，只是当数量规模变大的时候，确切的数量已经不那么重要了。60

要想获得大规模数据带来的好处，混乱应该是一种标准途径，而不应该是竭力避免的。60

宽容错误会给我们带来更大价值。63

我们怎么看待使用所有数据和使用部分数据的差别，以及我们怎样选择放松要求并取代严格的精确性，将会对我们与世界的沟通产生深刻的影响。随着大数据技术成为日常生活中的一部分，我们应该开始从一个比以前更大更全面的角度来理解事物，也就是说应该将“样本=总体”植入我们的思维中。65

大数据要求我们有所改变，我们必须能够接受混乱和不确定性。精确性似乎一直是我们生活的支撑，就像我们常说的“钉是钉，铆是铆”。但认为每个问题只有一个答案的想法是站不住脚的。不管我们承不承认。一旦我们承认了这个事实甚至拥护这个事实的话，我们离真相就又近了一步。66

网友评论

本文标题：《大数据时代》读书笔记-02更杂

本文链接：https://www.haomeiwen.com/subject/obwmqttx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

《大数据时代》读书笔记-02更杂

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读