这本书,在我书柜里搁置了少说3年,直到这几天才终于读完了它。读小说固然饶有趣味,但是有时候读一下偏理论的书籍也是不错的。可惜有个略麻烦的事情就在于,读稍微理论的东西,有时候自己看了几页就已经坚持不住了。这本书就着这样,在第一部分卡住,一卡就是2年。
在谈这本书的读后感前,我读完这本书后,我理解的大数据。简单的理解,“大数据”就是大量的数据,海量的数据。什么叫做大量的数据,几百,几千个数据可不能叫做大量的数据,对一个事物只对应几个数据条目也不叫大量的数据。对应一个事物,可能存在着许多繁杂的,甚至于我们认为无聊无用的数据,而且有量非常的大。如书中一开头讲到,谷歌用了5000万条美国人最频繁检索的词条和美国疾控中心在2003年至2008年间季节性流感传播时期的数据进行比较,用来分析是否能够通过搜索这些人是否患上流感。这些在我们平常人的眼里,
一是数据量大,5000万条美国人最频繁检索词条,那肯定是由庞大的检索记录数据库进行排序比较后得出的结果。
二是数据比较无聊,5000万条最频繁检索词条除了他们希望知道的信息,一定还包括其他的东西,而这些有时我们并不关心。
三感觉对照的两个数据库两者没太大联系。
四从检索条目来判断“人是否患上流感”让人觉得相关性不是很大。可是在分析之后,却发现,某些词条被搜索,这个人就很可能患上流感。相关性非常地高。
这本书让我印象最深刻的有2个说法:
1、在计算机时代数据存储和处理能力已经大大加强,数据已经从过去追求精确性,改成混杂性;数据也从以前追求因果关系,改为相关关系。
这个其实和金融方面关于市场有效性成立的独立理性偏差假设(指不要求所有投资者都是理性的,但他们的偏差可以大体抵消)描述优点类似。当数据量从少量到非常大的时候,混杂有偏差的数据,最后能够得出相对正确的结论,就是由于这些偏差能够互相抵消。
但是,两个相关性高的事物,却不一定有因果关系。还是书里面开头的例子,查找“哪些是治疗咳嗽和发热的药物”等词条的人很可能患上了流感,这说明查找这个搜索条目和流感是有强相关性的。但是这些患者不是因为查了这些词条才得了流感。
2、由于数据正在被或被知悉或不被知悉的情形下被收集,且有可能在不被知悉的情况下,被个人和企业使用数据。隐私在大数据面前会失效。
我们的所有数据会被收集,包括但不限于我们的姓名地址,网购信息,我们刷卡记录,我们在百度和谷歌进行搜索时用过的搜索条。或许我们自己早已经不记得我们使用过什么搜索条目,但是数据库会帮我们记住。而不知不觉地,这些搜索条目可能会被第三方用于预测我们的行为,我们的需求。
我大胆设想,这样下去,或许某一天,我们被某国拒签,或许是由于某国的领事馆除了审查我的身份,还利用他们所掌握到的数据库,查询了我们以往的搜索条,我们的社交网络,然后通过大数据分析,来得出我们不应当批准入境的结论。
对于整本书来说,都在讨论对于管理行为、商业行为和公共福利行为。我们往往想知道“是什么”和“怎么办”,而并不想过分探究“为什么”,在这种情况下,大数据能够在很大程度上帮助我们。但是在合上书本以后,我认为在一部分领域里,我们需要有一个“为什么”的精神。这样,我们才有希望走的更远。
网友评论