美文网首页
《大数据时代》读书笔记-03更好

《大数据时代》读书笔记-03更好

作者: 毅然v | 来源:发表于2015-07-29 14:12 被阅读100次

    知道“是什么”就够了,没必要知道“为什么”。在大数据时代,我们不必非得知道现象背后的原因,而是要让数据自己“发声”。67

    林登与亚马逊推荐系统——……很快找到了一个解决方案。他意识到,推荐系统实际上并没有必要把顾客与其他顾客进行对比,这样做其实在技术上也比较繁琐。它需要做的是找到产品之间的关联性。1998年,林登和他的同事申请了著名的“item-to-time”协同过滤技术的专利。69

    林登做了一个关于评论家所创造的销售业绩和计算机生成内容所产生的销售业绩的对比测试,结果他发现两者之间的业绩相差甚远。他解释说,通过数据推荐产品所增加的销售远远超过书评家的贡献。……知道“是什么”可以创造点击率,这种洞察力足以重塑很多行业,不仅仅只是电子商务。……亚马逊的推荐系统梳理出了有趣的相关关系,但不知道背后的原因。知道是什么就够了,没必要知道为什么。71

    相关关系的核心是量化两个数据值之间的数理关系。相关关系强是指当一个数据值增强时,另一个数据值很有可能也会随之增加。我们已经看到过这种很强的相关关系,比如谷歌流感趋势:在一个特定的地理位置,越多的人通过谷歌搜索特定的词条,该地区就有更多的人患了流感。

    相反,相关关系弱就意味着当一个数据值增加时,另一个数据值几乎不会发生变化。例如,我们可以寻找关于个人的鞋码和幸福的相关关系,但会发现它们几乎扯不上什么关系。

    ……当然,即使是很强的相关关系也不一定能解释每一种情况,比如两个事物看上去行为相似,但很有可能只是巧合。……相关关系没有绝对,只有可能性。……通过给我们找到一个现象的良好的相关物,相关关系可以帮助我们捕捉现代和预测未来。71

    沃尔玛可以让供应商监控销售速率、数量以及存货的情况。沃尔玛通过打造透明度来迫使供应商照顾好自己的物流。许多情况下,沃尔玛不接受产品的“所有权”,除非产品已经开始销售,这样就避免了存货的风险也降低了成本。实际上,沃尔玛运用这些数据使其成为了世界上最大的“寄售店”。……沃尔玛公司注意到,每当在季节性飓风来临之前,不仅手电筒销量增加了,而且POP-Tarts蛋挞的销量也增加了。因此,当季节性风暴来临时,沃尔玛会把库存的蛋挞放在靠近飓风用品的位置,以方便形色匆匆的顾客从而增加销量。73

    我们用数据驱动的关于大数据的相关关系分析法,取代了基于假想的易出错的方法。大数据的相关关系分析法更准确、更快,而且不易受偏见的影响。建立在相关关系分析法基础上的预测是大数据的核心。75

    益百利有一种服务,可以根据个人的信用卡交易记录预测个人的收入情况。通过分析公司拥有的信用卡历史记录数据库和美国国税局的匿名税收数据,益百利能够得出评分结果。证明一个人的收入状况要花费10美元左右,但益百利的预测结果售价不足1美元。76

    这些相关关系甚至使得零售商能够比较准确地预测预产期,这样就能够在孕期的每个阶段给客户寄送相应的优惠券,这才是塔吉特公司的目的。78

    在社会环境下寻找关联物只是大数据分析法采取的一种方式。同样有用的一种方法是,通过找出新种类数据之间的相互联系来解决日常需求。比方说,预测分析法……系统把这些异常情况与正常情况进行对比,就会知道什么地方出了毛病。通过尽早地发现异常,系统可以提醒我们在故障之前更换零件或者修复问题。通过找出一个关联物并监控它,我们就能预测未来。79

    预测性分析并不能解释故障可能会发生的原因,只会告诉你存在什么问题。80

    当收集、存储和分析数据的成本比较高的时候,应该适当地丢弃一些数据。80

    这个系统依赖的是相关关系,而不是因果关系。它告诉你的是会发生什么,而不是为什么发生。这正是这个系统的价值!……数据表明,早产儿的稳定不但不是病情好转的标志,反而是暴风雨前的宁静,就像是身体要它的器官做好抵抗困难的准备。81

    幸福的非线性关系——多年来经济学家和政治家一直错误的认为收入水平和幸福感是成正比的。……但事实上,它们之间存在一种更复杂的动态关系:对于收入水平在1万美元以下的人来说,一旦收入增加,幸福感会随之提升;但对于收入水平在1万美元以上的人来说,幸福感并不会随着收入水平提高而提升。……这个发现对决策者来说非常重要。如果只看到线性关系的话,那么政策重心应完全放在增加收入上,因为这样才能增加全民的幸福感。而一旦察觉这种非线性关系,策略的重心就会变成提高低收入人群的收入水平,因为这样明显更划算。82

    当我们说人类是通过因果关系了解世界时,我们指的是我们在理解和解释世界各种现象时使用的两种基本方法:一种是通过快速、虚幻的因果关系,还有一种就是通过缓慢、有条不紊的因果关系。大数据会改变这两种基本方法在我们认识世界时所扮演的角色。84

    首先,我们的直接愿望就是了解因果关系。即使无因果关系存在,我们也还是会假定其存在。研究证明,这只是我们的认知方式,与每个人的文化背景、生长环境以及教育水平是无关的。……看看下面这三句话:“弗雷德的父母迟到了;供应商快到了;弗雷德生气了。”我们读到这里时,可能立马就会想到弗雷德生气并不是因为供应商快到了,而是他父母迟到了的缘故。实际上,我们也不知道到底是什么情况。即便如此,我们还是不禁认为这些假设的因果关系是成立的。……证明了人有两种思维模式。第一种是不费力的快速思维,通过这种思维方式几秒钟就能得出结果;另一种是比较费力的慢性思维,对于特定的问题,就是需要考虑到位。84

    快速思维模式使人们偏向用因果联系来看待周围的一切,即使这种关系并不存在。……在古代,这种快速思维模式是很有用的,它能帮助我们在信息量缺乏却必须快速做出决定的危险情况下化险为夷。但是,通常这种因果关系都是并不存在的。……卡尼曼指出,平时生活中,由于惰性,我们很少慢条斯理地思考问题。所以快速思维模式就占了上风。因此,我们会经常臆想出一些因果关系,最终导致了对世界的错误理解。85

    父母经常告诉孩子天冷时不戴帽子和手套就会感冒。然而,事实上,感冒和穿戴之间却没有直接的联系。有时,我们在某个餐馆用餐后生病了的话,我们就会自然而然的觉得这是餐馆食物的问题,以后可能就不再去这家餐馆了。事实上,我们肚子痛也许是因为其他的传染途径,比如和患者握过手之类的。然而,我们的快速思维模式使我们直接将其归于任何我们能在第一时间想起来的因果关系,因此,这经常导致我们做出错误的决定。85

    事实证明,一般来说,人被狂犬病狗咬后患上狂犬病的概率只有七分之一。即使巴斯德的疫苗有效,这也只适用于七分之一的案例中。无论如何,就算没有狂犬疫苗,这个小男孩活下来的概率还是有85%。87

    与相关关系一样,因果关系被完全证实的可能性几乎是没有的,我们只能说,某两者之间很有可能存在因果关系。87

    相关关系很有用,不仅仅是因为它能为我们提供新的视角,而且提供的视角都非常清晰。而我们一旦把因果关系考虑进来,这些视角就有可能被蒙蔽掉。88

    若要找出相关关系,我们可以用数学方法,但如果是因果关系的话,这却是行不通的。88

    如果把以确凿数据为基础的相关关系和通过快速思维构想出的因果关系相比的话,前者就更具有说服力。89

    在大多数情况下,一旦我们完成了对大数据的相关关系分析,而又不再满足于仅仅知道“是什么”时,我们就会继续向更深层次研究因果关系,找出背后的“为什么”。89

    (关于纽约每年有很多沙井盖会发生爆炸的事情,联合爱迪生电力公司通过统计学家的帮助,得出证明)最重要的因素是这些电缆的使用年限和有没有出现过问题。91

    我们需要改变我们的操作方式,使用我们能收集到的所有数据,而不仅仅是使用样本。我们不能再把精确性当成重心,我们需要接受混乱和错误的存在。另外,我们应该侧重于分析相关关系,而不再寻求每个预测背后的原因。92

    ……这就意味着普遍规则都不重要了,比方说世界的运作、人类的行为、顾客买什么、东西什么时候会坏等。如今,重要的就是数据分析,它可以揭示一切问题。93

    “理论的终结”似乎暗示着,尽管理论仍存在于像物理、化学这样的学科里,但大数据分析不需要成形的概念。这实在荒谬。……尽管这个答案不怎么样!大数据绝对不会叫嚣“理论已死”,但它毫无疑问会从根本上改变我们理解世界的方式。很多旧有的习惯将被颠覆,很多旧有的制度面临挑战。93

    大数据时代将要释放出的巨大价值使得我们选择大数据的理念和方法不再是一种权衡,而是通往未来的必然改变。但是在我们到达目的地之前,我们有必要了解怎样才能到达。94

    大数据发展的核心动力来源于人类测量、记录和分析世界的渴望。信息技术变革随处可见,但是如今的信息技术变革的重点在“T”(技术)上,而不是在“I”(信息)上。现在,我们是时候把聚光灯打向“I”,开始关注信息本身了。97

    相关文章

      网友评论

          本文标题:《大数据时代》读书笔记-03更好

          本文链接:https://www.haomeiwen.com/subject/tiwmqttx.html