美文网首页每天写1000字读书
【《大数据时代》读书笔记1】大数据,大转变

【《大数据时代》读书笔记1】大数据,大转变

作者: 小木木1964 | 来源:发表于2016-09-27 21:15 被阅读90次

    如果从大四跟着某老师做关于网络学堂数据挖掘的SRT开始算起,与大数据的缘分竟已有7年之久,虽然一直都只是浅尝辄止。《大数据时代》是大数据的先河之作,对于帮助读者厘清大数据的基本概念、构建大数据知识框架有着十分重要的作用。这篇读书笔记主要讨论《大数据时代》一书的前一至三章,即大数据带来的三大转变。

    更多,不是随机样本,而是全体数据。大数据是采用所有数据的方法,所有数据既可以是相扑比赛中运动员过去所有的比赛资料,也可以是庞大的以PB计量的数据库。大数据的“大”是因为“全”,虽然“全”了不一定数据量巨大,就如相扑比赛中运动员的比赛资料,其数据量可能不超过一张高清晰度的照片。当然,一般来说,在现阶段这个数据大爆炸的时代,数据的“全”往往也意味着数据的大。

    对所有数据的采用,有助于克服随机采样的缺陷,并得以对数据进行深度探讨。一直以来,随机采样是小数据时代的利器,可以凭借最少的数据获得最多的信息,但是采样难以绝对随机、不适合考察子类别、调查结果缺乏延展性等限制,让数据无法更好“发声”。现阶段,我们拥有了足够的的数据处理和存储能力,也拥有了最先进的分析技术,我们可以让所有数据自由起舞,无需戴着镣铐,尽情展示它们最迷人的、我们从未想过见过的舞姿。

    更杂,不是精确性,而是混杂性。“小而精”的时代已经过去,大数据让我们拥抱“大而杂”。对于追求完美主义的人来说,放弃精确性是一件让人很痛苦的事情,但是,我们必须看到,通过牺牲一定程度上的精确性,换来的是更广泛、更高频率的数据。大量、格式不一致的数据混杂在一起,与简单的算法也能配合默契,大数据弥补了数据不够精确的缺憾,让数据的混杂性成为一种标准途径。

    于是,在只有5%的数字数据是结构化的、能适用于传统数据库的背景下,曾经苦苦追求数据结构化的数据库设计,也开始被不精确渗入,以牺牲一部分精确性为代价,换来了数据的大而全,换取了事物的全貌。需要注意的是,精确性的牺牲并不意味着数据可以是错误的,虽然在一定程度上这种错误的影响也可以被抵消,但是,我们必须牢固树立一个意识,那就是,不论是在大数据时代、还是小数据时代,错误都需要尽可能避免。

    更好,不是因果关系,而是相关关系。上周末可能是最后一次的国家司法考试,当年被各种虐的因果关系,在大数据面前,似乎也不那么重要了,心里产生一种“因果关系你也有今天”的愉悦感。其实,因果关系是一种特殊的相关关系,只不过这种相关关系太有魅力,吸引着无数人上下求索。

    相关关系分析重点关注“是什么,而不是为什么”,打败亚马逊书评团队的数据推荐系统,并不懂为什么这个人要买这本书,但它知道这个人要买,然后做出相应的推荐,这就足够了,不是么。关联物是预测的关键,通过找到一个现象良好的关联物,甚至可以帮助我们捕捉现在、预测未来,提示沃尔玛在飓风季节把蛋挞和飓风用品放在一起的成功实践,就是一个很好的例证。大数据的核心,就是建立在相关关系分析法基础上的预测,相关关系分析法更准确、更快,且不易受偏见影响,能够克服快速思维中对因果关系武断认定的缺陷,为我们提供新的、更加清晰的视角。

    知行合一,知为先。大数据带来的大转变,最先改变的就应该是思维。这三章内容,其实是为后文奠定基础,也为大数据描绘了一个基本框架。更多,更杂,更好,才能拥抱大数据,才能让数据更好发声,让生活更多改变。

    相关文章

      网友评论

        本文标题:【《大数据时代》读书笔记1】大数据,大转变

        本文链接:https://www.haomeiwen.com/subject/dcqhyttx.html