美文网首页
Y7-Big Data

Y7-Big Data

作者: 罗尹伊 | 来源:发表于2016-08-16 14:01 被阅读20次

    Q1 怎样的数据才能叫做大数据?

    大数据在舍恩伯格看来,一共具有三个特征:全样而非抽样,效率而非精确,相关而非因果

                                                                                                ——《大数据时代》

    1【全样而非抽样】

    谷歌可以提供谷歌流感趋势的原因就在于它几乎覆盖了7成以上的北美搜索市场,而在这些数据中,已经完全没有必要去抽样调查这些数据:数据仓库,所有的记录都在那里躺着等待人们的挖掘和分析。

    如果想称之为大数据,首先要做到(近似)全样本。 就是直接获取总体信息,不必通过样本参数去推断总体参数。

    2效率而非精确

    精确的计算是以时间消耗为代价的。

    在小数据时代,追求精确是为了避免放大的偏差而不得已为之(设想一下,在一个总样本为1亿人口随机抽取1000人,如果在1000人上的运算出现错误的话,那么放大到1亿中会有多大的偏差)

    但在样本=总体的大数据时代(有多少偏差就是多少偏差而不会被放大),快速获得一个大概的轮廓和发展脉络,就要比严格的精确性要重要得多。

    在能够获得近似全样本的基础上,为了提高商业上的效率,数据分析通常采用简单算法。

    3相关而非因果

    舍恩伯格认为,大数据时代只需要知道是什么,而无需知道为什么,就像亚马逊推荐算法一样,知道喜欢A的人很可能喜欢B但却不知道其中的原因。    商业本来就是以结果为导向的。 

    因为无法控制无关因素,所以只能得到相关结论,而非因果。


    参考阅读:http://bbs.pinggu.org/thread-2239985-1-1.html

    《大数据时代》《删除》《第四范式》

    相关文章

      网友评论

          本文标题:Y7-Big Data

          本文链接:https://www.haomeiwen.com/subject/bcspsttx.html