美文网首页
02|更杂:不是精确性,而是混杂性

02|更杂:不是精确性,而是混杂性

作者: pooncheukkei | 来源:发表于2019-03-27 22:59 被阅读0次

    第一部分 大数据时代的思维变革
    01|更多:不是随机样本,而是全体数据
    02|更杂:不是精确性,而是混杂性
    03|更好:不是因果关系,而是相关关系

    第二部分 大数据时代的商业变革
    04|数据化:一切解渴“量化”

    执迷于精确性是信息缺乏时代和模拟时代的产物。只有5%的数据是结构化且能适用于传统数据库的;剩下95%的非结构化数据都无法被利用。

    允许不精确

    小数据:减少错误、保证质量。

    与各种混乱作斗争(随着数据的增加,错误率也会相应增加):

    1. 格式不一致(清洗数据)
    2. 萃取or处理数据

    I.B.M、T.J.Watson Labs、International Business Machines IBM都可以用来指代IBM

    对错误的包容会带给我们更多的好处。

    摩尔定律:每块芯片上晶体管的数量每两年就会翻一倍。

    大数据的简单算法比小数据的复杂算法更有效

    【谷歌翻译系统】接受错误的数据

    • 2006年,谷歌翻译,利用互联网。寻找官方的文件。
    • 2012年,谷歌数据库涵盖60+语言。把英语作为中介语言。

    谷歌语料库的内容来自于未经过滤的网页内容,所以会包含一些不完整的句子、拼写错误、愈发错误以及其他各种错误。BUT!!!谷歌语料库是布朗语料库的几百万倍大。

    纷繁的数据越多越好

    【麻省理工与通货紧缩预测软件】

    • 登门拜访,打电话等,(滞后性、花费大)
    • 通过一个软件在互联网上收集信息

    混杂性、不是竭力避免,而是标准途径

    新的数据库设计的诞生

    【hadoop与visa的13分钟】
    通过把大数据变成小模块。不过预设硬件可能会瘫痪,所以在内部建立了数据的副本。

    • hadoop的输出结果没有关系型数据库输出结果那么精确。
    • 不适合正规记账,但是当可以允许少量错误的时候它就非常实用。

    折中:

    1. 默认自己不能使用更多的数据,所以不会去使用更多的数据。
      2.数据的质量上。

    相关文章

      网友评论

          本文标题:02|更杂:不是精确性,而是混杂性

          本文链接:https://www.haomeiwen.com/subject/ftbgvqtx.html