02|更杂：不是精确性，而是混杂性

作者: pooncheukkei | 来源:发表于2019-03-27 22:59 被阅读0次

《大数据时代》04|数据化：一切解渴“量化”
02|更杂：不是精确性，而是混杂性
01|更多：不是随机样本，而是全体数据
《大数据时代》05|价值：“取之不尽，用之不竭”的数据创新
03|更好：不是因果关系，而是相关关系
2018-01-28 认识大数据--《大数据时代》
Big Data - 02. 更杂
今日学习
面向对象编程思维与哲学思维的相似之处
Day 15: 敏捷估算

第二部分大数据时代的商业变革
04|数据化：一切解渴“量化”

执迷于精确性是信息缺乏时代和模拟时代的产物。只有5%的数据是结构化且能适用于传统数据库的；剩下95%的非结构化数据都无法被利用。

允许不精确

小数据：减少错误、保证质量。

与各种混乱作斗争（随着数据的增加，错误率也会相应增加）：

格式不一致（清洗数据）
萃取or处理数据

I.B.M、T.J.Watson Labs、International Business Machines IBM都可以用来指代IBM

对错误的包容会带给我们更多的好处。

摩尔定律：每块芯片上晶体管的数量每两年就会翻一倍。

大数据的简单算法比小数据的复杂算法更有效

【谷歌翻译系统】接受错误的数据

2006年，谷歌翻译，利用互联网。寻找官方的文件。
2012年，谷歌数据库涵盖60+语言。把英语作为中介语言。

谷歌语料库的内容来自于未经过滤的网页内容，所以会包含一些不完整的句子、拼写错误、愈发错误以及其他各种错误。BUT！！！谷歌语料库是布朗语料库的几百万倍大。

纷繁的数据越多越好

【麻省理工与通货紧缩预测软件】

登门拜访，打电话等，（滞后性、花费大）
通过一个软件在互联网上收集信息

混杂性、不是竭力避免，而是标准途径

新的数据库设计的诞生

【hadoop与visa的13分钟】
通过把大数据变成小模块。不过预设硬件可能会瘫痪，所以在内部建立了数据的副本。

hadoop的输出结果没有关系型数据库输出结果那么精确。
不适合正规记账，但是当可以允许少量错误的时候它就非常实用。

折中：

默认自己不能使用更多的数据，所以不会去使用更多的数据。
2.数据的质量上。

网友评论

本文标题：02|更杂：不是精确性，而是混杂性

本文链接：https://www.haomeiwen.com/subject/ftbgvqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！