宜/不同领域的涉猎
忌/睡懒觉
2018.10.28
《大数据时代》文摘知道是什么就够了,没必要知道为什么。
通过找出一个关联物并监控它,我们就能预测未来。
在大数据时代,快速获取一个大概的轮廓和发展脉络,就要比严格的精确性重要的多。
不是随机样本,而是全体数据
❤️
当数据处理技术已经发生了翻天覆地的变化时,在大数据时代进行抽样分析就像在汽车时代骑马一样。一切都改变了,我们需要的是所有的数据,“样本=总体”。
首先,要分析与某事物相关的所有数据,而不是依靠分析少量的数据样本。
其次, 我们乐于接受数据的纷繁复杂,而不再追 求精确性。
最后,我们的思想发生了转变,不再探求难以捉摸的因果关系,转而关注事物的相关关系。
小数据时代的随机采样,用最少的数据获得最多的信息。
样本选择的随机性比样本数量更重要。
随机采样取得了巨大的成功,成为现代社会、现代测量领域的主心骨。但这只是一条捷径,是在不可收集和分析全部数据的情况下的选择,它本身存在许多固有的缺陷。
收集所有数据称为可能。
为了更广泛的数据我们牺牲了精确性。
为了高频率而放弃了精确性。
如今,我们已经生活在信息时代。我们掌握的数据大越来越全面,它不再只包括我们手头现象的一点点可怜的数据,而是包括了与这些现象相关的大量甚至全部数据。我们不再需要那么担心某个数据点对整套分析的不利影响。我们要做的就是要接受这些纷繁的数据并从中受益, 而不是以高昂的代价消除所有的不确定性。
❤️
接受混乱与不精确性
想获得大规模数据带来的感触,混乱应该是一种标准途径,而不应该是竭力避免的。
接受混乱。
据估计,只有5%的数字数据是结构化的且能适用于传统数据库。如果不接受混乱,剩下95%的非结构化数据都无法被利用,比如网页和视频资源。通过接受不精确性,我们打开了一个从未涉足的世界的窗户。
在大数据时代,快速获取一个大概的轮廓和发展脉络,就要比严格的精确性重要的多。
我们怎么看待使用所有数据和使用部分数据的差别,以及我们怎样选择放松要求并取代严格的精确性,将会对我们与世界的沟通产生深刻的影响。随着大数据技术成为日常生活中的一部分,我们应该开始从一个比以前更大更全面的角度来理解事物,也就是说应该将“样本=总体”植入我们的思维中。(eg.印象派画风)
小数据的精确性(分析细节中的细节,却错过了原貌),大数据的完整性和混杂性。
大数据要求我们有所改变,必须能够接受混乱和不确定性。精确性似乎一直是我们生活的支撑,就像我们常说的“钉是钉,铆是铆”。但认为每个问题只有一个答案的想法是站不住脚的,不管我们承不承认。一旦我们承认了这个事实甚至拥护这个事实的话,我们离真相就又近了一步。
亚马逊的推荐系统梳理出了有趣的相关关系,但不知道背后的原因。
知道是什么就够了,没必要知道为什么。
通过找出一个关联物并监控它,我们就能预测未来。
一个东西 要出故障,不会是瞬间的,而是慢慢地出问题的。
通过收集所有的数据,我们可以预先捕捉到事物要出故障的信号,比方说发动机的嗡嗡声、引擎过热都说明它们可能要出故障了。系统把这些异常情况与正常情况进行对比,就会知道什么地方出了毛病。通过尽早地发现异常,系统可以提醒我们在故障之前更换零件或修复问题。
无独有偶,桥梁和建筑物上也被安装了传感器来监测磨损程度。大型化工厂和提炼厂也安装了传感器,因为一旦设备的某一个零件有问题,就只有在更换了零件之后生产才能继续进行。
收集和分析数据的花费比出现停产的损失小得多。
预测性分析并不能解释故障可能会发生的原因,只会告诉你存在什么问题,也就说它并不能告诉你引擎过热是因为什么,磨损的风扇皮带?没拧紧的螺帽?没有答案。
网友评论