数据本无情何必论大小

作者: beitta | 来源:发表于2017-06-14 20:35 被阅读20次

数据本无情何必论大小
本就无情
合
情仇
五绝.月（其三）
若是无情，何必吟唱
七绝.无题
大小论 -
难得非己意
闲情小诗

数据量的增长可预见是越来越快，但我们又不能从这海量的数据直接看出端倪，要辅助决策或者智能升级，汇总、统计、分析、建模就是必经手段，数据之大摆在眼前的时候，更容易专注于解决这个大问题的手段，因为大数据大的问题是显然的，甚至大到能让我们忽视最初想要解决的问题或决策。但其实对数据大小本身的探究也是有助于解决大数据大问题的，而且在算力提升之前，我们更多的还是从这个角度来做的。所以，不谈新瓶新酒，只想说：大并不新鲜，小亦有美点，如果大头不好解决的问题场景不妨试一下小端的魔力，也许能发现不一样的沉香。

数据之大

在大数据之称号随着互联网之风口，占据越来越多行业制高点之前，数据之大其实是已然存在的事实。大数据的时尚，刘德寰老师亦有九点思考：关于子集，网站或公司拥有的数据都是一个子集；关于错误，混杂噪音也会随着数据增大而增大；关于抽样，也是合理有效的…

大数据并不新鲜，我们只是赶上算力爆发的临界，发现以前只能埋没角落的所谓大样本，可以用更复杂的模型来学习学习，但前辈对数据的分析之道已然是很精细的，不做借鉴甚至完全摒弃真能做得更好么。

数据之小

分布式的兴起，使我们得以方便高效的处理更多数据，拿更多的数据做模型。但在没有这个便利的过往，我们在小数据上也有一套行之有效的方案，那就是抽样。如果经过有效抽样设计的数据分析所做决策参考，与暴力输入所有数据全由模型诠释的决策参考，结论相同或相似或迥异，您是否有对大和小的信任偏好呢？还请注意所谓所有数据，很多情况下其实只是更大范围数据的一个小样本，比如纵向的时间选择，横向的场景限制，大小是相对的，没有小何来大，没有最大只有更大。

大小偏好的有效性，也许只能从实践中检验，不管大小，适合自己的才是最好的，只是无需一味地追求大之方案。跨越时空，美国大选不同时期的两个例子，诠释了小而美的套路，其走俏也是很有可能的。1936年盖洛普以5w样本战胜了文学摘要250w的问卷，虽然它不能次次中奖，见538美国大选模型介绍；其中，Nate同学基于汇总数据的统计表现，也是风头尽显，2012年50个州预测全对，并于后来公布了其背后的想法。

数据之实

数据已日渐成为生活的必需品，不论我们是否愿意或主动参与，我们都已成为的数据的生产者和消费者。出门选择数据推荐的最优路线，饮食选择数据推荐的新开餐厅，健康状况也由随身监测的智能手环提示，在使用与反馈的循环中构建越来越智能的生活。也许不久，一个人自我评估的方式是你给这个世界留下了多少有效数据，过去有名人著书立说，以后你的历史足迹也可能被很多研究所用，基因、行为等等，用于复原疾病、社会演变的数据模型，你的数据被用的频次高了，被单拎出来复原一下你的典型人生，比著书什么的厉害多了。要理解和分析我们自己参与生产的大数据，在“大”行其道的当前，期望给大家回顾一个从“小”出发的视角，以期能更好地服务于数据生产价值。

网友评论

本文标题：数据本无情何必论大小

本文链接：https://www.haomeiwen.com/subject/gryeqxtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

数据本无情何必论大小

数据之大

数据之小

数据之实

相关文章