美文网首页
骗人的数据

骗人的数据

作者: 米汤馒头 | 来源:发表于2019-07-22 19:31 被阅读0次

骗人的数据

前段时间,做了一个工厂的产能分析预测,利用的算法极其精妙,将2007~2017年的数据作为训练数据,将2017~2019的数据作为预测数据,进行验证,误差在可以接受的范围之内。而我在写分析报告的时候,却很犹豫。我不知道自己的模型和算法是否真正有用,因为自始至终,我都并没有对未来进行预测。而2007~2017年这十年间,工厂的产品发生了很大的更替,市场份额也在不断的变化,而且整个国家乃至世界的经济形势都发生了变化。我单单从数据的角度出发,却忽视了其中诸多关键因素的影响。这些关键的因素实际上是随着时间不断变化的。忽视这些因素,得出的模型,可能会出现“全美国的人都为IBM工作”的闹剧。这也许是目前数据科学领域面临的主要问题,单从数据的角度进行预测或分析,可能并没有什么实际意义。最近读了Gray Smith 的《StandardDeviations》,Gray教我们如何识破一本正经的胡说八道。

其实,在我们日常生活中,我们总是在总结或反思自己人生经验中的模式。例如,“否极泰来”,“乐极生悲”,“星座五行”。我们习惯于创造模式,创造正确。

巧合的人物和日期只能证明我们花了很多时间寻找巧合,无法证明其他任何事情。为了相信某些数据(信念)是正确的,他们丢弃了与这种信念相冲突的数据。想想自己在从事科研活动中,也是会摒弃一些不好的数据,来迎合我们论文中正确的理论。所以也有人说“论文中的科研多是假的”,为了发表美丽的文章,不少科研人员创造或选择了美丽的数据。

此外,数据本身因为不同的表现形式(可视化),也具备很大的欺骗性。如下图1,图2,是相同的两组数据展示出来的图形,但单从图形的角度来看,图1展现并没有什么变化,但是图2展现出来的确实变化很大,但是二者仅仅的区别却是纵轴区间的变化。

图1
图2
Gray

我们不得不承认我们总是在犯一些错误的思维逻辑。这也许来自我们与生俱来的,对于未来世界的恐惧。我们希望得到一个模式来遵循。这其实是一个错误的思路,我们总是习惯报道一些成功的范例,从成功的范例中总结出一些“优秀”的品质(特征值),形成一个模式,然后推广这种模式,认为具备这些的“优秀品质”,便能成功。但实际上这样完全是因果颠倒的。

但从数据的角度来看分析或预测,本身将进入一个费曼陷阱。就像我做的产能分析的预测模型,我不可能因为它预测准确了2020年的产能,而志得意满,我甚至觉得它毫无价值。在大数据时代,真正有价值的是数据,没有价值的也是数据。我个人觉得单纯从数据出发,采用精巧的算法的黑盒模型是没有意义的,有意义的是数据配合相关物理模型的灰色模型。

相关文章

  • 骗人的数据

    骗人的数据 前段时间,做了一个工厂的产能分析预测,利用的算法极其精妙,将2007~2017年的数据作为训练数据,将...

  • 人会骗人,但是数据不会骗人

    文/图:麦风玄 师傅领进门,修行在个人,这是对学习任何领域都适合的话,而这个修行,就看个人的行动力以及刻意练习程度...

  • 鹰眼大数据骗人的?

    现在市场上网络上很多关于智能营销的宣传与推广,那么怎么才能慧眼识丁的去选择正版有用的系统呢?那么首先我们要知道其中...

  • 数据

    什么东西都可以骗人,难有数据是不能骗人的,所以所有的东西都要以数据为导向,这也是我要克服的,不要活在自己的...

  • 数据也会骗人

    其实数据不会骗人,我只是起了个很夸张的标题吸引大家前来观看我的文章。这个标题结论很像我们小时候看的一个笑话:白马=...

  • 一些比较好的技术资料

    随机数 随机数都是骗人的 缓存 算法 设计 大数据 编程语言

  • 复盘

    数据不会骗人,其他都是骗人的,忙碌只是一个表象,关键还是自己提升了啥? 哈哈我以为我很年轻我以为我还是小朋友,可是...

  • 人人都是产品经理notes

    1.一个需求的奋斗史 1.1数据分析: 1.1.1 数据分析的场景问题和对策 a.虽然数据不会主动骗人,但我们经常...

  • 2018-08-11

    今日体验:今天把8月前10天的数据统计出来了,数据真不骗人,数据好的和数据差的一对比就特别明显!能看多数据差的不足...

  • 数据有没有欺骗性

    数据往往是有欺骗性的,统计数据可能而且经常骗人。不知来历和带有偏见的数据,在对这样的数据做出反映之前我们要先问一声...

网友评论

      本文标题:骗人的数据

      本文链接:https://www.haomeiwen.com/subject/cxlglctx.html