美文网首页
七大数据陷阱之认知错误(2):过多的人为和主观数据

七大数据陷阱之认知错误(2):过多的人为和主观数据

作者: 海数据实验室 | 来源:发表于2020-07-21 22:25 被阅读0次

           上一篇文章详细讨论了下数据与现实的差距,实例涉及(1)由测量系统精密程度的变化而导致的差距便随时间上的推移(地震学),(2)由未知系统故障导致的异常值(自行车计数器),(3)人为计数与缺失的数据(陨石),(4)在后期不断纠正前期的数据(埃博拉死亡),以及(5)未阐明的和不清楚标准的不确定数据(汉克亚伦的本垒打)。

          记得听一位统计学老师谈过,凡是做数据的人,出于种种原因,很少有不编数和不猜数的,而且在宏观上非常难以评价这种行为的是非对错,下面就来具体剖析一下这种做法的成因,以及如何恰当的看待这类问题。

          本文引入另一种人为的偏差或者误差:当记录我们自己测量的数值,在手动输入时,总不免会有主观上的猜测,估计,甚至捏造的情况。当然退一步说,人们靠自身也不能完全精确地记录数据。

          几种人为数据的图形模式

          先看一个有关肉眼约取的数据,如下图所示。这是飞行员向联邦航空局(FAA)报告他们的飞机在跑道上或飞行中,某一特定时刻撞上了野生动物的所在整数小时的已经过去的分钟数。当然我们对这些飞行员捕捉和报告这些事故的过程并不熟悉,但可以肯定,从这张图表来看,他们要么是在写,要么是在口述,要么是在敲键盘来录入时间数据。

          当然,我们知道飞机撞击鸟类或其他生物的可能性并不会是伴随时间的变化而改变的。并不是时钟从下午1点04分变到1点05分,就导致突然间野生动物撞击的实际频率超过了四倍。当人们看表或时钟时,倾向于把时间调成整数。比如看到1:04,然后写下1:05,或者就干脆称记为1点,很接近,对吧?飞行员也是如此。

           如果该数据是由安装在飞机上的某种传感机制生成的,该机制会自动记录每次打击,并为每个记录包含一个时间-日期戳,那么可以肯定的是,这个三角形图案将完全消失。而且这种非人类的测量系统产生的数据也不是完美的,会有其独特的倾向、特质和由设备本身施加的模式。但它不会像人类那样进行约取的,除非编了程序。

          有意思的是这张图表的几何规律性。想想看:这张图来自于18年间发生的超过85000起野生动物撞击事件。这是一份近20年来,由全国成千上万的飞行员个人提供的数据,最终产生了类似是一个数学公式生成的图形模式。此处可以看到列高是如何达到非常有趣的频率值的。

          无独有偶,这不仅仅是野生动物撞击飞机数据表现的独特模式。下面是一位家长收集的数据,显示了他的孩子的前1976次尿布换尿布的时间。这个图形模式看起来很熟悉吧?这就是所说的脏数据。

           数据工作者在报告其他定量变量时也会这样约取,甚至搪塞,不仅仅是时间数据。下面让我们看另一种人为舍入的行为。这是根据2017-2018赛季NBA球员体重绘制出来的柱状图,如果我们使用10磅的组别,看不到任何四舍五入或缺乏精度的迹象。

           不过,让我们讨论得更深入一点。如果我们把组别大小从10磅改成1磅会发生什么?而当我们这样做的时候,另一个有趣的模式出现了,它告诉我们测量系统发生了什么:捕获和记录数据的过程再次掺入了人工记录的痕迹。这一次的模式与上面例子中查看时间数据时看到的模式不同。

           这是怎么回事?几乎一半队员的体重能被10整除,差不多每4个人中就有3个(74%)的体重能被5整除。不过,也有一些球员的体重并不在这些标准范围之内。略多于四分之一(准确地说是26%)的球员的体重不能被5整除,例如三个球员的体重是201磅——如果有的话,这个数字显然需要四舍五入。但是像这样的球员体重是少数。

           当然,对于队员的实际体重,如果将他们全部使用数字秤称重并自动获取读数,则不会产生这种“粗糙”的数据。这里面,某些队员的体重处在一定数值得范围之内,这显然是由人工报告所采取的近似值造作而成。

           可以肯定,篮球队雇佣的医生和训练师掌握的这些球员的生物特征数据要比网上公布的球员名单上的数据多得多。但是产生这些特定值的过程,就像你我在网上看到的,无疑有人工造作的痕迹。

           再看下其他领域:如果我们将2018年赛季前活跃在季前赛名单上的2800多名北美职业足球运动员的在线名单进行整理,依然会看到类似的分组,体重可被5和10整除,但程度会有所不同;只有一半的队员落在这些整齐的组别里,另一半落在不能被5或10整除的组里。可以这里面的主观估计也可能遵循一些领域特征。

           如何把体重数据的测量和获取按照标准的过程重现一下,很可能是另外一个样子。那么可能有人会问,谁又在乎呢?比如飞行员野生动物撞击的例子中精度也不过是一分钟,篮球运动员体重的例子中不过是一磅,好像也不太重要吧。

           相对真实一点数据

            但问题是,有时候这种精确度真的很重要,数据也会于此有所反映的。实际上也有这样的场景,人们会更加关注运动员的精确体重。每年,参加职业选秀的美国橄榄球运动员都会被球探们以极其精确的方式跟踪、审查和衡量,这一活动被称为NFLCombine。这些球员要经受体能测试的考验,除了头发的数量之外,几乎任何身体指标都要接受计数和测量。那么这又会产生什么样的数据特征呢?

           如果我们看看2013年至2018年进入联合收集队并最终在NFL打球的1305名球员,我们会发现超过四分之三的球员记录和公布的体重都不是10或5的倍数。

     从上图可见,这里不存在人工估计或主观上的约取。如果我们通过最后一位数来观察各个运动员体重的频率,会发现该组合形成了一个非常均匀的分布,并且以0或5结束的体重记录不太可能比其他数字更容易出现。

           这又意味着什么呢?测量系统可以是非常不同的,即使它们测量相同类型物体(美式足球运动员)的完全相同的变量(重量)。一些测量系统或方法涉及大量的四舍五入,捏造和猜测,有些涉及少一些,有些不会有大量涉及。除非我们对测量系统的过程和产生的数据有深刻的理解,否则我们无法知道我们在处理的是什么。

           通过本文的这些实例,我们可以相对近距离的了解一些数据与现实的差距的问题从何而来,同时也督促我们要正视自己一些不好的思维习惯甚至是不足之处,后续的文字将会重点讨论这些方面,以及对应的数据陷阱解读。

          想获取更多内容,请关注海数据实验室公众号。

           本期分享到这里,我们会每天更新内容,咱们下期再见,期待您的再次光临。有什么建议,比如想了解的知识、内容中的问题、想要的资料、下次分享的内容、学习遇到的问题等,请在下方留言。如果喜欢请关注。

           社群推荐:

           更多有关数据分析的精彩内容欢迎加入海数据在线数据分析交流群,有什么想法或者疑问都可在里面提出,与同行零距离交流,共同成长进步,请识别下面二维码加火星小海马微信,邀你进群。

    相关文章

      网友评论

          本文标题:七大数据陷阱之认知错误(2):过多的人为和主观数据

          本文链接:https://www.haomeiwen.com/subject/kxtdfktx.html