美文网首页
大数据时代的数字密码

大数据时代的数字密码

作者: 易乾坤 | 来源:发表于2021-03-12 02:17 被阅读0次

    一提起数字往往都感觉比较枯燥乏味,但是这次的故事却和我们的生活息息相关,先来看一个小故事。1881年,天文学家西蒙·纽康在翻看对数表那本书的时候发现了一个比较有意思的现象,就是这本书以1起首的数那首几页较其他页破烂,就像我们平时的书一样,前半部分可能写写画画的很多,可后半部分却和新的一样。这种现象有什么好奇怪的呢?

    在西蒙这里却变成了一种定律,西蒙这个老头看了看别的对数表书,也是这种情况,于是提出了一个定理,就像苹果落在牛顿头上,提出了万有引力一样,西蒙提出了本福特定律。为什么叫本福特定律而不叫西蒙定律呢?这是因为老头当时没有发表,直到1938年,物理学家法兰克·本福特重新发现这个现象,还通过了检查许多数据来证实这点,才被叫做本福特定律,后人研究天文资料,才发现的西蒙原来早就提出过了。西蒙提出这个定律的这个故事很可能是虚构的,就像牛顿被苹果砸了提出万有引力一样,后者确实是虚构的。

    什么是本福特定律呢?一堆从实际生活得出的数据中,以1为首位数字的数的出现机率约为总数的三成,接近直觉得出之期望值1/9的3倍。推广来说,越大的数,以它为首几位的数出现的机率就越低。它可用于检查各种数据是否有造假。但要注意使用条件:1.数据至少3000笔以上。2.不能有人为操控。

    这个定律很违背人类的直觉吧?不过却又大的用处,比如现在税收制度越来越严格,执法人员怎么检测偷税漏税呢?这就要用到本福特定律了,我相信财务、审计等相关专业肯定学习过,人们的税收或者收入都应该符合本福特定律,对小企业主每笔收入的统计也应符合本福特定律,而且人为修改账本的次数越多,那么就会越不符合本福特定律,也就说明造假的可能性越大。

    科学家最想去了解美国国税局是怎么检测偷税漏税的,因为美国的税收最严格,有句玩笑话比较流行,你偷渡到美国没问题,但是你到了美国偷税漏税肯定会被国税局找到,网上有个美国逃犯,潜逃很多年了,一天被国税局找上门,结果只是因为偷税漏税了5美元,交完税后就被国税局放走了,结果却被FBI连带发现,game over。但是所有在美国国税局工作的人员或者前人员都不会告诉美国国税局查税的方法,而且老美国税局的座右铭是:交税是我们人类步入文明社会所必须付出的代价。

    除了查税、查假账,还可以应用于各个方面,只要符合条件。

    比如,音乐:莫扎特、贝多芬这些音乐达人的交响乐。音乐只有7个音符,怎么统计呢?

    统计各个章节中音符的持续时间,是多少秒钟,大数据统计下来发现,所有好听的名曲,都符合本福特定律。如果你是一名音乐人,那么你应该试一下你创作的乐曲符不符合本福特定律,如果符合不一定好听,但是不符合的话,估计不好听的概率要大的多。

    开动你的脑筋,重点是去思考怎么去运用本福特定律,创造的应用和提问,比解决问题更重要。

    再举一个在人工智能识别方面的例子,本福特定律用来识别真假图像、视频。现在越来越多的人工智能应用,不单单只是面部识别,而且可以做人工换脸,就是在视频中把人脸换成各种明星脸,当然,现在属于侵犯肖像权。那么如何识别视频中图像的真假呢?

    这就要用到本福特定律了,图像其实是一个个格子的像素,每个像素都可以用一个数字表示,比如三色的(255,0,0)代表红颜色,(0.0.255)代表蓝色,等等。如果我们进行数据统计,符合本福特定律,那么图像的真实性就大大增加;如果不符合或者偏差的越大,那么造假的可能性就会越大。

    以后电子证据也是证据的一种,如果进行法律诉讼或者劳动仲裁,那么对其中的证据进行检测真假性,就可以用本福特定律大显身手了。

    比较有意思的是美国大选,也可以用本福特定律进行辨别选票是否造假。最热门的莫过于2020年的总统大选,选举“剧情”跌宕起伏,足以成为历史上最具话题性和争议性的选战之一。美国当地时间11月5日,就在特朗普阵营连续在多个州提起关于“选举欺诈”的诉讼时,推特等社交媒体上开始涌现一种说法:经分析统计各候选人在某地所有选区的得票数后发现,特朗普一切正常,而拜登的得票情况不符合“本福特定律”,涉嫌在选举中舞弊。当然,最后拜登上台了。

    最有意思的莫过于本福特定律的证明,现在没有完整的证明,也就是这条定律是总结性的,科学家们目前只是证明了在某种条件下的通用性,但并没有确切的证明,这座数学高山还需要年轻人去征服。

    这是十进制的情况,如果换成计算机的二进制,那么1开头的数字概率就是近似100%;如果是三进制呢?笔者粗略计算了下,大概在50%~66.7%之间。如果是...,到了我们的十进制,就是所说的本福特定律,以n起头的数出现的概率为log((n+1)/n)。这是笔者的猜想。

    下面列举两个比较好玩的:

    1、从单位着手。

    所有的数字都是带单位的,比如说,你去超市买了0.3千克猪头肉,花费人民币7.95元,然而,用美帝的单位来看,你就是买了0.661磅猪肉,花费美刀1.198。超市猪头肉的售价和重量都是客观的,如果它的数字里面存在某种规律,必然同样适用于千克和磅,人民币和美刀。

    单位换算我们知道,就是乘一个数。你用千克计算,头两位有效数字落在(2,3)之间,那么以磅计算,就会落在(4.4,6.6)。也就是说,头几位有效数字落在(a,b)之间的概率,跟落在(ac,bc)之间的概率应当是一样的,两个区间,上下限比值相同,则头几位有效数字落在它里面的概率就相同。而这正是对数的规律。

    这样看来,首位数字符合本福特定律,显然就比呈现均匀分布要合理得多

    知乎链接:https://www.zhihu.com/question/19805941/answer/1565827326

    2、从数字增长着手。

    当一个数的增长经历了1、2、…、9之后,就是11、12、…、19,而如果这个数在这里截止,那么1的出现次数就远大于别的数。同样,2的几率也会大,但没有1大,因此首位数字出现几率随数字增大减小。

    也有一种说法是,当一个数随时间指数增长的话,取随时间平均分布的数,当然是数字越小越多(请思考指数图像,下凹图形),而指数增长在现实中很常见。

    知乎链接:https://www.zhihu.com/question/19805941/answer/173174523

    感兴趣的大佬可以自行畅想

    相关文章

      网友评论

          本文标题:大数据时代的数字密码

          本文链接:https://www.haomeiwen.com/subject/gxvoqltx.html