齐普夫定律

作者: 姜地主 | 来源:发表于2020-11-08 07:31 被阅读0次

    我们大家都听说过一个80/20定律,就是说80%的总量常常是由20%高频率的元素构成的。反过来,80%低频率的元素,或者说长尾的元素,只构成20%的总量。这个规律,其实是齐普夫定律(Zipf’s Law)的一个特例。

    齐普夫(George Kingsley Zipf)是美国20世纪初的语言学家,他经过对各种语言中词频的统计发现,一个词的排位,和它词频的乘积,近乎是一个常数。

    比如在汉语中,“的”是最常见的字,排位第一,它的字频大约是6%,于是1x6%=6%。第二高频字是“是”这个字,排位第二,而它的字频大约是3%,恰好2x3%=6%。字频排位第三的字是“一”,它的字频是2%多一点,3x2%也是6%。

    后来经济学家和社会学家发现齐普夫定律在他们的学科中也成立,比如你如果把世界上每一个人的财富排一个序,让序号乘以财富的数量,就会发现有类似的规律。今天,齐普夫定律被认为是自然界的普遍规律。我们每一个人都需要牢记齐普夫定律,这样就不会相信所有人都能够通过创业成为富翁这样的鸡汤观点了,因为它违背齐普夫定律。

    不仅如此,齐普夫定律在低频词上也有一个出乎意料的特点,就是词频乘以那个频率的词的数量,也近乎是一个常数。比如在一个词汇表中,大量的词只出现一次,但是这些词的总数甚至占到了词汇表的一半左右,然后还有大量的出现两三次的词,总数也不少。

    如果我们假定只出现一次的词有N1个,出现两次的词有N2个,出现三次的词有N3个,那么1xN1,和2xN2,3xN3,都差不太多,因为大多数词其实只出现一次。

    相关文章

      网友评论

        本文标题:齐普夫定律

        本文链接:https://www.haomeiwen.com/subject/jkzrfhtx.html