最近频繁看到一个名词,叫“齐夫定律”,嗯,不懂就百度:
在自然语言的语料库里,一个单词出现的频率与它在频率表里的排名成反比。所以,频率最高的单词出现的频率大约是出现频率第二位的单词的2倍,而出现频率第二位的单词则是出现频率第四位的单词的2倍。
嗯,有点模糊,继续:
最简单的齐夫定律的例子是“1/f function”。给出一组齐夫分布的频率,按照从最常见到非常见排列,第二常见的频率是最常见频率的出现次数的1/2;,第三常见的频率是最常见的频率的1/3,第n常见的频率是最常见频率出现次数的1/n。
瞬间明白,简单讲,排第n的值就是排第1的1/n。
由此出现一个问题,算第一的值,公式如下:
总量 / (1+1/2+1/3+1/4+...1/n)。
不会算,继续百度:
有近似公式
1+1/2+1/3+1/4+...1/n = ln(n) + r
r为欧拉常数,约为0.5772156649。
88 / (ln(100) + 0.5772) = 16.9806472 嗯,没毛病。
看一下简书钻每日发放公告文章排名发放的钻,基本符合,但是不精确,肯定还有其他的修正吧。利用公式算一下简书参与排名的文章总数:e ^ (40000 / 2415.57 - 0.5772) = 8,727,928.43。嗯,八百万近九百万,逆推肯定不准,瞎算一下。\
看白皮书的时候了解到还有一个尾部内容权重修正:
由于一般情况下,中等热度的文章居多,热度特别高和热度特别低的文章都相对较少,接近 Beta 分布,如下图:
image.png
这里横轴代表热度值,纵轴代表文章数。将热度平均值 1/e 以下(即红色部分)定义为尾部内容。并对其权重进行调整:
将尾部内容根据热度值从高到底排序,根据齐夫定律 ,取尾部内容中的最大热度值除以排序序号,作为新的权重。这样可以最大限度地降低尾部的灌水内容所占权重,同时保留一定的收益。
其实就想说下,1/e大约是0.3678,根据白皮书所述,以及一些分析,现在文章的热度就是每位点赞者的投票权重之和,权重就是点赞者的简书钻数除以100
(这么一说一天不点他一百个赞,好像亏了一个亿),总之,要想不被降权,只要有拥有37个简书钻的人点赞或者几个加起来拥有这么多钻的人点赞就行了吧,理论上是这样(手动滑稽)。
网友评论