美文网首页FTN征文大赛简书钻观察室
FTN征文大赛 | 简书钻与“齐夫定律”

FTN征文大赛 | 简书钻与“齐夫定律”

作者: 一_贫 | 来源:发表于2019-01-21 14:41 被阅读15次

    最近频繁看到一个名词,叫“齐夫定律”,嗯,不懂就百度:

    自然语言语料库里,一个单词出现的频率与它在频率表里的排名成反比。所以,频率最高的单词出现的频率大约是出现频率第二位的单词的2倍,而出现频率第二位的单词则是出现频率第四位的单词的2倍。

    嗯,有点模糊,继续:

    最简单的齐夫定律的例子是“1/f function”。给出一组齐夫分布的频率,按照从最常见到非常见排列,第二常见的频率是最常见频率的出现次数的1/2;,第三常见的频率是最常见的频率的1/3,第n常见的频率是最常见频率出现次数的1/n。

    瞬间明白,简单讲,排第n的值就是排第1的1/n。
    由此出现一个问题,算第一的值,公式如下:
    总量 / (1+1/2+1/3+1/4+...1/n)。
    不会算,继续百度:

    有近似公式
    1+1/2+1/3+1/4+...1/n = ln(n) + r
    r为欧拉常数,约为0.5772156649。

    88 / (ln(100) + 0.5772) = 16.9806472 嗯,没毛病。
    看一下简书钻每日发放公告文章排名发放的钻,基本符合,但是不精确,肯定还有其他的修正吧。利用公式算一下简书参与排名的文章总数:e ^ (40000 / 2415.57 - 0.5772) = 8,727,928.43。嗯,八百万近九百万,逆推肯定不准,瞎算一下。\


    看白皮书的时候了解到还有一个尾部内容权重修正:

    由于一般情况下,中等热度的文章居多,热度特别高和热度特别低的文章都相对较少,接近 Beta 分布,如下图:


    image.png

    这里横轴代表热度值,纵轴代表文章数。将热度平均值 1/e 以下(即红色部分)定义为尾部内容。并对其权重进行调整:
    将尾部内容根据热度值从高到底排序,根据齐夫定律 ,取尾部内容中的最大热度值除以排序序号,作为新的权重。这样可以最大限度地降低尾部的灌水内容所占权重,同时保留一定的收益。

    其实就想说下,1/e大约是0.3678,根据白皮书所述,以及一些分析,现在文章的热度就是每位点赞者的投票权重之和,权重就是点赞者的简书钻数除以100(这么一说一天不点他一百个赞,好像亏了一个亿),总之,要想不被降权,只要有拥有37个简书钻的人点赞或者几个加起来拥有这么多钻的人点赞就行了吧,理论上是这样(手动滑稽)。

    FTN征文大赛

    活动传送门:https://www.jianshu.com/c/7e011c29e4e6

    相关文章

      网友评论

        本文标题:FTN征文大赛 | 简书钻与“齐夫定律”

        本文链接:https://www.haomeiwen.com/subject/zdccjqtx.html