TextRank——关键词提取

作者: dreampai | 来源:发表于2019-04-22 14:21 被阅读3次

    TextRank 算法可以脱离语料库的背景,仅对单篇文档进行分析就可以提取该文档的关键词。

    PageRank 算法

    TextRank 算法基于 PageRank 算法的。PageRank 算法是一种网页排名算法,其基本思想有两条:

    • 链接数量:一个网页被越多的其他网页链接,说明这个网页越重要。
    • 链接质量:一个网页被一个越高权值的网页链接,也能表明这个网页越重要。
    image.png

    d 表示阻尼系数,为了解决没有入链网页的得分。在 0.85 的阻尼系数下,大约 100 多次迭代 PR 值就能收敛到一个稳定的值,而当阻尼系数接近 1 时,需要的迭代次数会陡然增加很多,且排序不稳定。

    链接网页的初始分数如何确定:算法开始时会将所有网页的得分初始化为 1,然后通过多次迭代来对每个网页的分数进行收敛。收敛时的得分就是网页最终得分。若不能收敛,也可以通过设定最大迭代次数来对计算进行控制,计算停止时的分数就是网页的得分。

    TextRank 算法

    image.png

    参考链接

    https://www.zybuluo.com/evilking/note/902585

    相关文章

      网友评论

        本文标题:TextRank——关键词提取

        本文链接:https://www.haomeiwen.com/subject/ixrcgqtx.html