TextRank 算法可以脱离语料库的背景,仅对单篇文档进行分析就可以提取该文档的关键词。
PageRank 算法
TextRank 算法基于 PageRank 算法的。PageRank 算法是一种网页排名算法,其基本思想有两条:
- 链接数量:一个网页被越多的其他网页链接,说明这个网页越重要。
- 链接质量:一个网页被一个越高权值的网页链接,也能表明这个网页越重要。
d 表示阻尼系数,为了解决没有入链网页的得分。在 0.85 的阻尼系数下,大约 100 多次迭代 PR 值就能收敛到一个稳定的值,而当阻尼系数接近 1 时,需要的迭代次数会陡然增加很多,且排序不稳定。
链接网页的初始分数如何确定:算法开始时会将所有网页的得分初始化为 1,然后通过多次迭代来对每个网页的分数进行收敛。收敛时的得分就是网页最终得分。若不能收敛,也可以通过设定最大迭代次数来对计算进行控制,计算停止时的分数就是网页的得分。
网友评论