美文网首页
关键词提取方法小结

关键词提取方法小结

作者: cookingbear | 来源:发表于2018-03-04 16:28 被阅读0次
关键词作为一篇文档或一个句子的特征抽象,方便了文档或句子的分析工作,尤其对于一篇长文档,抽取出符合需求的关键词集合,能使分析人员更快的找到特征和定位问题。本文就不同的需求列举了几种关键词提取方法。
  1. 词数
    一个基本的分词筛选方法就是筛掉词数过少的词语,这些词语对大多需求而言更可能是停用词,不论对人工分析还是机器学习都没有意义。该方法可用于对大量的分词结果进行初筛。
  2. tf-idf
    tf-idf是常用的对文档或句子中的词语进行打分的方法。某个词的tf-idf取值取决于两个因素:词频以及该词的稀有程度。因此,tf-idf描绘了一个词语在所属文档或句子的独有程度。正因为如此,当我根据tf-idf取top词语构成了关键词集合,它反映的是文档或句子独有的特点,或者说亮点。
    tf-idf代表的是同时涉及到词频以及该词稀有度的计算模式,有多钟计算公式,词频最常见的计算方法是改词的出现次数/总词数,词稀有度常见计算方法是对文档总数/含有改词的文档数取对数。可根据需求和实际数据的不同调整词频或词稀有度所占权重。


    image.png

    tf-idf还可用于比较文本相似度,作为文本的特征抽取手段进一步做机器学习。

  3. text-rank
    该方法源于page-rank,page-rank是谷歌提出的对网页按照影响力进行排序的算法。同样的,text-rank认为文档或句子中相邻的词语重要性是相互影响的,所以text-rank引入了词语的顺序信息。


    image.png

    上式中,Vi表示当前要计算权重的词,S(Vi)表示该词的权重,d表示阻尼系数,In(Vi)表示与Vi在同一个窗口的词集合,Out(Vj)表示与Vj在同一个窗口的词集合,|Out(Vj)|表示这个词集合的元素个数。
    text-rank算法首先对每个词语的权重进行初始化,然后根据上述公式对每个词语的权重进行更新直至收敛,受em算法理论支持。
    text-rank筛选出的top关键词集合最能反应整个文档或句子,与tf-idf不同的是,代表整个文档的词集合并不一定是该文档所独有的,所以如果说要找一个方法进行特征抽取的话,tf-idf显然更加适合。

相关文章

网友评论

      本文标题:关键词提取方法小结

      本文链接:https://www.haomeiwen.com/subject/ynsxfftx.html