主题爬虫主要有两个关键点,一是主题相似度,二是搜索策略。
主题爬虫的两大方向
基于网页内容的主题爬虫
目前基于网页内容的主题爬虫计算文本相似度的判断方法大致可分为两类:1、基于字词统计模型(如向量空间模型);2、基于语义理解模型
各种算法的性能比较如下图所示:
性能对比
基于链接分析的主题爬虫
传统的基于网页内容评价的搜索策略往往会忽略网页间链接的相关性,基于链接分析的搜索策略忽略了网页正文内容,造成“主题漂移”的现象。
主题爬虫主要有两个关键点,一是主题相似度,二是搜索策略。
目前基于网页内容的主题爬虫计算文本相似度的判断方法大致可分为两类:1、基于字词统计模型(如向量空间模型);2、基于语义理解模型
各种算法的性能比较如下图所示:
传统的基于网页内容评价的搜索策略往往会忽略网页间链接的相关性,基于链接分析的搜索策略忽略了网页正文内容,造成“主题漂移”的现象。
本文标题:舆情爬虫系列(二)
本文链接:https://www.haomeiwen.com/subject/erhgohtx.html
网友评论