美文网首页
分布式爬虫算法对比

分布式爬虫算法对比

作者: Gene_Chung | 来源:发表于2018-07-26 20:51 被阅读0次

    *广度优先搜索策略,将网页的所有链接都保存到等待队列中,该算法偏向于覆盖更广的网页,对下一级的访问会有一定的延迟。

    *深度优先搜索策略,将网页链接逐个跟踪下去,算法容易虽然设计但遍历时需要回溯,该算法会偏向于搜索更深层次的信息。

    *最佳优先搜索策略,按一定的网页分析算法计算网页的优先值,选取最好的一个或者几个URL进行抓取。该搜索策略只访问经过的网页分析算法预测为相关的网页,存在的特点是会忽略在爬虫路径上的很多相关网页,该算法是一种局部最优的搜索算法。

    *融合的主题爬虫策略,采用多队列多策略融合的算法,结合广度优先、深度优先以及最佳优先的搜索策略以及创建多个采集队列的模式,对不同的队列采取不同的处理方式。

    融合的主题爬虫策略算法流程图

    算法效果对比:




    在普通爬虫流程的基础上,将常用搜索策略融合为多策略融合的搜索算法,改进了原有搜索效率低下的问题,达到效率成倍提升的效果。

    基于改进遗传算法的主题爬虫

    *对比以上策略,主题爬虫不需遍历整个Web,并且提高了全局搜索能力。改进遗传算法的主题爬虫用于提高全局搜索能力,对比一般遗传算法具有更高精度和召回率,搜索范围更广。

    遗传算法(GA)主题爬虫框架 精度对比 召回率对比

    在基于遗传算法的主题爬虫的搜索策略下,改进并重新设计了更准确的ft-ness函数并优化了遗传操作。网页评估方法同时考虑主题相关性和重要性。通过向量空间模型分析主题相关性,并通过改进的PageRank算法计算主题重要性。基于用户浏览行为优化遗传操作。选择操作选择具有高度的网页,交叉操作按主题重要性排序链接,并通过搜索引擎搜索组合关键字的变异操作。结果表明,改进的GA可以部分改善精确率和召回率。

    总结

    对比以上几种爬虫搜索策略,广度、深度和最优搜索策略属于比较传统的算法,融合的主题爬虫策略结合了前面几种策略,效果相对比较理想,优缺点相对折中。基于改进遗传算法的主题爬虫策略相对比较复杂,毫无疑问,主题爬虫策略会比遍历搜索策略会更加精准。对比之下,改进的GA搜索策略会相对较优。

    参考文献:2017,硕士论文,主题网络爬虫的并行化研究与设计
    链接:http://kreader.cnki.net/Kreader/CatalogViewPage.aspx?dbCode=cdmd&filename=1017256582.nh&tablename=CMFD201801&compose=&first=1&uid=WEEvREcwSlJHSldRa1FhcTdWajFtT29JdHg4MXJvM3hIWlk2STdUZlQybz0=$9A4hF_YAuvQ5obgVAqNKPCYcEjKensW4ggI8Fm4gTkoUKaID8j8gFw!!

    参考文献:2018 (ICACI), Designing Focused Crawler Based On Improved
    Genetic Algorithm
    链接:https://ieeexplore.ieee.org/document/8377476/

    网络爬虫技术总结
    Blog

    相关文章

      网友评论

          本文标题:分布式爬虫算法对比

          本文链接:https://www.haomeiwen.com/subject/oscmmftx.html