美文网首页
简单的爬虫架构

简单的爬虫架构

作者: Ginta | 来源:发表于2019-02-13 23:13 被阅读0次
爬虫架构

URL管理器对将要爬取的url和已经爬取过的url进行管理。取出待爬取的url传给网页下载器。
网页下载器将url指定的网页下载下来,存储成字符串,传给网页解析器进行解析。
网页解析器从网页字符串内容中取出有价值的数据(也就是我们最终想要的数据)。

相关文章

网友评论

      本文标题:简单的爬虫架构

      本文链接:https://www.haomeiwen.com/subject/rpgjeqtx.html