关于网页爬虫的想法

作者: 易兒善 | 来源:发表于2019-11-14 14:35 被阅读0次

整体思考

  • 分为如下三个模块:采集-过滤-存储。
  • 各个模块相互独立,按照需求可定制开发,不同模块组装起来满足不同需求。
  • 三个模块组合简单,只需修改配置实现不同网站爬取。


    思路.png

扩展

  • 支持增量爬取
  • 支持中断,重启继续爬取

结束

追求极简,完美的不如适合自己的。

相关文章

网友评论

    本文标题:关于网页爬虫的想法

    本文链接:https://www.haomeiwen.com/subject/frglictx.html