整体思考
- 分为如下三个模块:采集-过滤-存储。
- 各个模块相互独立,按照需求可定制开发,不同模块组装起来满足不同需求。
-
三个模块组合简单,只需修改配置实现不同网站爬取。
思路.png
扩展
- 支持增量爬取
- 支持中断,重启继续爬取
结束
追求极简,完美的不如适合自己的。
三个模块组合简单,只需修改配置实现不同网站爬取。
追求极简,完美的不如适合自己的。
本文标题:关于网页爬虫的想法
本文链接:https://www.haomeiwen.com/subject/frglictx.html
网友评论