关于爬虫部分一些建议
1、 尽量减少请求次数,能抓列表页就不抓详情页,减轻服务器压力,程序员都是混口饭吃不容易。
2、 不要只看 Web 网站,还有手机 App 和 H5,这样的反爬虫措施一般比较少。
3、 实际应用时候,一般防守方做到根据 IP 限制频次就结束了,除非很核心的数据,不会再进行更多的验证,毕竟成本的问题会考虑到。
4、 如果真的对性能要求很高,可以考虑多线程(一些成熟的框架如 Scrapy都已支持),甚至分布式。
1、 尽量减少请求次数,能抓列表页就不抓详情页,减轻服务器压力,程序员都是混口饭吃不容易。
2、 不要只看 Web 网站,还有手机 App 和 H5,这样的反爬虫措施一般比较少。
3、 实际应用时候,一般防守方做到根据 IP 限制频次就结束了,除非很核心的数据,不会再进行更多的验证,毕竟成本的问题会考虑到。
4、 如果真的对性能要求很高,可以考虑多线程(一些成熟的框架如 Scrapy都已支持),甚至分布式。
本文标题:关于爬虫和反爬虫部分一些建议
本文链接:https://www.haomeiwen.com/subject/nydivxtx.html
网友评论