在做增量爬虫的时候,会经常遇到网址打不开的情况,为了方便统计监控,我们用状态码来做简单判断,非200都是异常
-
更换域名
-
网页结构改变
-
请求方式换了
-
服务器挂了
-
网站维护
-
被检测反爬
目前好像就遇到这几种,解决方法是随机应变,但是写这个主要是应对更换域名
更换域名,有的人会直接更换网页结构,有的人真的只是简单更换域名
我今天遇到了一个数据是2017年获取的2016年的数据,不是很重要的数据,但是因为当时获取数据的时候还有截图,发现这个问题就是因为当时的截图没有截好,但是这个问题在当时并没有被发现,今天发现的时候去查看,发现域名已经更换了,我一开始的做法是复制到浏览器更换 Host ,结果发现还是打不开,然后去新域名的网站里搜索发现根本找不到这条信息。尝试了全网搜索还是找不到这条信息,最后在 Excel 里改了 Host,结果成功打开!!!
网友评论