美文网首页
当增量爬虫遇到网址打不开

当增量爬虫遇到网址打不开

作者: 星辰大海的碎片 | 来源:发表于2018-12-14 17:49 被阅读0次

    在做增量爬虫的时候,会经常遇到网址打不开的情况,为了方便统计监控,我们用状态码来做简单判断,非200都是异常


    • 更换域名

    • 网页结构改变

    • 请求方式换了

    • 服务器挂了

    • 网站维护

    • 被检测反爬


    目前好像就遇到这几种,解决方法是随机应变,但是写这个主要是应对更换域名
    更换域名,有的人会直接更换网页结构,有的人真的只是简单更换域名
    我今天遇到了一个数据是2017年获取的2016年的数据,不是很重要的数据,但是因为当时获取数据的时候还有截图,发现这个问题就是因为当时的截图没有截好,但是这个问题在当时并没有被发现,今天发现的时候去查看,发现域名已经更换了,我一开始的做法是复制到浏览器更换 Host ,结果发现还是打不开,然后去新域名的网站里搜索发现根本找不到这条信息。尝试了全网搜索还是找不到这条信息,最后在 Excel 里改了 Host,结果成功打开!!!


    未完待续。。。

    相关文章

      网友评论

          本文标题:当增量爬虫遇到网址打不开

          本文链接:https://www.haomeiwen.com/subject/rdowhqtx.html