美文网首页
当增量爬虫遇到网址打不开

当增量爬虫遇到网址打不开

作者: 星辰大海的碎片 | 来源:发表于2018-12-14 17:49 被阅读0次

在做增量爬虫的时候,会经常遇到网址打不开的情况,为了方便统计监控,我们用状态码来做简单判断,非200都是异常


  • 更换域名

  • 网页结构改变

  • 请求方式换了

  • 服务器挂了

  • 网站维护

  • 被检测反爬


目前好像就遇到这几种,解决方法是随机应变,但是写这个主要是应对更换域名
更换域名,有的人会直接更换网页结构,有的人真的只是简单更换域名
我今天遇到了一个数据是2017年获取的2016年的数据,不是很重要的数据,但是因为当时获取数据的时候还有截图,发现这个问题就是因为当时的截图没有截好,但是这个问题在当时并没有被发现,今天发现的时候去查看,发现域名已经更换了,我一开始的做法是复制到浏览器更换 Host ,结果发现还是打不开,然后去新域名的网站里搜索发现根本找不到这条信息。尝试了全网搜索还是找不到这条信息,最后在 Excel 里改了 Host,结果成功打开!!!


未完待续。。。

相关文章

  • 当增量爬虫遇到网址打不开

    在做增量爬虫的时候,会经常遇到网址打不开的情况,为了方便统计监控,我们用状态码来做简单判断,非200都是异常 更换...

  • 遇到iOS网址打不开的情况

    看到很多网上说设置清除缓存self.request = [NSURLRequest requestWithURL:...

  • 1-基本概念

    简介 为什么选择Python做爬虫 需要技能 爬虫与反爬虫 网络爬虫类型 通用网络爬虫 聚焦网络爬虫 增量式网络爬...

  • VSM008_优化增量阅读(六)增量学习的“姿势”_01Supe

    (2019-06-26-周三 05:04:29) 播放网址_bilibili_VSM008_优化增量阅读(六)增量...

  • Scrapy

    0. 基础知识: 1) 搜索引擎爬虫介绍 --> 增量式爬虫和分布式爬虫 http://www.zouxiaoya...

  • 网络爬虫(四)

    爬虫大约分三种: 通用爬虫: 获取相关页面整页数据。 聚焦爬虫:根据所需抓取页面指定的数据。 增量爬虫:检测到网页...

  • 增量式爬虫

    18.增量式爬虫 增量式爬虫 引言: ​ 当我们在浏览相关网页的时候会发现,某些网站定时会在原有网页数据的基础上更...

  • python爬虫

    爬虫分为多线程,单线程爬虫,其中单线程爬虫的步骤主要分成三部分. 第一部分:读取目标网页的内容,如果遇到多个网址,...

  • 二 搜索引擎的下载系统

    1 爬虫:Crawler 中文:爬虫或者蜘蛛 爬虫演进过程:逐渐多策略,负载均衡及大规模增量抓取等方向发展 2 万...

  • 秘籍 | GitHub打不开?一招搞定!

    正常网址打不开?太慢?: https://github.com/PacificBiosciences/falcon...

网友评论

      本文标题:当增量爬虫遇到网址打不开

      本文链接:https://www.haomeiwen.com/subject/rdowhqtx.html