当增量爬虫遇到网址打不开

作者: 星辰大海的碎片 | 来源:发表于2018-12-14 17:49 被阅读0次

当增量爬虫遇到网址打不开
遇到iOS网址打不开的情况
1-基本概念
VSM008_优化增量阅读（六）增量学习的“姿势”_01Supe
Scrapy
网络爬虫（四）
增量式爬虫
python爬虫
二搜索引擎的下载系统
秘籍 | GitHub打不开？一招搞定！

在做增量爬虫的时候，会经常遇到网址打不开的情况，为了方便统计监控，我们用状态码来做简单判断，非200都是异常

更换域名
网页结构改变
请求方式换了
服务器挂了
网站维护
被检测反爬

目前好像就遇到这几种，解决方法是随机应变，但是写这个主要是应对更换域名
更换域名，有的人会直接更换网页结构，有的人真的只是简单更换域名
我今天遇到了一个数据是2017年获取的2016年的数据，不是很重要的数据，但是因为当时获取数据的时候还有截图，发现这个问题就是因为当时的截图没有截好，但是这个问题在当时并没有被发现，今天发现的时候去查看，发现域名已经更换了，我一开始的做法是复制到浏览器更换 Host ，结果发现还是打不开，然后去新域名的网站里搜索发现根本找不到这条信息。尝试了全网搜索还是找不到这条信息，最后在 Excel 里改了 Host，结果成功打开！！！

未完待续。。。

网友评论

本文标题：当增量爬虫遇到网址打不开

本文链接：https://www.haomeiwen.com/subject/rdowhqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

当增量爬虫遇到网址打不开

更换域名

网页结构改变

请求方式换了

服务器挂了

网站维护

被检测反爬

未完待续。。。

相关文章

当增量爬虫遇到网址打不开

遇到iOS网址打不开的情况

1-基本概念

VSM008_优化增量阅读（六）增量学习的“姿势”_01Supe

Scrapy

网络爬虫（四）

增量式爬虫

python爬虫

二搜索引擎的下载系统

秘籍 | GitHub打不开？一招搞定！

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读