自己在爬取网页时常遇到的一些错误

作者: SaveTheWorld | 来源:发表于2017-03-02 11:32 被阅读0次

自己在爬取网页时常遇到的一些错误
node.js爬虫入门（二）爬取动态页面(puppeteer)
day71-代理ip的使用
scrapy爬取整个网页时如何避免链接失效
Python实战学习笔记爬去真实网页信息
Scrapy : UnicodeEncodeError: 'gb
Selenium-针对alert弹窗无法获取，弹出no such
Python爬虫（11）用Scrapy爬取新浪旅游图片
requests爬虫改为增量爬虫的一种方法
(二)爬取豆瓣网的书名（BeautifulSoup库）|Pyth

1.urllib2.HTTPError: HTTP Error 403:Forbidden

需要在爬取时伪装浏览器头

headers= {'User-Agent':'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'}

加上这段后执行程序，又报了第二个错误。

2.must be string or buffer, not dict

查了资料，缺少参数rq_body

先定义rq_body = ''

html = urllib2.Request('http://blog.csdn.net/xingjiarong',rq_body,headers)

再次执行，成功。

自己在爬取网页时常遇到的一些错误
1.urllib2.HTTPError: HTTP Error 403:Forbidden 需要在爬取时伪装浏览器...
node.js爬虫入门（二）爬取动态页面(puppeteer)
之前第一篇爬虫教程node.js爬虫入门（一）爬取静态页面讲解了静态网页的爬取，十分简单，但是遇到一些动态网页（a...
day71-代理ip的使用
1代理ip 在爬取网页过程中，经常遇到爬取次数过于频繁而被封ip地址，这个时候想要再次爬取就要使用代理ip来爬取网...
scrapy爬取整个网页时如何避免链接失效
scrapy爬取整个网页时如何避免链接失效最近在使用scrapy爬取网页时遇到很多图片不能正常显示、a标签链接失...
Python实战学习笔记爬去真实网页信息
爬取URL结果爬取代码爬取心得通过这次爬去学会从网页找不同页面地址之间的规律爬去网页，单次爬取的网页可以作为循...
Scrapy : UnicodeEncodeError: 'gb
在用scrapy爬取网页数据时，Selector解析网页数据时 , 会出现如题的错误。 response.xpat...
Selenium-针对alert弹窗无法获取，弹出no such
在爬取网页的过程中，经常会遇到一些弹窗的情况，有alert、confirm、prompt等三种，区别如下： ale...
Python爬虫（11）用Scrapy爬取新浪旅游图片
本次分享将展示如何利用Scrapy爬取网页中的图片。爬取的网页如下：在settings.py中，添加代码...
requests爬虫改为增量爬虫的一种方法
在爬虫编写中，为了避免重复爬取同一个网页，一般会使用增量爬虫，这样就避免了重复爬取相同的一个网页，只爬取新的网页数...
(二)爬取豆瓣网的书名（BeautifulSoup库）|Pyth
1.爬取网页的步骤2.爬取网页的代码1结果显示3.爬取网页的代码2结果显示4.代码分析最近更新：2018-01-1...