今天想爬取一个网站的美女图片的,虽然没有成功,但是也权当是一种练习,特别是对于爬虫的时候如何翻页,之前虽然都有爬过其他网站视频等,但是都是手动录入页数。
下面说说下自己思路吧。
其实就是利用status_code返回的数值来确定有没有下一页。2333333333333333333333333333
进群:960410445 获取源码!
import requests
from lxml import etree
headers = {"User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36 SE 2.X MetaSr 1.0"}
#html = requests.get(url,headers=headers).status_code
i =1
url='https://www.x.com/meinv/20181220/80341_1.html'
#requests.get(url,headers=headers).status_code==200
while requests.get(url,headers=headers).status_code==200:
url='https://www.x.com/meinv/20181220/80341_{}.html'.format(i)
i +=1
print(url)
这样,使用while 来判断。只取status_code等于200的时候的页数。有的时候是404就不管了。其实,肯定有更好的方法,但是我就只接触到这个。虽然是自己搞的,但是也有网友提供的一些思路,启发。
其实,现实生活中,有人座高铁,有人做飞机,有人走路,也许大家的目的都是一样,虽然到达的时间不一样,但是每个人都有自己的玩法。
曾经迷茫过,错过了,有怎么样,从头再来也干他一把。
网友评论