ZERO 前言
程序部作业balabala, 啥是爬虫balabala,主要看理解
ONE 准备
主要是介绍一下用过的几个框架
- Python3
- requests
- BeautifulSoup
TWO 实现
- 第一步,获取网页代码balabala, 遇到的问题, 第一遍实现,发现是中文乱码,于是加上了encoding那一句balabala
def get_response(url):
response = requests.get(url)
response.encoding = "utf-8" #解决gb2312编码的网站中文乱码问题
return response
- 观察网站,一共42页,所以把它放进个循环里,在循环把42页的所有图片url都获取下来, 放在一个list里。
https://aljfajflafjalfdjladfjalfjafafasfafdadsfasdfads -> 那个网址(小声bb
观察网址格式balabalabala
因为要获取图片最高分辨率的,观察一下页面,在图片下面有分辨率选项,获取那个li标签来获得分辨率,不过注意有的图片没有这个选项, 所以没有的默认分辨率是960x600balabalabala
- 下载图片
贴代码+解释
def download_image(image):
print("正在下载balabala")
try:
except:
下载图片, 怎么命名
THREE
总结一下这个程序,从中学到了什么(爬虫的概念鸭,学会用浏览器F12观察html代码鸭)
真好
网友评论