——————来自某潮汕人的菜鸟教程
一、如何安装requests?
pip install requests
二、requests.get方法的使用:
要爬取的网站:“https://b.faloo.com/l/0/1.html?t=1&k=%CB%D9%B6%C8”
爬取任务:搜索结果的标题名称

代码:
import requests
import re
res = requests.get(url='https://b.faloo.com/l/0/1.html?t=1&k=%CB%D9%B6%C8')
res_text=res.text
result=re.findall('\" title\"(.*?)\"><img',res_text,re.DOTALL)
print(result)
结果:['修炼速度几何倍', '速度与激情之暴风车神', '速度与激情之赏金猎人', '速度与激情之二货降临', '速度与激情之杀手来临', '假面骑士之暗', '海贼之超神海贼', '妖尾之速度之舞', '神奇宝贝之穿越小智的爱情', '速度与激情:罪犯系统', '速度之王', '速度与激情之有神']
代码讲解:

@requests.get()是获取一个网站的源代码,得到的结果与你打开一个网站查看源代码的结果一致

@requests.get返回的res可以有很多种方法,在这里一 一讲解
1、res.text 是返回网页的响应数据,并按照机器所认为的最大可能去解码比如utf-8
2、res.content是返回网页的相应数据,但不进行解码,开发者可以根据实际进行某种编码格式进行解码。一般而言,编码格式在网页的源代码里面有标注,如下图

这样子我就可以把代码改为"
res_text=res.content.decode('gb2312')#效果一样
3、res.status_code 返回访问网站的状态码,正常访问为200(很重要的这个,后期可以发下)
4、res.url 返回访问网站的url地址
5、res.cookies 返回访问网站后的cookies
@result=re.findall('\" title\"(.*?)\"><img',res_text,re.DOTALL)
在爬虫里面用得最频繁最好用的是findall,re.DOTALL是为了匹配回车符号

网友评论