什么是爬虫

爬虫，从本质上来说，就是利用程序在网上拿到对我们有价值的数据。

浏览器工作原理

首先，我们在浏览器输入一个网址，浏览器向服务器传达了我们想访问某个网页的需求，这个过程就叫做【请求】。
紧接着，服务器把你想要的网站数据发送给浏览器，这个过程叫做【响应】。
当服务器把数据响应给浏览器后，浏览器还需要翻译人看得懂的数据，这个过程就是【解析数据】。
紧接着，我们可以在拿到数据后，挑选出对我们有用的数据，这是【提取数据】。
最后，我们把这些有用的数据保存好，这是【存储数据】。

浏览器工作原理.png

爬虫的工作原理

爬虫可以模拟浏览器去向服务器发出请求；
其次，等服务器响应后，爬虫程序还可以代替浏览器帮我们解析数据；
接着，爬虫可以根据我们设定的规则批量提取相关数据，而不需要我们去手动提取；
最后，爬虫可以批量地把数据存储到本地。

爬虫工作原理.png

爬虫四大步骤

1.获取数据
输入url，向服务器发送请求，然后返回数据。
2.解析数据
爬虫程序会把服务器返回的数据解析成我们能读懂的格式。
3.提取数据
爬虫程序再从中提取出我们需要的数据。
4.存储数据
爬虫程序把这些有用的数据保存起来，便于你日后的使用和分析。

HTML基础知识

请看以前web自动化测试文集的文章。

requests模块

requests库可以帮助我们模拟浏览器向服务器发送请求，获取数据。

# 调用requests模块
import requests

# 获取网页源代码，得到的res是response对象
res = requests.get('http://www.baidu.com')
# 检测请求是否正确响应
print(res.status_code)

# 新建一个名为baidu的html文档，没加路径则默认保存在程序运行的当前目录下。
file = open('baidu.html','w')
# res.text是字符串格式，把它写入文件内。
file.write(res.text)
# 关闭文件
file.close()

请大家多多指教~
以上内容希望对你有帮助，有被帮助到的朋友欢迎点赞，评论。
注：转载请注明出处，商用请征得作者本人同意，谢谢！！！