哈喽,大家好!我是minisummer!首先感谢您的关注!
今天给大家分享的内容是python爬虫基础知识。
什么是爬虫
爬虫,从本质上来说,就是利用程序在网上拿到对我们有价值的数据。
浏览器工作原理
首先,我们在浏览器输入一个网址,浏览器向服务器传达了我们想访问某个网页的需求,这个过程就叫做【请求】。
紧接着,服务器把你想要的网站数据发送给浏览器,这个过程叫做【响应】。
当服务器把数据响应给浏览器后,浏览器还需要翻译人看得懂的数据,这个过程就是【解析数据】。
紧接着,我们可以在拿到数据后,挑选出对我们有用的数据,这是【提取数据】。
最后,我们把这些有用的数据保存好,这是【存储数据】。

爬虫的工作原理
爬虫可以模拟浏览器去向服务器发出请求;
其次,等服务器响应后,爬虫程序还可以代替浏览器帮我们解析数据;
接着,爬虫可以根据我们设定的规则批量提取相关数据,而不需要我们去手动提取;
最后,爬虫可以批量地把数据存储到本地。

爬虫四大步骤
1.获取数据
输入url,向服务器发送请求,然后返回数据。
2.解析数据
爬虫程序会把服务器返回的数据解析成我们能读懂的格式。
3.提取数据
爬虫程序再从中提取出我们需要的数据。
4.存储数据
爬虫程序把这些有用的数据保存起来,便于你日后的使用和分析。
HTML基础知识
请看以前web自动化测试文集的文章。
requests模块
requests库可以帮助我们模拟浏览器向服务器发送请求,获取数据。
# 调用requests模块
import requests
# 获取网页源代码,得到的res是response对象
res = requests.get('http://www.baidu.com')
# 检测请求是否正确响应
print(res.status_code)
# 新建一个名为baidu的html文档,没加路径则默认保存在程序运行的当前目录下。
file = open('baidu.html','w')
# res.text是字符串格式,把它写入文件内。
file.write(res.text)
# 关闭文件
file.close()
请大家多多指教~
以上内容希望对你有帮助,有被帮助到的朋友欢迎点赞,评论。
注:转载请注明出处,商用请征得作者本人同意,谢谢!!!
网友评论