python爬虫学习：爬虫的基本原理与过程

作者: dc260c55dcc9 | 来源:发表于2019-06-23 09:16 被阅读4次

干货 | Python爬虫学习路线，小白都能学会！
爬虫入门基础
资料
Python爬虫学习（十六）初窥Scrapy
爬虫入门
01-认识爬虫
python爬虫学习？爬虫的基本原理与过程
python爬虫学习：爬虫的基本原理与过程
学渣讲爬虫之Python爬虫从入门到出门（第一讲）
2018-12-24 网页爬虫第一天

1、基本原理

爬虫是模拟用户在浏览器或者App应用上的操作，把操作的过程、实现自动化的程序。由以下4个基本流程。

（1）、发起请求

通过HTTP库向目标站点发起请求，也就是发送一个Request，请求可以包含额外的header等信息，等待服务器响应

（2）、获取响应内容

如果服务器能正常响应，会得到一个Response，Response的内容便是所要获取的页面内容，类型可能是HTML,Json字符串，二进制数据（图片或者视频）等类型

（3）、解析内容

得到的内容可能是HTML,可以用正则表达式，页面解析库进行解析，可能是Json,可以直接转换为Json对象解析，可能是二进制数据，可以做保存或者进一步的处理

（4）、保存数据

保存形式多样，可以存为文本，也可以保存到数据库，或者保存特定格式的文件

学习python过程中有不懂的可以加入我的python零基础系统学习交流秋秋qun：前面是934，中间109，后面是170，与你分享Python企业当下人才需求及怎么从零基础学习Python，和学习什么内容。相关学习视频资料、开发工具都有分享！

2、过程

而当我们在浏览器中输入一个url后回车，后台会发生什么？

简单来说这段过程发生了以下四个步骤：

（1）、查找域名对应的IP地址。

浏览器首先访问的是DNS(Domain Name System,域名系统),dns的主要工作就是把域名转换成相应的IP地址

（2）、向IP对应的服务器发送请求。

（3）、服务器响应请求，发回网页内容。

（4）、浏览器显示网页内容。

网络爬虫要做的，简单来说，就是实现浏览器的功能。通过指定url，直接返回给用户所需要的数据，而不需要一步步人工去操纵浏览器获取。

网友评论

本文标题：python爬虫学习：爬虫的基本原理与过程

本文链接：https://www.haomeiwen.com/subject/uxqiqctx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

python爬虫学习：爬虫的基本原理与过程

相关文章

干货 | Python爬虫学习路线，小白都能学会！

爬虫入门基础

资料

Python爬虫学习（十六）初窥Scrapy

爬虫入门

01-认识爬虫