python爬虫学习？爬虫的基本原理与过程

作者: Python小辰 | 来源:发表于2019-08-04 21:31 被阅读0次

Python是一种计算机程序设计语言。是一种面向对象的动态类型语言，最初被设计用于编写自动化脚本(shell)，随着版本的不断更新和语言新功能的添加，越来越多被用于独立的、大型项目的开发。

1、基本原理

爬虫是模拟用户在浏览器或者App应用上的操作，把操作的过程、实现自动化的程序。由以下4个基本流程。

（1）、发起请求

通过HTTP库向目标站点发起请求，也就是发送一个Request，请求可以包含额外的header等信息，等待服务器响应

（2）、获取响应内容

如果服务器能正常响应，会得到一个Response，Response的内容便是所要获取的页面内容，类型可能是HTML,Json字符串，二进制数据（图片或者视频）等类型

（3）、解析内容

得到的内容可能是HTML,可以用正则表达式，页面解析库进行解析，可能是Json,可以直接转换为Json对象解析，可能是二进制数据，可以做保存或者进一步的处理

（4）、保存数据

保存形式多样，可以存为文本，也可以保存到数据库，或者保存特定格式的文件

小编推荐一个学Python的学习裙【 126，427，833 】，无论你是大牛还是小白，是想转行还是想入行都可以来了解一起进步一起学习！裙内有开发工具，很多干货和技术资料分享！

2、过程

而当我们在浏览器中输入一个url后回车，后台会发生什么？

简单来说这段过程发生了以下四个步骤：

（1）、查找域名对应的IP地址。

浏览器首先访问的是DNS(Domain Name System,域名系统),dns的主要工作就是把域名转换成相应的IP地址

（2）、向IP对应的服务器发送请求。

（3）、服务器响应请求，发回网页内容。

（4）、浏览器显示网页内容。

网络爬虫要做的，简单来说，就是实现浏览器的功能。通过指定url，直接返回给用户所需要的数据，而不需要一步步人工去操纵浏览器获取。

网友评论

本文标题：python爬虫学习？爬虫的基本原理与过程

本文链接：https://www.haomeiwen.com/subject/wicudctx.html

python爬虫学习？爬虫的基本原理与过程