我们学习爬虫时候,要先明白这么几件事!
1.爬虫是什么?
2.爬虫实现爬取的原理是什么?
3.爬虫从发起请求到服务器给出响应中间经历了什么?
我们先来看看第一个问题什么是爬虫?
在了解爬虫之前我们先要知道这么几个含义
1.URI:统一资源标识符
2.URL:统一资源定位符,URI的子集
3.超文本:网页的HTML代码
4.HTTP:超文本传输协议
5.HTTPS:HTTP协议的安全版,在HTTP下层加入了SSL层,安全性能更好
好了那么我们来说说什么是爬虫?
首先我们要认清一个概念,就是互联网是什么样的,你们可能会说互联网看不见摸不到,我们怎么知道是什么样的!好那我来给你举几个例子,让你重新认识一下互联网!
https://www.baidu.com/
https://www.baidu.com/s?wd=python
https://baike.baidu.com/item/Python/
有没有发现些什么东西?https我们了解了,是一个安全版的HTTP协议,这个暂时不管,后面的东西你们发现了吗?有没有向我们的电脑里的文件夹的路径
C:\program\python
有没有感觉很像,可以这么理解,互联网就是一个大的电脑,而你上网看东西或者搜索东西,就像是在文件夹里一层一层在找你所需要的东西!到这里应该对互联网有个概念了吧!
那么我们再来说说爬虫是什么?
我们知道互联网是类似电脑里的一个有一个的文件夹,理论上我们一个个点开就能翻遍互联网,也能知道互联网里都有什么东西,爬虫就是这样按照一个个类似“蜘蛛网”的路来走遍互联网,按照一定规则找到并保存我们所需要的数据并将其自动化,这就是爬虫!懂了吗?
下面我们来说说爬虫的工作原理:
爬虫是通过一定的规则来获取网页信息并保存的的自动化的程序
爬虫从发起请求到服务器相应中间经历了什么?
浏览器向网站所在的服务器发送了一个请求,网站服务器收到这个请求后进行处理和信息解析,然后返回对应的相应请求
我们来说说这句话里面的几个关键词
请求:由客户端向服务端发出,分为四部分,请求方法,请求网址,请求头,请求体
1.请求方法:请求方法分为两种, GET(参数直接包含在URL里)和POST(在提交表单时候发起,常见的登录操作,不会体现在URL中)
2.请求网址:即网页的URL地址
3.请求体:一般承载的内容是post请求的表单数据,对于get请求体为空,如果在爬虫里使用POST请求,那么就要正确使用Content-Type和POST表单提交数据的关系
4.请求头:用来说明服务器要使用的附加信息,这里面有这么几个参数
- Accept:请求报头域,用于指定客户端可以接受的信息类型
- Host:客户端指定自己想访问的http服务器的域名/IP 地址和端口号
- Cookie:是网站为了辨别用户进行的会话,进而存储在用户本地的数据,主要是维持当前访问会话,也可以用来进行身份识别
- Referer:用来表示请求是从哪个页面发过来的
- User-Agent:UA 可以让服务器辨别用户的操作系统,浏览器的版本等信息,在爬虫是加上信息,可以伪装成浏览器
相应:由服务器返回给客户端,分为三部分:相应状态码,相应头,相应体
响应状态码:200表示正常,404表示页面未找到,500表示服务器内部发生错误
其他常用的相应状态码
响应头:包含了服务器的应答信息
- Date:标识响应的产生时间
- last-Modified:指定资源的最后修改时间
- Content-Encoding:指定响应内容的编码
- Content-Type:文档类型,指定返回的数据类型
- Location:Location响应头用于重定向接收者到一个新URI地址
- Server:Server响应头包含处理请求的原始服务器的软件信息。此域能包含多个产品标识和注释,产品标识一般按照重要性排序
相应体:请求网页时,响应体就是HTML代码或者JSON数据(ps:别看写的少,这部分是最重要的,我们需要的数据都在这里!!!)
到这里,基本已经基本了解爬虫的基本常识!明天我会说一说爬虫其他的知识!
网友评论