URI
的全称为 Uniform Resource Identifier,即统一资源标志符
URL
的全称为 Universal Resource Locator,即统一资源定位符
URN
的全称为 Universal Resource Name,即统一资源名称
URI
包括URL
和URN
,后两者是前者的子集。在目前的互联网中,URN
用得非常少,所以几乎所有的URI
都是URL
,一般的网页链接我们既可以称为URL
, 也可以称为URI
超文本,其英文名称叫作
hyper text
我们在浏览器里看到的网页就是超文本解析而成的
其网页源代码是一系列HTML
代码
URL
的开头会有http
或https
,这就是访问资源需要的协议类型
有时,我们还会看到ftp
、sftp
、smb
开头的URL
,它们都是协议类型
在爬虫中,我们抓取的页面通常就是http
或https
协议的
HTTP
的全称是 Hyper Text Transfer Protocol,中文名叫作超文本传输协议。HTTP
协议是用于从网络传输超文本数据到本地浏览器的传送协议,它能保证高效而准确地传送超文本文档。HTTPS
的全称是 Hyper Text Transfer Protocol over Secure Socket Layer,是以安全为目标的HTTP
通道,简单讲是HTTP
的安全版,即HTTP
下加入SSL
层,简称为HTTPS
GET
和POST
请求方法有如下区别:
1、GET
请求中的参数包含在URL
里面,数据可以在URL
中看到,而POST
请求的URL
不会包含这些数据,数据都是通过表单形式传输的,会包含在请求体中
2、GET
请求提交的数据最多只有 1024 字节,而POST
方式没有限制
一般来说,登录时需要提交用户名和密码,其中包含了敏感信息,使用
GET
方式请求的话, 密码就会暴露在URL
里面,造成密码泄露,所以这里最好以POST
方式发送;上传文件时,由于文件内容比较大,也会选用POST
方式,我们平常遇到的绝大部分请求都是GET
或POST
请求
网页可以分为三大部分:
HTML
、CSS
和JavaScript
。如果把网页比作一个人的话,HTML
相当于骨架,JavaScript
相当于肌肉,CSS
相当于皮肤,三者结合起来才能形成一个完善的网页
在
HTML
中,所有标签定义的内容都是节点,它们构成了一个HTML DOM
树。DOM
是W3C(万维网联盟)
的标准,其英文全称Document Object Model
,即文档对象模型,它定义了访问HTML
和XML
文档的标准:
1、整个文档是一个文档节点
2、每个 HTML元素是元素节点
3、HTML元素内的文本是文本节点
4、每个 HTML 属性是属性节点
5、注释是注释节点
简单来说,爬虫就是获取网页并提取和保存信息的自动化程序。我们可以把互联网比作一张大网,而爬虫便是在网上爬行的蜘蛛。把网的节点比作一个个网页,爬虫爬到一个节点就相当于访问了该页面,获取了其信息。可以把节点间的连线比作网页与网页之间的链接关系,这样蜘蛛通过一个节点后,可以顺着节点连线继续爬行到达下一个节点,即通过一个网页继续获取后续的网页。这样整个网的节点便可以被蜘蛛全部爬行到,网站的数据就可以被抓取下来了。
网友评论