美文网首页
HTTP、URL、网页组成及爬虫原理简介

HTTP、URL、网页组成及爬虫原理简介

作者: Manchangdx | 来源:发表于2018-10-19 23:14 被阅读0次

URI 的全称为 Uniform Resource Identifier,即统一资源标志符
URL 的全称为 Universal Resource Locator,即统一资源定位符
URN 的全称为 Universal Resource Name,即统一资源名称
URI 包括 URLURN,后两者是前者的子集。在目前的互联网中, URN 用得非常少,所以几乎所有的 URI 都是 URL,一般的网页链接我们既可以称为 URL, 也可以称为 URI

超文本,其英文名称叫作 hyper text
我们在浏览器里看到的网页就是超文本解析而成的
其网页源代码是一系列 HTML代码

URL 的开头会有 httphttps,这就是访问资源需要的协议类型
有时,我们还会看到 ftpsftpsmb 开头的 URL,它们都是协议类型
在爬虫中,我们抓取的页面通常就是 httphttps协议的

HTTP 的全称是 Hyper Text Transfer Protocol,中文名叫作超文本传输协议。HTTP 协议是用于从网络传输超文本数据到本地浏览器的传送协议,它能保证高效而准确地传送超文本文档。HTTPS 的全称是 Hyper Text Transfer Protocol over Secure Socket Layer,是以安全为目标的 HTTP 通道,简单讲是 HTTP 的安全版,即 HTTP下加入 SSL 层,简称为 HTTPS

GETPOST 请求方法有如下区别:
1、GET 请求中的参数包含在 URL 里面,数据可以在 URL中看到,而 POST 请求的 URL 不会包含这些数据,数据都是通过表单形式传输的,会包含在请求体中
2、GET 请求提交的数据最多只有 1024 字节,而 POST 方式没有限制

一般来说,登录时需要提交用户名和密码,其中包含了敏感信息,使用 GET 方式请求的话, 密码就会暴露在 URL 里面,造成密码泄露,所以这里最好以 POST 方式发送;上传文件时,由于文件内容比较大,也会选用 POST 方式,我们平常遇到的绝大部分请求都是 GETPOST 请求

网页可以分为三大部分:HTMLCSSJavaScript。如果把网页比作一个人的话,HTML 相当于骨架,JavaScript 相当于肌肉,CSS 相当于皮肤,三者结合起来才能形成一个完善的网页

HTML 中,所有标签定义的内容都是节点,它们构成了一个 HTML DOM 树。DOMW3C(万维网联盟)的标准,其英文全称 Document Object Model,即文档对象模型,它定义了访问 HTMLXML 文档的标准:
1、整个文档是一个文档节点
2、每个 HTML元素是元素节点
3、HTML元素内的文本是文本节点
4、每个 HTML 属性是属性节点
5、注释是注释节点

简单来说,爬虫就是获取网页并提取和保存信息的自动化程序。我们可以把互联网比作一张大网,而爬虫便是在网上爬行的蜘蛛。把网的节点比作一个个网页,爬虫爬到一个节点就相当于访问了该页面,获取了其信息。可以把节点间的连线比作网页与网页之间的链接关系,这样蜘蛛通过一个节点后,可以顺着节点连线继续爬行到达下一个节点,即通过一个网页继续获取后续的网页。这样整个网的节点便可以被蜘蛛全部爬行到,网站的数据就可以被抓取下来了。

相关文章

网友评论

      本文标题:HTTP、URL、网页组成及爬虫原理简介

      本文链接:https://www.haomeiwen.com/subject/sgqpzftx.html