HTTP、URL、网页组成及爬虫原理简介

作者: Manchangdx | 来源:发表于2018-10-19 23:14 被阅读0次

HTTP、URL、网页组成及爬虫原理简介
最通俗的 Python3 网络爬虫入门
爬虫之路
Python｜三个例子，一步步教你学会爬虫
【Python爬虫】三个例子，一步步教你学会python爬虫
Python开发简单爬虫--学习笔记
爬虫介绍
一篇了解爬虫技术方方面面，python爬虫学习
一篇文章带你了解Python爬虫的方方面面！
来来来！带你了解Python爬虫的方方面面！

URI 的全称为 Uniform Resource Identifier，即统一资源标志符
URL 的全称为 Universal Resource Locator，即统一资源定位符
URN 的全称为 Universal Resource Name，即统一资源名称
URI 包括 URL 和 URN，后两者是前者的子集。在目前的互联网中， URN 用得非常少，所以几乎所有的 URI 都是 URL，一般的网页链接我们既可以称为 URL，也可以称为 URI

超文本，其英文名称叫作 hyper text
我们在浏览器里看到的网页就是超文本解析而成的
其网页源代码是一系列 HTML代码

URL 的开头会有 http 或 https，这就是访问资源需要的协议类型
有时，我们还会看到 ftp、sftp、smb 开头的 URL，它们都是协议类型
在爬虫中，我们抓取的页面通常就是 http 或 https协议的

HTTP 的全称是 Hyper Text Transfer Protocol，中文名叫作超文本传输协议。HTTP 协议是用于从网络传输超文本数据到本地浏览器的传送协议，它能保证高效而准确地传送超文本文档。HTTPS 的全称是 Hyper Text Transfer Protocol over Secure Socket Layer，是以安全为目标的 HTTP 通道，简单讲是 HTTP 的安全版，即 HTTP下加入 SSL 层，简称为 HTTPS

GET 和 POST 请求方法有如下区别：
1、GET 请求中的参数包含在 URL 里面，数据可以在 URL中看到，而 POST 请求的 URL 不会包含这些数据，数据都是通过表单形式传输的，会包含在请求体中
2、GET 请求提交的数据最多只有 1024 字节，而 POST 方式没有限制

一般来说，登录时需要提交用户名和密码，其中包含了敏感信息，使用 GET 方式请求的话，密码就会暴露在 URL 里面，造成密码泄露，所以这里最好以 POST 方式发送；上传文件时，由于文件内容比较大，也会选用 POST 方式，我们平常遇到的绝大部分请求都是 GET 或 POST 请求

网页可以分为三大部分：HTML、CSS 和 JavaScript。如果把网页比作一个人的话，HTML 相当于骨架，JavaScript 相当于肌肉，CSS 相当于皮肤，三者结合起来才能形成一个完善的网页

在 HTML 中，所有标签定义的内容都是节点，它们构成了一个 HTML DOM 树。DOM 是 W3C（万维网联盟）的标准，其英文全称 Document Object Model，即文档对象模型，它定义了访问 HTML 和 XML 文档的标准：
1、整个文档是一个文档节点
2、每个 HTML元素是元素节点
3、HTML元素内的文本是文本节点
4、每个 HTML 属性是属性节点
5、注释是注释节点

简单来说，爬虫就是获取网页并提取和保存信息的自动化程序。我们可以把互联网比作一张大网，而爬虫便是在网上爬行的蜘蛛。把网的节点比作一个个网页，爬虫爬到一个节点就相当于访问了该页面，获取了其信息。可以把节点间的连线比作网页与网页之间的链接关系，这样蜘蛛通过一个节点后，可以顺着节点连线继续爬行到达下一个节点，即通过一个网页继续获取后续的网页。这样整个网的节点便可以被蜘蛛全部爬行到，网站的数据就可以被抓取下来了。