美文网首页
爬虫基础

爬虫基础

作者: Wangthirteen | 来源:发表于2018-11-26 22:49 被阅读10次

    我们学习爬虫时候,要先明白这么几件事!
    1.爬虫是什么?
    2.爬虫实现爬取的原理是什么?
    3.爬虫从发起请求到服务器给出响应中间经历了什么?

    我们先来看看第一个问题什么是爬虫?

    在了解爬虫之前我们先要知道这么几个含义
    1.URI:统一资源标识符
    2.URL:统一资源定位符,URI的子集
    3.超文本:网页的HTML代码
    4.HTTP:超文本传输协议
    5.HTTPS:HTTP协议的安全版,在HTTP下层加入了SSL层,安全性能更好

    好了那么我们来说说什么是爬虫?
    首先我们要认清一个概念,就是互联网是什么样的,你们可能会说互联网看不见摸不到,我们怎么知道是什么样的!好那我来给你举几个例子,让你重新认识一下互联网!

    https://www.baidu.com/
    https://www.baidu.com/s?wd=python
    https://baike.baidu.com/item/Python/

    有没有发现些什么东西?https我们了解了,是一个安全版的HTTP协议,这个暂时不管,后面的东西你们发现了吗?有没有向我们的电脑里的文件夹的路径

    C:\program\python

    有没有感觉很像,可以这么理解,互联网就是一个大的电脑,而你上网看东西或者搜索东西,就像是在文件夹里一层一层在找你所需要的东西!到这里应该对互联网有个概念了吧!
    那么我们再来说说爬虫是什么?
    我们知道互联网是类似电脑里的一个有一个的文件夹,理论上我们一个个点开就能翻遍互联网,也能知道互联网里都有什么东西,爬虫就是这样按照一个个类似“蜘蛛网”的路来走遍互联网,按照一定规则找到并保存我们所需要的数据并将其自动化,这就是爬虫!懂了吗?

    下面我们来说说爬虫的工作原理:

    爬虫是通过一定的规则来获取网页信息并保存的的自动化的程序

    爬虫从发起请求到服务器相应中间经历了什么?

    浏览器向网站所在的服务器发送了一个请求,网站服务器收到这个请求后进行处理和信息解析,然后返回对应的相应请求

    我们来说说这句话里面的几个关键词

    请求:由客户端向服务端发出,分为四部分,请求方法,请求网址,请求头,请求体
    1.请求方法:请求方法分为两种, GET(参数直接包含在URL里)和POST(在提交表单时候发起,常见的登录操作,不会体现在URL中)
    2.请求网址:即网页的URL地址
    3.请求体:一般承载的内容是post请求的表单数据,对于get请求体为空,如果在爬虫里使用POST请求,那么就要正确使用Content-Type和POST表单提交数据的关系
    4.请求头:用来说明服务器要使用的附加信息,这里面有这么几个参数

    • Accept:请求报头域,用于指定客户端可以接受的信息类型
    • Host:客户端指定自己想访问的http服务器的域名/IP 地址和端口号
    • Cookie:是网站为了辨别用户进行的会话,进而存储在用户本地的数据,主要是维持当前访问会话,也可以用来进行身份识别
    • Referer:用来表示请求是从哪个页面发过来的
    • User-Agent:UA 可以让服务器辨别用户的操作系统,浏览器的版本等信息,在爬虫是加上信息,可以伪装成浏览器

    相应:由服务器返回给客户端,分为三部分:相应状态码,相应头,相应体
    响应状态码:200表示正常,404表示页面未找到,500表示服务器内部发生错误
    其他常用的相应状态码
    响应头:包含了服务器的应答信息

    • Date:标识响应的产生时间
    • last-Modified:指定资源的最后修改时间
    • Content-Encoding:指定响应内容的编码
    • Content-Type:文档类型,指定返回的数据类型
    • Location:Location响应头用于重定向接收者到一个新URI地址
    • Server:Server响应头包含处理请求的原始服务器的软件信息。此域能包含多个产品标识和注释,产品标识一般按照重要性排序
      相应体:请求网页时,响应体就是HTML代码或者JSON数据(ps:别看写的少,这部分是最重要的,我们需要的数据都在这里!!!

    到这里,基本已经基本了解爬虫的基本常识!明天我会说一说爬虫其他的知识!

    相关文章

      网友评论

          本文标题:爬虫基础

          本文链接:https://www.haomeiwen.com/subject/wuiiqqtx.html