美文网首页
01-网络爬虫的Headers须知

01-网络爬虫的Headers须知

作者: Michael_748c | 来源:发表于2018-02-05 14:01 被阅读0次

    网络爬虫的Headers须知

    Headers讲解

    以访问网页为例,我们在B站首页输入“夏目友人帐”点击搜索来到下方页面,我们可以在 "Chrome" 的Network视图点击某一资源查看该资源对应请求的Headers头信息。

    1,Request Headers

    编写网络爬虫需要模拟浏览器向服务器发起请求,比如我们设置了头信息中的Cookie等头信息,这样服务器就会以为我们是通过浏览器登录账户进行访问的,不会把我们列入机器人爬虫,一定程度上可以反爬虫。

    需要关注Request Headers主要有下图中红色框选中的部分。

    image.png
    Headers 作用
    Cookie 主要保存用户的信息,比如用户名、密码等;
    Host 请求的服务器主机
    User Agent 操作系统版本、浏览器内核、浏览器厂商等信息
    Referer 当前页面的上一个页面;本例中我们上一个页面是https://www.bilibili.com/

    2,Response Headers

    同理,我们可以查看到服务器响应返回的头信息知道响应结果的编码是utf-8,有的还可以看到服务器所用是apache或是其他web服务器。


    image.png

    相关文章

      网友评论

          本文标题:01-网络爬虫的Headers须知

          本文链接:https://www.haomeiwen.com/subject/mppbzxtx.html