美文网首页蜂采
爬虫基本知识点

爬虫基本知识点

作者: 苗_a | 来源:发表于2019-02-17 21:19 被阅读25次

    网络的三大特性

    每一个网页都有一个唯一的url(同意资源定位符)
    每一个网页都市一个html文本(超文本)
    都是通过http/https(超文本传输协议)获取网页数据

    种子url的来源

    主动向搜索引擎提交
    网页里面的外链(友情链接)
    搜索引擎和DNS服务商合作
    DNS:将域名解析为ip的一种技术

    URL的组成部分:

    1.scheme:协议
    2.host:指的是域或者ip
    3.port:端口
    4.path:资源路径
    5.query-string:请求参数
    6.anchor:锚点,主要实现页面的定位
    2xx:表示服务器成功接收请求并已完成整个处理过程。
    200(OK 请求成功)。
    3xx:为完成请求,客户需进一步细化请求。例如:请求的资源已经移动一个新地址、 常用的状态码:
    301: 永久重定向
    302:临时重定向(所请求的页面已经临时转移至新的url)
    4xx:客户端的请求有错误.
    400:错误请求,服务器无法解析请求
    401:未授权,没有进行身份验证
    403:服务器拒绝访问
    404:服务器无法找到被请求的网页
    408:请求超时
    5xx:服务器端出现错误
    500:服务器内部错误
    501:服务器不具备完成请求的功能
    503:服务器不可用

    相关文章

      网友评论

        本文标题:爬虫基本知识点

        本文链接:https://www.haomeiwen.com/subject/zmyneqtx.html