美文网首页
爬虫学习(1)—初学爬虫注意的几个点

爬虫学习(1)—初学爬虫注意的几个点

作者: 罗汉堂主 | 来源:发表于2019-10-14 18:47 被阅读0次

    1. 字符与字符串转化

    bytes <------> str 方法

    a = '爬虫'                        
    b = a.encode()              # str转bytes
    c = b.decode('utf-8')     # bytes转str
    c = b.decode('utf8')      # bytes转str
    

    2. HTTP和HTTPS

    HTTP:超文本传输协议, 默认端口: 80
    HTTPS:HTTP + SSL(安全套接字层), 默认端口: 443

    HTTP的请求过程
    HTTP请求行、请求头、请求体详解

    HTTP常见的请求头
    1.Host(主机和端口号)
    2.Connection(链接类型)
    3.Upgrade-Insecure-Requests(升级为HTTPS请求)
    4.User-Agent(浏览器身份标识)
    5.Accept(传输文件的类型)
    6.Referer(页面跳转处)
    7.Accept-Encoding(文件编码格式)
    8.Cookie
    9.x-requested-with:XMLHttpRequest(是Ajax异步请求)

    3. url的形式

    sheme://host[:port#]/path/.../[?query-string][#anchor]
    sheme: 协议(例如:http, https, ftp)
    host:服务器的域名或者ip地址
    port:服务器的端口
    query-string:参数,发送给http服务器的数据
    anchor: 锚(跳转到网页的指定锚点位置)
    http://item.jd.com/11936238.html#product-detail

    4.爬虫的定义

    • 网络蜘蛛(spider):模拟客户端发送请求,接收请求响应,按照一定的规则,自动地抓取互联网的信息*
    • 只要是浏览器能做的事情,原则上,爬虫都能做到

    5. 爬虫的分类

    • 通用爬虫:通常是指搜索引擎的爬虫
      百度:面向整个互联网的所有网站


      搜索引擎流程
    • 聚焦爬虫:针对特定网站的爬虫
      网易云音乐:针对给定的具体的几个网站


      聚焦爬虫流程

    6.Robots协议

    • Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不可以抓取。
      例如:淘宝Robots协议

    相关文章

      网友评论

          本文标题:爬虫学习(1)—初学爬虫注意的几个点

          本文链接:https://www.haomeiwen.com/subject/qziqmctx.html