美文网首页Python爬虫
二. 爬虫原理和网页构造

二. 爬虫原理和网页构造

作者: 橄榄的世界 | 来源:发表于2018-02-14 18:31 被阅读0次

    1. 爬虫原理

    1)网络连接
    简单点来说,计算机发送请求Request → 服务器回应Response,即实现了网络连接。

    2)爬虫原理

    • 爬虫其实完成两件事:
      ①模拟计算机对服务器发起Request;
      ②接收来自服务端的Response内容,并解析、提取所需信息。

    • 多页面和跨页面爬虫
      多页面爬虫:分析各网页的URL构成特点,构造出URL列表,然后利用循环取出URL爬取。
      跨页面爬虫:爬取列表页的URL,并将其存入URL列表,然后利用循环取出URL爬取。

    2.网页构造

    1)学习网页前端知识
    2)通过Chrome的“检查”功能(F12快键键)或“查看网页源代码”功能。

    相关文章

      网友评论

        本文标题:二. 爬虫原理和网页构造

        本文链接:https://www.haomeiwen.com/subject/xxwetftx.html