美文网首页
爬虫介绍

爬虫介绍

作者: 小橙子_43db | 来源:发表于2019-11-23 17:51 被阅读0次

    爬虫:一段自动从互联网上抓取数据的程序

    爬虫的架构:

    爬虫由5个部分组成:调度器,url管理器,网页下载器,网页解析器,应用程序组成

    调度器:相当于一台电脑的CPU,负责调度url管理器,网页下载器,网页解析器,让它们协调工作。

    url管理器:负责管理爬去网页的url,标记已经爬取过的和未爬取的url,主要有三种实现方式:内存,数据库,缓存数据库

    网页下载器:通过传入的url来下载网页,将网页转换成字符串

    网页解析器:将下载的网页中有用的信息提取出来

    应用程序:将获取到的数据应用到一个具体的场景中

    相关文章

      网友评论

          本文标题:爬虫介绍

          本文链接:https://www.haomeiwen.com/subject/pgwhwctx.html