爬虫Scrapy

作者: 优秀的人A | 来源:发表于2019-01-21 11:15 被阅读78次

什么是爬虫?

网络爬虫（又被称为网页蜘蛛，网络机器人）, 是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。

爬虫的用途

爬虫的基本原理：

我们把互联网比喻为一张大网，网络爬虫我们想象为网上的蜘蛛，网页与网页之间的连接我们理解为节点，爬虫就相当于是访问网页，获取网页的信息，又通过节点可以爬取另一个网站，然后不停的通过一个个节点即访问一个个网页，这样网站的数据就可以被我们获取下来了。

爬虫分为通用爬虫和聚焦爬虫通用爬虫

通用网络爬虫是捜索引擎抓取系统（Baidu、Google、Yahoo等）的重要组成部分。主要目的是将互联网上的网页下载到本地，形成一个互联网内容的镜像备份。

聚焦爬虫聚焦爬虫，是"面向特定主题需求"的一种网络爬虫程序，它与通用搜索引擎爬虫的区别在于：　聚焦爬虫在实施网页抓取时会对内容进行处理筛选，尽量保证只抓取与需求相关的网页信息。

网友评论

本文标题：爬虫Scrapy

本文链接：https://www.haomeiwen.com/subject/pogqjqtx.html

爬虫Scrapy