利用scrapy，短短50行代码下载整站短视频

作者: 我爱学python | 来源:发表于2019-06-12 15:27 被阅读39次

利用scrapy，短短50行代码下载整站短视频
python利用scrapy短短50行代码下载整站短视频
python爬虫实战：利用scrapy，短短50行代码下载整站短
整站下载神器webzip
12.scrapy实战之爬取简书整站内容
使用teleport下载整站，JQ代码部分报错：$ is not
Github 用户及仓库分析爬虫
创建第一个爬虫Scrapy
wget下载整站
整站工具下载

一、撕开爬虫的面纱——爬虫是什么，它能做什么

爬虫是什么

爬虫就是一段能够从互联网上高效获取数据的程序。

我们每天都在从互联网上获取数据。当打开浏览器访问百度的时候，我们就从百度的服务器获取数据，当拿起手机在线听歌的时候，我们就从某个app的服务器上获取数据。简单的归纳，这些过程都可以描述为：我们提交一个Request请求，服务器会返回一个Response数据，应用根据Response来渲染页面，给我们展示数据结果。

爬虫最核心的也是这个过程，提交Requests——〉接受Response。就这样，很简单，当我们在浏览器里打开一个页面，看到页面内容的时候，我们就可以说这个页面被我们采集到了。

只不过当我们真正进行数据爬取时，一般会需要采集大量的页面，这就需要提交许多的Requests，需要接受许多的Response。数量大了之后，就会涉及到一些比较复杂的处理，比如并发的，比如请求序列，比如去重，比如链接跟踪，比如数据存储，等等。于是，随着问题的延伸和扩展，爬虫就成为了一个相对独立的技术门类。

但它的本质就是对一系列网络请求和网络响应的处理。

爬虫能做什么

爬虫的作用和目的只有一个，获取网络数据。我们知道，互联网是个数据的海洋，大量的信息漂浮在其中，想把这些资源收归己用，爬虫是最常用的方式。特别是最近几年大树据挖掘技术和机器学习以及知识图谱等技术的兴盛，更是对数据提出了更大的需求。另外也有很多互联网创业公司，在起步初期自身积累数据较少的时候，也会通过爬虫快速获取数据起步。

二、python爬虫框架scrapy——爬虫开发的利器

如果你刚刚接触爬虫的概念，我建议你暂时不要使用scrapy框架。或者更宽泛的说，如果你刚刚接触某一个技术门类，我都不建议你直接使用框架，因为框架是对许多基础技术细节的高级抽象，如果你不了解底层实现原理就直接用框架多半会让你云里雾里迷迷糊糊。

在入门爬虫之初，看scrapy的文档，你会觉得“太复杂了”。当你使用urllib或者Requests开发一个python的爬虫脚本，并逐个去解决了请求头封装、访问并发、队列去重、数据清洗等等问题之后，再回过头来学习scrapy，你会觉得它如此简洁优美，它能节省你大量的时间，它会为一些常见的问题提供成熟的解决方案。

scrapy数据流程图

这张图是对scrapy框架的经典描述，一时看不懂没有关系，用一段时间再回来看。或者把本文读完再回来看。