大家好,我是天空之城,今天给大家带来,运用scrapy爬虫框架高效爬取数据和存储数据。
Scrapy的用法
0.创建Scrapy项目
1定 义item(数据)
2创建 和编写spiders文件
3修改settings.py文件
4运行Scrapy爬 虫
在这里插入图片描述
写代码:
明确目标
分析过程
代码实现(逐步)
以爬取豆瓣图书为演示https://book.douban.com/top250
豆瓣Top250图书一共有10页,每页有25本书籍。我们的目标是:先只爬取前三页书籍的信息,也就是爬取前75本书籍的信息(包含书名、出版信息和书籍评分)。
网址规律,
第2页的网址:
https:/ /book.douban.com/ top250?start=25
第3页的网址:
https:/ /book.douban.com/ top250?start=50
右击检查,你就会发现,其实每一页的25本书籍信息都分别藏在了一个<table width="100%">标签里。不过这个标签没有class属性,也没有id属性,不方便我们提取信息。
如果你想在自己本地的电脑使用Scrapy,需要提前安装好它。(安装方法:Windows:在终端输入命令:pip install scrapy;mac:在终端输入命令:pip3 install scrapy,按下enter键)
新建一个Python文件夹里的Pythoncode子文件夹。
然后,再输入一行能帮我们创建Scrapy项目的命令:scrapy startproject douban,douban就是Scrapy项目的名字。按下enter键,一个Scrapy项目就创建成功了。
网友评论