一、实验目标
爬取curlie中health的目录及其收录网站资源,网站的字段包括标题、网址、摘要。
All Sites二、采集工具
python 3.6.1
scrapy 1.5.0
三、采集过程
1.爬取health页面下的sites
建立scrapy项目,爬取curlie网站health页面的sites,爬取sites的标题、链接和摘要。所以先修改items.py文件。
爬取health页面的sites,限制爬虫爬取范围和seeds
运行爬虫后,爬取成功
2.遍历health目录
爬取成功后,分析到health下子目录页面布局和health页面布局相同,所以打算递归遍历整个health目录,每个页面执行sites爬取操作。
运行爬虫后出错,百度之后,发现没有导入request
运行后爬取成功
成功之后,准备加上每条数据的目录。我们设想的是将curlie网页最上方的目录导航爬取下来
爬取后发现最后一级目录无法爬取下来,所以修改了代码
爬取后,发现目录有空格。
爬取后发现最后一级目录还是爬不下来,所以我们改换了思路,直接从当前页面URL提取目录
网友评论