一、实验目标
爬取curlie中health的目录及其收录网站资源,网站的字段包括标题、网址、摘要。
![](https://img.haomeiwen.com/i11741176/ad4c084672239fe4.png)
二、采集工具
python 3.6.1
scrapy 1.5.0
三、采集过程
1.爬取health页面下的sites
建立scrapy项目,爬取curlie网站health页面的sites,爬取sites的标题、链接和摘要。所以先修改items.py文件。
![](https://img.haomeiwen.com/i11741176/060d70651e2b4422.png)
爬取health页面的sites,限制爬虫爬取范围和seeds
![](https://img.haomeiwen.com/i11741176/789e3c4dec27c018.png)
运行爬虫后,爬取成功
![](https://img.haomeiwen.com/i11741176/05faf1186433c6e6.png)
2.遍历health目录
爬取成功后,分析到health下子目录页面布局和health页面布局相同,所以打算递归遍历整个health目录,每个页面执行sites爬取操作。
![](https://img.haomeiwen.com/i11741176/15618299182b8a92.png)
运行爬虫后出错,百度之后,发现没有导入request
![](https://img.haomeiwen.com/i11741176/39a1d61c553d074e.png)
运行后爬取成功
![](https://img.haomeiwen.com/i11741176/49a1a04e94df0c96.png)
成功之后,准备加上每条数据的目录。我们设想的是将curlie网页最上方的目录导航爬取下来
![](https://img.haomeiwen.com/i11741176/c2c5f5a7b94e8259.png)
爬取后发现最后一级目录无法爬取下来,所以修改了代码
![](https://img.haomeiwen.com/i11741176/a9a7587ca79a6141.png)
爬取后,发现目录有空格。
![](https://img.haomeiwen.com/i11741176/cbd050bc8ab341f1.png)
爬取后发现最后一级目录还是爬不下来,所以我们改换了思路,直接从当前页面URL提取目录
![](https://img.haomeiwen.com/i11741176/02086757b6112589.png)
![](https://img.haomeiwen.com/i11741176/897f891b229898e8.png)
网友评论