1、确定需要爬取的信息

爬取本网页中的价格 标题 评论数 三个信息 设置start_url为category.dangdang.com/pg1-cid4004279.html domains为dangdang.com 最终urlproduct.dangdang.com/61872489.html
2、item、pipeline、setting文件编写
1、在item文件中编写需要爬取的三个内容title、price、comment
2、pipeline文件中编写需要以什么方式存储爬取的数据本例使用jason文件存储
3、setting中设置ROBOTSTXT_OBEY =False参数 pipeline参数ITEM_PIPELINE
3、spider文件编写
1、导入scrapy框架、从scrapy.http中导入Request、从items文件中导入ITEM
2、parse函数下载网页给parse_title函数处理,parse_title函数处理要下载的item,通过xpath函数处理
4、运行爬虫
进入爬虫文件中cmd运行输入 scrapy crawl dangdang --nolog自动爬取。




网友评论