预告——
下篇文章会写spiders文件夹下面 - 爬虫主程序文件的代码编写。
大概会讲到
- scrapy shell www.baidu.com ——调试命令
- 爬虫代码,以及列表中有下一页,如何交由scrapy自己处理。
自学scrapy这个爬虫框架的时候,编写、修改的代码,就是spiders→xiami.py这个爬虫主程序中,出现的问题最多:
- 比如TAB问题
- 比如xpath抓不到实际数据(这个其实也和虾米的结构有关)
- yield是什么鬼?
- 网站有301,怎么搞?
- 怎么爬着爬着没数据了?
- 明明回调函数写对了,为什么代码就只是爬了一页就不动了(allowed_domains里面网址域不要写死成某个二级域名)。
网友评论