美文网首页
Scrapy+mongodb爬取chemicalbook

Scrapy+mongodb爬取chemicalbook

作者: 随风而去_c0e8 | 来源:发表于2017-08-27 15:37 被阅读0次
1503817962(1).png

Chemicalbook.name Spider

Scrapy files dir

目录.png 图片.第一页

每次翻页会发现,URL红圈中的数字会递增100,通过这个规律,可以遍历出想要的URL_list。

Scrapy.spider源码.png

Scrpy.spider会自动遍历start_urls里的元素callback函数parse。
parse函数用来分析html的函数可以在items容器定义一个需要爬取的元素name,写在items里方便查看爬取元素。


items源码.png

爬取下来的数据想要储存到mongodb,需要在setting里设置mongodb属性和数据库属性

settings.png

还要设置管道里数据怎么存放的属性,在pipelines.py设置

pipelines.png

大体就这样了,后续还会加入代理和等待,让爬虫能爬更多资料!!! 写的不好请多指教!!!

图片.png

相关文章

网友评论

      本文标题:Scrapy+mongodb爬取chemicalbook

      本文链接:https://www.haomeiwen.com/subject/hjobdxtx.html