Chemicalbook.name Spider
Scrapy files dir
目录.png 图片.第一页每次翻页会发现,URL红圈中的数字会递增100,通过这个规律,可以遍历出想要的URL_list。
Scrapy.spider源码.pngScrpy.spider会自动遍历start_urls里的元素callback函数parse。
parse函数用来分析html的函数可以在items容器定义一个需要爬取的元素name,写在items里方便查看爬取元素。
items源码.png
爬取下来的数据想要储存到mongodb,需要在setting里设置mongodb属性和数据库属性
settings.png还要设置管道里数据怎么存放的属性,在pipelines.py设置
pipelines.png大体就这样了,后续还会加入代理和等待,让爬虫能爬更多资料!!! 写的不好请多指教!!!
图片.png
网友评论