美文网首页
SCRAPY的四大金钢2019-02-26

SCRAPY的四大金钢2019-02-26

作者: oldfred | 来源:发表于2019-02-26 22:31 被阅读0次

就目前学到的这点知识,先做个总结,饲养虫子得有四大金钢:settings.py,items.py,pipelines.py以及spider文件夹里的那些你自己可起起名字的虫子。settings是配置文件,利用这个文件,你可以对虫子的行动进行总控。items设置你是抓的项目,命名一定要简洁,这些项目既有网页里的项目,你也可以设定自己的项目,如时间。而pipelines则是设置抓取后数据的走向,你可以把数据写进数据库,也可以写到json,json line等文件里。至于spider文件夹里的虫子,则是干活的主力,你要根据任务需要进行设置。饲养虫子最费工夫的就在这里。

首先你的学习如何配置饲料,CSS和XPATH学一下,谷歌、火狐两个浏览器下的WEB开发工具得搞得掂。

其次你得学习饲料的预处理,抓取的元素如果没有把握,就在SCRAPY SHELL里先试好。

然后,把这些饲料喂给小虫子,这些虫子才会干活。

最后,作为法律人,我两提醒各位养殖户,你的虫子不能到别人家里去啃庄稼,吃点别人地里的草就行了,啃庄稼多了,会有牢狱之灾。

相关文章

网友评论

      本文标题:SCRAPY的四大金钢2019-02-26

      本文链接:https://www.haomeiwen.com/subject/otctuqtx.html