总之我们要想保证爬取数据的完整就要牺牲程序的效率。
有的人把所有爬取过的url列表保存到一个文件当中,然后再次启动的时候每次爬取要和文件当中的url列表 对比,如果相同则不再爬取。
有的人在scrapy再次启动爬取的时候和数据库里面的数据做对比,如果相同则不存取。
还有一种办法呢就是利用Request中的优先级(priority)
总之我们要想保证爬取数据的完整就要牺牲程序的效率。
有的人把所有爬取过的url列表保存到一个文件当中,然后再次启动的时候每次爬取要和文件当中的url列表 对比,如果相同则不再爬取。
有的人在scrapy再次启动爬取的时候和数据库里面的数据做对比,如果相同则不存取。
还有一种办法呢就是利用Request中的优先级(priority)
本文标题:scrapy 断点续传
本文链接:https://www.haomeiwen.com/subject/rzwpyftx.html
网友评论