美文网首页py爬虫
Python 多线程爬虫自动Killed问题

Python 多线程爬虫自动Killed问题

作者: tianmh | 来源:发表于2015-11-16 17:39 被阅读909次

    关键词:linux服务器  多线程  爬虫技术

    代码大意:自动获取某网站的大量信息,包括id,评价,粉丝等数量的信息。网页大概有70W个网页。

    问题:每次大概数据采集访问到5000个网页的时候就出现killed,如何解决?

    查了一下网上公开的资料:使用的内存过多被OOM了,killed

    措施:转移到本地计算机运行;补充服务器内存;改变存储方式(以前是写入exl里面,结果发现有内存泄露,最终导致killed。解决方案将其储存在文本文档中.txt文件,很好的解决了这一问题)

    相关文章

      网友评论

        本文标题:Python 多线程爬虫自动Killed问题

        本文链接:https://www.haomeiwen.com/subject/bsikhttx.html