爬虫优化

作者: Fathui | 来源:发表于2018-05-07 11:55 被阅读0次

Python代理IP爬虫的简单使用
练习：豆瓣电影TOP250爬虫
爬虫优化
(十)"股票数据Scrapy爬虫"(读书笔记
股票预测项目
爬虫练习2
爬虫工具集和
xiaolinBot（Twitter笑话集锦爬虫Bot） Ste
Heritrix爬虫 ----（3）优化
优化爬虫初级篇

内存

pymysql浮动游标获取入口数据，防止一次性加载过量数据至内存，此时不做去重，使用set，hash，md5，布隆过滤器等进行去重处理，分布式使用redis

class PublicMysqlByIter:
    """mysql_by_iter"""

    def __init__(self, connect_data):
        self.conn = pymysql.connect(**connect_data)
        self.cursor = self.conn.cursor(pymysql.cursors.SSCursor)

注意浮动游标在同一时间只能处理一个事件，如果使用浮动游标做查询，又需要做插入的话，需要使用其他的cursor

去重

安装redisbloom插件，可直接使用redis自带的布隆过滤器，效率比自己写的布隆过滤器高很多，内网状态，推送2万条数据4秒左右，参考（https://github.com/RedisBloom/redisbloom-py）或者直接使用execute_command

result = rds.execute_command("bf.add", boom_filter_key, dup_data)
if int(result) == 0:
    logger.info('这条数据重复了~')
    continue

从千万级mysql表中取数作为采集入口效率过低问题

设置节点（自增id），每次取少量（比如5-10万条），采集完后保存节点，每1-5分钟启动一次，可借助redis做队列

脚本拓展性

设置固定的大框架，划分为入口、采集、保存等子节点，每次修改只许修改对应子节点即可

网友评论

本文标题：爬虫优化

本文链接：https://www.haomeiwen.com/subject/wzpmrftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

爬虫优化

内存

去重

从千万级mysql表中取数作为采集入口效率过低问题

脚本拓展性

相关文章

Python代理IP爬虫的简单使用

练习：豆瓣电影TOP250爬虫

爬虫优化

(十)"股票数据Scrapy爬虫"(读书笔记

股票预测项目

爬虫练习2

爬虫工具集和

xiaolinBot（Twitter笑话集锦爬虫Bot） Ste

Heritrix爬虫 ----（3）优化

优化爬虫初级篇

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读