美文网首页
python爬取豆瓣两千万图书简介信息:(四)多进程并发

python爬取豆瓣两千万图书简介信息:(四)多进程并发

作者: 曹波波 | 来源:发表于2017-11-08 14:07 被阅读98次

    这是全部的调试过程,我已经整理成为笔记,这里分享给大家:
    python爬取豆瓣两千万图书简介信息:(一)目标API分析
    python爬取豆瓣两千万图书简介信息:(二)简单python请求urllib2
    python爬取豆瓣两千万图书简介信息:(三)异常处理
    python爬取豆瓣两千万图书简介信息:(四)多进程并发
    python爬取豆瓣两千万图书简介信息:(五)数据库设计
    python爬取豆瓣两千万图书简介信息:(六)数据库操作类
    python爬取豆瓣两千万图书简介信息:(七)代理IP
    python爬取豆瓣两千万图书简介信息:(八)总结

    多进程并发

    我写的python爬取数据程序,爬取的目标很明确,就是爬取豆瓣API的所能提供的 两千万图书简介信息。

    计划是用python发起网络请求,然后解析数据,并将数据放到mysql数据库中。

    如果是简单的弄个2kw的for循环等着依次执行,那平均2s一次的请求,会将时间拉长到你怀疑人生。

    串行执行的路走不通,那就必然会想到并发执行。在别的程序语言中,多线程是一种很好的并发策略。然而,Python由于有全锁局的存在(同一时间只能有一个线程执行),并不能利用多核优势。所以,如果程序的多线程进程是CPU密集型的,那多线程并不能带来效率上的提升,相反还可能会因为线程的频繁切换,导致效率下降;如果是IO密集型,多线程进程可以利用IO阻塞等待时的空闲时间执行其他线程,提升效率。

    我想要的是,同一瞬时时间内,尽可能的多开网络请求,这样就能提高单位时间内,从豆瓣接口内爬取数据的效率。多线程由于要等待网络请求返回的时间,在这里并不适用。所以我这里采用的是多进程的思路。

    其实在python网络并发过程中,有多协程的方法来提示效率。但协程是一种用户态的轻量级线程。它无法利用多核资源:协程的本质是个单线程,它不能同时将 单个CPU 的多个核用上,协程需要和进程配合才能运行在多CPU上.其效率相对来讲,还是低于多进程的方式。

    我的思路是,同时开200个到400个进程,将2kw图书分配给这几百个进程。几百个进程同时执行,自然效率上会高很多。当然,我自己的mac的CPU也就8核心的配置。多进程也就是能把这8个核心的利用率提高一点点而已。但是,由于我的每一次请求数据,大多耗时在网络请求中,所以,这样使用多进程,反而能在某种意义上,提高了相应的效率。

    我单次网络请求,加上代理ip,读取&解析,以及存入数据库,总共耗时在3s左右。我开到了200个进程,总速度大概在5w条/小时(这里是指有效记录,会有一定概率的网络请求异常以及空id的数据,这部分大概是有效数据的三分之一,总的并发数据量应该在6.6w条/小时)。大约每秒13条(事先没有统计每秒发出的请求次数,事实上我也没有地方放此数据)。

    而于之前相比,我开20个进程,平均一小时7k条有效记录,(大概是每秒1.9条)已经快上好多好多了。

    下面是代码:

    #!/usr/bin/env python
    # -*- coding:utf-8 -*-
    import Crawler #我的单次爬取程序
    import multiprocessing
    import SqlOperation #我的数据库操作类
    import time
    
    #我的每个进程内,执行id的顺序
    def worker(num):
        thread_index = SqlOperation.get_thread_index_id(num)
        #查询当前第 num 个进程已经爬取到最大 id  
        process_index = num*50000+1000000
        # print str(process_index) + ':' + str(thread_index)
        if process_index < thread_index:
            process_index = thread_index        
        #获取当前第 num 个进程,应该开始爬去数据的起始 id  
        Crawler.start_crawler(process_index, num)
        #开始爬取数据,进程为第 num 个,起始id为 process_index
    
    done_id_arr = [1, 2, 3, 4, 6, 7, 8, 9, 10, 12, 13, 14, 15, 17, 18, 19, 20, 23, 25, 26, 27, 28, 30, 32, 34, 36, 38, 39, 40, 43, 44, 52, 64, 70, 74, 84, 86, 87, 98, 102, 116, 119]
    #已完成爬取数据的进程id数组,从数据里查到的,但因为每次启动程序,此处只执行一次,就直接硬编码,没有写自动获取的方法
    
    if __name__ == '__main__':
        jobs = []
        Crawler.ips = Crawler.get_ip_arr()
        #获取代理ip组
        # print Crawler.ips
        # Crawler.test_ip(1000007)
        for i in range(11, 200):
            if i in done_id_arr:
                # 如果 第 i 个进程的数据已经爬完了,即 i 在 done_id_arr中,
                # 说明此进程没有开的必要了,可节省相应资源
                pass
            else:
                # 单开进程,爬取第 i 个id组的数据
                p = multiprocessing.Process(target=worker, args=(i,))
                jobs.append(p)
                p.start()
    

    执行效率前面已经说过了,有效数据大概在5w条/小时。这段程序大概开了四天多,最后的数据总量是 5645271条有效记录。(当然数据并不是一次就爬成的,加上之前的调试异常捕获,调试数据库,调试代理ip,这些零零碎碎有十几w的数据量,然后程序稳定后,没有动自己跑,连续不间断的运行时间大概有三天多)。总的来说,还是有些成就感的。

    屏幕快照 2017-11-08 下午2.03.57.png

    相关文章

      网友评论

          本文标题:python爬取豆瓣两千万图书简介信息:(四)多进程并发

          本文链接:https://www.haomeiwen.com/subject/ldwemxtx.html