python爬取豆瓣两千万图书简介信息：（四）多进程并发

作者: 曹波波 | 来源:发表于2017-11-08 14:07 被阅读98次

python爬取豆瓣两千万图书简介信息：（四）多进程并发
python爬取豆瓣两千万图书简介信息：（六）数据库操作类
python爬取豆瓣两千万图书简介信息：（五）数据库设计
python爬取豆瓣两千万图书简介信息：（七）代理IP
python爬取豆瓣两千万图书简介信息：（一）目标API分析
python爬取豆瓣两千万图书简介信息：（二）简单python请
python爬取豆瓣两千万图书简介信息：（三）异常处理
python爬取豆瓣两千万图书简介信息：（八）总结
前500w本豆瓣图书评论人数最多的200本8分书目
Python爬虫-豆瓣电影Top250-各项信息爬取及xls保存

多进程并发

我写的python爬取数据程序，爬取的目标很明确，就是爬取豆瓣API的所能提供的两千万图书简介信息。

计划是用python发起网络请求，然后解析数据，并将数据放到mysql数据库中。

如果是简单的弄个2kw的for循环等着依次执行，那平均2s一次的请求，会将时间拉长到你怀疑人生。

串行执行的路走不通，那就必然会想到并发执行。在别的程序语言中，多线程是一种很好的并发策略。然而，Python由于有全锁局的存在（同一时间只能有一个线程执行），并不能利用多核优势。所以，如果程序的多线程进程是CPU密集型的，那多线程并不能带来效率上的提升，相反还可能会因为线程的频繁切换，导致效率下降；如果是IO密集型，多线程进程可以利用IO阻塞等待时的空闲时间执行其他线程，提升效率。

我想要的是，同一瞬时时间内，尽可能的多开网络请求，这样就能提高单位时间内，从豆瓣接口内爬取数据的效率。多线程由于要等待网络请求返回的时间，在这里并不适用。所以我这里采用的是多进程的思路。

其实在python网络并发过程中，有多协程的方法来提示效率。但协程是一种用户态的轻量级线程。它无法利用多核资源：协程的本质是个单线程,它不能同时将单个CPU 的多个核用上,协程需要和进程配合才能运行在多CPU上.其效率相对来讲，还是低于多进程的方式。

我的思路是，同时开200个到400个进程，将2kw图书分配给这几百个进程。几百个进程同时执行，自然效率上会高很多。当然，我自己的mac的CPU也就8核心的配置。多进程也就是能把这8个核心的利用率提高一点点而已。但是，由于我的每一次请求数据，大多耗时在网络请求中，所以，这样使用多进程，反而能在某种意义上，提高了相应的效率。

我单次网络请求，加上代理ip，读取&解析，以及存入数据库，总共耗时在3s左右。我开到了200个进程，总速度大概在5w条/小时（这里是指有效记录，会有一定概率的网络请求异常以及空id的数据，这部分大概是有效数据的三分之一，总的并发数据量应该在6.6w条/小时）。大约每秒13条（事先没有统计每秒发出的请求次数，事实上我也没有地方放此数据）。

而于之前相比，我开20个进程，平均一小时7k条有效记录，（大概是每秒1.9条）已经快上好多好多了。

下面是代码：

#!/usr/bin/env python
# -*- coding:utf-8 -*-
import Crawler #我的单次爬取程序
import multiprocessing
import SqlOperation #我的数据库操作类
import time

#我的每个进程内，执行id的顺序
def worker(num):
    thread_index = SqlOperation.get_thread_index_id(num)
    #查询当前第 num 个进程已经爬取到最大 id  
    process_index = num*50000+1000000
    # print str(process_index) + ':' + str(thread_index)
    if process_index < thread_index:
        process_index = thread_index        
    #获取当前第 num 个进程，应该开始爬去数据的起始 id  
    Crawler.start_crawler(process_index, num)
    #开始爬取数据，进程为第 num 个，起始id为 process_index

done_id_arr = [1, 2, 3, 4, 6, 7, 8, 9, 10, 12, 13, 14, 15, 17, 18, 19, 20, 23, 25, 26, 27, 28, 30, 32, 34, 36, 38, 39, 40, 43, 44, 52, 64, 70, 74, 84, 86, 87, 98, 102, 116, 119]
#已完成爬取数据的进程id数组，从数据里查到的，但因为每次启动程序，此处只执行一次，就直接硬编码，没有写自动获取的方法

if __name__ == '__main__':
    jobs = []
    Crawler.ips = Crawler.get_ip_arr()
    #获取代理ip组
    # print Crawler.ips
    # Crawler.test_ip(1000007)
    for i in range(11, 200):
        if i in done_id_arr:
            # 如果 第 i 个进程的数据已经爬完了，即 i 在 done_id_arr中，
            # 说明此进程没有开的必要了，可节省相应资源
            pass
        else:
            # 单开进程，爬取第 i 个id组的数据
            p = multiprocessing.Process(target=worker, args=(i,))
            jobs.append(p)
            p.start()

执行效率前面已经说过了，有效数据大概在5w条/小时。这段程序大概开了四天多，最后的数据总量是 5645271条有效记录。（当然数据并不是一次就爬成的，加上之前的调试异常捕获，调试数据库，调试代理ip，这些零零碎碎有十几w的数据量，然后程序稳定后，没有动自己跑，连续不间断的运行时间大概有三天多）。总的来说，还是有些成就感的。

屏幕快照 2017-11-08 下午2.03.57.png