Python 中的多线程和多进程：并行处理的利器

作者: python与数据分析 | 来源:发表于2024-01-28 15:56 被阅读0次

索引 - Python
浅析python的GIL
iOS 整理-线程篇
Python（2）---并发编程
Gevent高并发网络库精解
多线程实现与同步工具包详解
JS运行机制
浅谈python中的多线程和多进程（二）
Python的多线程和多进程——从一个爬虫任务谈起
Python的多线程和多进程——从一个爬虫任务谈起！

写在前面：在我们日常处理大量数据时，比如数据分析、机器学习时，都离不开大量繁杂的数据，处理起来是非常耗时的，今天和大家分享一些高效且实用的小技巧。Python 是一种功能强大的编程语言，提供了多种并行处理的方式，其中包括多线程和多进程。在处理大规模任务或需要同时进行多个操作时，多线程和多进程能够显著提高程序的性能和效率。本文将介绍 Python 中的多线程和多进程，并探讨它们的适用场景和使用方法。

一、什么是多线程？

多线程是指在一个进程内创建多个线程，每个线程独立执行任务。Python 提供了 ThreadPoolExecutor 方法来支持多线程编程。多线程适合处理 I/O 密集型任务，如网络请求和文件操作，因为线程可以在等待 I/O 操作完成时切换到其他线程，从而提高程序的响应性。

二、什么是多进程？

多进程是指在操作系统中创建多个独立的进程，每个进程都有自己的地址空间和系统资源。Python 提供了 ProcessPoolExecutor 方法来支持多进程编程。多进程适合处理 CPU 密集型任务，如数值计算和图像处理，因为多个进程可以在多个 CPU 核心上并行执行任务，充分利用系统资源。

三、代码实现：多线程和多进程

这段代码展示了使用单线程、多线程和多进程来处理一个数据集的计算任务，并计算每种方式的运行时间。让我们逐行解析代码：

#导入所需的模块：
import time
import math
from tqdm import tqdm
from concurrent.futures import ProcessPoolExecutor, ThreadPoolExecutor, as_completed

定义一个装饰器函数 calculate_time，用于计算函数的运行时间：

def calculate_time(func):
    def wrapper(*args, **kwargs):
        start_time = time.time()
        result = func(*args, **kwargs)
        end_time = time.time()
        execution_time = end_time - start_time
        print(f"函数 {func.__name__} 的运行时间为: {execution_time} 秒")
        return result

    return wrapper

定义一个数据集 dataset，包含了 100 个相同的数值：

dataset = [112272535095293] * 100

定义一个函数 process，用于判断给定的数是否为素数：

def process(n):
    if n < 2:
        return False
    if n == 2:
        return True
    if n % 2 == 0:
        return False
    sqrt_n = int(math.floor(math.sqrt(n)))
    for i in range(3, sqrt_n + 1, 2):
        if n % i == 0:
            return False
    return True

定义一个装饰器函数 calculate_time，用于计算函数的运行时间：

@calculate_time
def process_result():
    new_dataset = []
    for data in tqdm(dataset):
        res = process(data)
        new_dataset.append(res)
    print(new_dataset)

定义一个函数 threadpool，使用多线程来处理数据集：

@calculate_time
def threadpool(data):
    with ThreadPoolExecutor(max_workers=4) as exe:
        new_dataset = list(tqdm(exe.map(process, data), total=len(dataset)))
    print(new_dataset)

定义一个函数 processpool，使用多进程来处理数据集：

@calculate_time
def processpool(data):
    with ProcessPoolExecutor(max_workers=4) as exe:
        new_dataset = list(tqdm(exe.map(process, data), total=len(dataset)))
    print(new_dataset)

定义一个函数 processpool1，使用多进程来处理数据集，并手动管理任务的提交和结果的获取（多线程也可以），这种方式更加灵活，这种方式会改变数据原本的顺序，而上面的保持原有顺序，所以从运行效率上，这种方式更快：

@calculate_time
def processpool1(data):
    with ProcessPoolExecutor(max_workers=4) as executor:
        futures = []
        for d in data:
            future = executor.submit(process, d)
            futures.append(future)
        new_dataset = []
        for f in tqdm(list(as_completed(futures)), total=len(data)):
            try:
                result = f.result()
                new_dataset.append(result)
            except Exception as e:
                print(f"任务执行出错: {e}")
    print(new_dataset)

在 if name == 'main' 中，分别调用 process_result()、threadpool(dataset)、processpool1(dataset) 和 processpool(dataset) 来运行不同的处理方式，并输出运行时间。

if __name__ == '__main__':
    process_result()
    threadpool(dataset)
    processpool1(dataset)
    processpool(dataset)

这段代码展示了如何使用多线程和多进程来并行处理任务，以提高程序的运行效率。通过比较不同方式的运行时间，可以了解到多线程和多进程在处理任务时的差异。从下面的结果我们可以看到，对于cpu进行大量计算时，显然多进程更快些。

四、多线程 vs. 多进程

多线程和多进程在处理任务时具有不同的特点和适用场景。多线程适合处理 I/O 密集型任务，因为线程可以在等待 I/O 操作完成时切换到其他线程，提高程序的响应性。多进程适合处理 CPU 密集型任务，因为多个进程可以在多个 CPU 核心上并行执行任务，充分利用系统资源。

在选择多线程还是多进程时，需要根据任务的性质和需求进行合理的选择。同时，还需要考虑到线程安全性、资源消耗和操作系统调度等因素。

五、结论

多线程和多进程是 Python 中实现并行处理的重要工具。通过合理地使用多线程和多进程，我们可以提高程序的性能和效率，加快任务的执行速度。然而，在编写多线程和多进程的代码时，需要注意线程安全性、共享资源的同步问题和进程间通信等方面，保证程序的正确性和稳定性。

希望我的分享对你有帮助，喜欢记得关注我~

网友评论

本文标题：Python 中的多线程和多进程：并行处理的利器

本文链接：https://www.haomeiwen.com/subject/zmvwodtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

Python 中的多线程和多进程：并行处理的利器

一、什么是多线程？

二、什么是多进程？

三、代码实现：多线程和多进程

四、多线程 vs. 多进程

五、结论

相关文章

索引 - Python

浅析python的GIL

iOS 整理-线程篇

Python（2）---并发编程

Gevent高并发网络库精解

多线程实现与同步工具包详解

JS运行机制

浅谈python中的多线程和多进程（二）

Python的多线程和多进程——从一个爬虫任务谈起

Python的多线程和多进程——从一个爬虫任务谈起！

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

Python 中的多线程和多进程：并行处理的利器

一、什么是多线程？

二、什么是多进程？

三、代码实现：多线程和多进程

四、 多线程 vs. 多进程

五、结论

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

四、多线程 vs. 多进程