分布式集群指的是将多台物理机连接在一起,共同执行一个程序。
Python中并行运算的框架工具
Dask
Dask是用于Python中并行计算的灵活库。Dask由两部分组成:第一部分是动态任务调度针对计算进行优化。这类似于 Airflow,Luigi,Celery或Make,但已针对交互式计算工作负载进行优化;第一部分是“大数据”集合(例如并行数组,数据帧和列表)将诸如NumPy,Pandas或Python迭代器之类的通用接口扩展到内存或分布式环境。这些并行集合在动态任务计划程序之上运行。
官网:https://dask.org/
优点:教程众多,功能强大
缺点:与现有项目偏差较大,现有的工作是获取一个简单的集群工具,使得已有的程序能够进行分布式集群计算,如果采用Dask工具,可能要对已有的程序进行大改。
mpi4py(MPI for Python)
mpi4py是MPI为Python编程语言提供了消息传递接口(MPI)标准的绑定,从而允许任何Python程序利用多个处理器。
官网:https://pypi.org/project/mpi4py/
安装教程1:https://blog.csdn.net/qq_42081776/article/details/90807905?utm_medium=distribute.pc_relevant.none-task-blog-searchFromBaidu-6.control&depth_1-utm_source=distribute.pc_relevant.none-task-blog-searchFromBaidu-6.control
安装教程2:https://blog.csdn.net/mengmengz07/article/details/70163140?utm_medium=distribute.pc_relevant.none-task-blog-searchFromBaidu-14.control&depth_1-utm_source=distribute.pc_relevant.none-task-blog-searchFromBaidu-14.control
安装教程3:https://blog.csdn.net/ztf312/article/details/80832506
优点:功能强大,教程众多
缺点:好像没啥缺点,但相比与Ray和ParallelPython需要更改的代码更多。
PP(Parallel Python)
并行Python是一个python模块,提供在SMP(具有多个处理器或内核的系统)和群集(通过网络连接的计算机)上并行执行python代码的方案。
官网:https://www.parallelpython.com/
优点:简单实现
缺点:现在不维护了,大部分教程和示例都是基于python2.开发的,基于python3.开发的示例很少。
ray
Ray提供了用于构建分布式应用程序的简单通用API。
官网:https://ray.io/
网友评论