沃梦达 / 编程问答 / Python问题 / 正文

为什么多进程池比for循环慢？

沃梦达教程 Python问题

2022-01-01

why is multiprocess Pool slower than a for loop?(为什么多进程池比for循环慢？)

本文介绍了为什么多进程池比for循环慢？的处理方法，对大家解决问题具有一定的参考价值，需要的朋友们下面随着小编来一起学习吧！

问题描述

from multiprocessing import Pool

def op1(data):
    return [data[elem] + 1 for elem in range(len(data))]
data = [[elem for elem in range(20)] for elem in range(500000)]

import time

start_time = time.time()
re = []
for data_ in data:
    re.append(op1(data_))

print('--- %s seconds ---' % (time.time() - start_time))

start_time = time.time()
pool = Pool(processes=4)
data = pool.map(op1, data)

print('--- %s seconds ---' % (time.time() - start_time))

使用池比使用for循环运行时间慢得多。但池不是应该使用4个处理器来并行执行计算吗？

推荐答案

简短回答：是，操作通常将在可用核(子集)上完成。但通信开销很大。在您的示例中，与开销相比，工作负载太小。

如果您构建一个池，则将构建多个工作进程。如果您随后指示map给定输入。发生以下情况：

数据将被拆分：每个员工获得大致公平的份额；
数据将传达给员工；
每个员工都将处理他们的工作份额；
将结果传递回进程；和
主进程将结果组合在一起。

现在，拆分、通信和连接数据都是由主进程执行的进程。这些无法并行。由于操作速度较快(O(N)，输入大小n)，因此开销具有相同的时间复杂度。

因此，就复杂性而言，即使您有数百万个内核，也不会有太大区别，因为传递列表可能已经比计算结果更昂贵。

这就是为什么您应该并行化计算开销很大的任务。不是简单的任务。与通信量相比，处理量应大。

在您的示例中，工作是琐碎的：将所有元素加1。然而，序列化就没那么简单了：您必须对发送给Worker的列表进行编码。

这篇关于为什么多进程池比for循环慢？的文章就介绍到这了，希望我们推荐的答案对大家有所帮助，也希望大家多多支持编程学习网！

沃梦达教程

本文标题为：为什么多进程池比for循环慢？

上一篇：多处理：map与map_async

下一篇： Python日志记录支持多处理吗？

基础教程推荐

学习Bootstrap5

猜你喜欢

无法导入 Pytorch [WinError 126] 找不到指定的模块 2022-01-01
使用大型矩阵时禁止 Pycharm 输出中的自动换行符 2022-01-01
在Python中从Azure BLOB存储中读取文件 2022-01-01
PermissionError: pip 从 8.1.1 升级到 8.1.2 2022-01-01
Plotly:如何设置绘图图形的样式，使其不显示缺失日期的间隙? 2022-01-01
求两个直方图的卷积 2022-01-01
包装空间模型 2022-01-01
PANDA VALUE_COUNTS包含GROUP BY之前的所有值 2022-01-01
修改列表中的数据帧不起作用 2022-01-01
在同一图形上绘制Bokeh的烛台和音量条 2022-01-01