why is multiprocess Pool slower than a for loop?(为什么多进程池比for循环慢?)
本文介绍了为什么多进程池比for循环慢?的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!
问题描述
from multiprocessing import Pool
def op1(data):
return [data[elem] + 1 for elem in range(len(data))]
data = [[elem for elem in range(20)] for elem in range(500000)]
import time
start_time = time.time()
re = []
for data_ in data:
re.append(op1(data_))
print('--- %s seconds ---' % (time.time() - start_time))
start_time = time.time()
pool = Pool(processes=4)
data = pool.map(op1, data)
print('--- %s seconds ---' % (time.time() - start_time))
使用池比使用for循环运行时间慢得多。但池不是应该使用4个处理器来并行执行计算吗?
推荐答案
简短回答:是,操作通常将在可用核(子集)上完成。但通信开销很大。在您的示例中,与开销相比,工作负载太小。
如果您构建一个池,则将构建多个工作进程。如果您随后指示map
给定输入。发生以下情况:
- 数据将被拆分:每个员工获得大致公平的份额;
- 数据将传达给员工;
- 每个员工都将处理他们的工作份额;
- 将结果传递回进程;和
- 主进程将结果组合在一起。
因此,就复杂性而言,即使您有数百万个内核,也不会有太大区别,因为传递列表可能已经比计算结果更昂贵。
这就是为什么您应该并行化计算开销很大的任务。不是简单的任务。与通信量相比,处理量应大。
在您的示例中,工作是琐碎的:将所有元素加1。然而,序列化就没那么简单了:您必须对发送给Worker的列表进行编码。
这篇关于为什么多进程池比for循环慢?的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持编程学习网!
沃梦达教程
本文标题为:为什么多进程池比for循环慢?
基础教程推荐
猜你喜欢
- 哪些 Python 包提供独立的事件系统? 2022-01-01
- Python 的 List 是如何实现的? 2022-01-01
- 合并具有多索引的两个数据帧 2022-01-01
- 使用Python匹配Stata加权xtil命令的确定方法? 2022-01-01
- 使用 Google App Engine (Python) 将文件上传到 Google Cloud Storage 2022-01-01
- 使 Python 脚本在 Windows 上运行而不指定“.py";延期 2022-01-01
- 如何在Python中绘制多元函数? 2022-01-01
- 症状类型错误:无法确定关系的真值 2022-01-01
- 如何在 Python 中检测文件是否为二进制(非文本)文 2022-01-01
- 将 YAML 文件转换为 python dict 2022-01-01