Matrix multiplication on CPU (numpy) and GPU (gnumpy) give different results(在CPU(NumPy)和GPU(Gnumpy)上进行矩阵乘法得到不同的结果)
问题描述
我正在使用gnumpy通过在GPU上进行训练神经网络来加速一些计算。 我得到了想要的加速比,但我有点担心Numpy(CPU)和gnupy(GPU)结果的差异。
我有以下测试脚本来说明问题:
import gnumpy as gpu
import numpy as np
n = 400
a = np.random.uniform(low=0., high=1., size=(n, n)).astype(np.float32)
b = np.random.uniform(low=0., high=1., size=(n, n)).astype(np.float32)
ga = gpu.garray(a)
gb = gpu.garray(b)
ga = ga.dot(gb)
a = a.dot(b)
print ga.as_numpy_array(dtype=np.float32) - a
提供输出:
[[ 1.52587891e-05 -2.28881836e-05 2.28881836e-05 ..., -1.52587891e-05
3.81469727e-05 1.52587891e-05]
[ -5.34057617e-05 -1.52587891e-05 0.00000000e+00 ..., 1.52587891e-05
0.00000000e+00 1.52587891e-05]
[ -1.52587891e-05 -2.28881836e-05 5.34057617e-05 ..., 2.28881836e-05
0.00000000e+00 -7.62939453e-06]
...,
[ 0.00000000e+00 1.52587891e-05 3.81469727e-05 ..., 3.05175781e-05
0.00000000e+00 -2.28881836e-05]
[ 7.62939453e-06 -7.62939453e-06 -2.28881836e-05 ..., 1.52587891e-05
7.62939453e-06 1.52587891e-05]
[ 1.52587891e-05 7.62939453e-06 2.28881836e-05 ..., -1.52587891e-05
7.62939453e-06 3.05175781e-05]]
如您所见,差值约为10^-5。
所以问题是:我应该担心这些差异,还是这是预期的行为?
其他信息:
- GPU:GeForce GTX 770;
- NumPy版本:1.6.1
当我使用梯度检查(使用有限差分近似)来验证从NumPy切换到GnuPy时所做的小修改没有破坏任何东西时,我注意到了这个问题。正如人们可能预料的那样,梯度检查不能在32位精度下工作(gnumpy不支持Float64),但令我惊讶的是,当使用相同精度时,CPU和GPU之间的错误是不同的。
在小型测试神经网络上的CPU和GPU误差如下:
由于误差大小相似,我想这些差异还可以吧?
在阅读了Benc的评论中引用的article之后,我非常确定,其中一个设备使用融合乘加(FMA)指令,另一个设备不使用,可以很好地解释这些差异。
我实现了论文中的示例:
import gnumpy as gpu
import numpy as np
a=np.array([1.907607,-.7862027, 1.147311, .9604002], dtype=np.float32)
b=np.array([-.9355000, -.6915108, 1.724470, -.7097529], dtype=np.float32)
ga = gpu.garray(a)
gb = gpu.garray(b)
ga = ga.dot(gb)
a = a.dot(b)
print "CPU", a
print "GPU", ga
print "DIFF", ga - a
>>>CPU 0.0559577
>>>GPU 0.0559577569366
>>>DIFF 8.19563865662e-08
...与FMA与串行算法的差异类似(尽管由于某些原因,两种结果与实际结果的差异比论文中的更大)。
我使用的GPU(GeForce GTX 770)支持FMA指令,而CPU不支持(我有一个Ivy Bridge英特尔®至强®CPU E3-1225 V2,但英特尔在他们的Haswell产品中引入了FMA3指令)。
其他可能的解释包括后台使用的不同数学库或操作顺序的差异,例如,CPU和GPU上的并行化程度不同。
推荐答案
我推荐使用np.allclose
测试两个Float数组是否接近相等。
虽然您只查看两个结果数组中的值之间的绝对差异,np.allclose
也会考虑它们的相对差异。例如,假设您的输入数组中的值是1000倍,那么两个结果之间的绝对差值也将是1000倍,但这并不意味着两个点积的精确度有所降低。
np.allclose
仅当两个测试数组中的每个相应元素对a
和b
满足以下条件时才返回True
:
abs(a - b) <= (atol + rtol * abs(b))
默认为rtol=1e-5
和atol=1e-8
。这些公差是一个很好的"经验法则",但它们在您的情况下是否足够小将取决于您的特定应用。例如,如果您处理的是值<;1e-8,则1e-8的绝对差值将是一场彻底的灾难!
np.allclose
,您会发现np.allclose
返回True
。因此,我的猜测是,这些差异可能足够小,不值得担心。这真的取决于你对结果做了什么。
这篇关于在CPU(NumPy)和GPU(Gnumpy)上进行矩阵乘法得到不同的结果的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持编程学习网!
本文标题为:在CPU(NumPy)和GPU(Gnumpy)上进行矩阵乘法得到不同的结果
基础教程推荐
- 合并具有多索引的两个数据帧 2022-01-01
- 使用Python匹配Stata加权xtil命令的确定方法? 2022-01-01
- 如何在 Python 中检测文件是否为二进制(非文本)文 2022-01-01
- 如何在Python中绘制多元函数? 2022-01-01
- 哪些 Python 包提供独立的事件系统? 2022-01-01
- 症状类型错误:无法确定关系的真值 2022-01-01
- 使 Python 脚本在 Windows 上运行而不指定“.py";延期 2022-01-01
- Python 的 List 是如何实现的? 2022-01-01
- 将 YAML 文件转换为 python dict 2022-01-01
- 使用 Google App Engine (Python) 将文件上传到 Google Cloud Storage 2022-01-01