[Python的自由天空] 请问一个GPU并行计算的问题
发信人: Krank (愿), 信区: Python
标 题: 请问一个GPU并行计算的问题
发信站: 水木社区 (Wed Apr 25 03:21:29 2018), 转信
现在要反复做大型ARRAY的相乘,一维ARRAY长度在1e6的量级。用NUMPY可以做,
但是略慢。
如果用GPU是可以提升速度的。但是ARRAY的长度不固定,每次重新定义BUFFER和
传递数据之类耗时远比计算本身耗时长。所以OVERHEAD都算进去之后结果比直接
用NUMPY计算还要慢。我用的是PYOPENCL,PYCUDA没试过但是应该结果没什么大
区别。
另一个可能性是用MULTIPROCESSING。实现很容易。但是速度和NUMPY几乎完全
一样。以前在XEON工作站上是可以提高速度的,现在在I7上就不行。查了一下,
大概是因为CPU内存共享的问题,I7受限于架构和CACHE大小,无法通过并行来
进一步提高速度。
所以现在貌似效费比最高的是认命直接用NUMPY硬算。或者谁能告诉我,如何在
每个ARRAY PAIR长度都不等的情况下,如何利用GPU做高速并行计算吗?谢谢!
--
※ 来源:·水木社区 newsmth.net·[FROM: 198.11.29.*]
from 水木社区 电脑技术区十大热门话题 https://ift.tt/2qZ5VsN
via IFTTT
标 题: 请问一个GPU并行计算的问题
发信站: 水木社区 (Wed Apr 25 03:21:29 2018), 转信
现在要反复做大型ARRAY的相乘,一维ARRAY长度在1e6的量级。用NUMPY可以做,
但是略慢。
如果用GPU是可以提升速度的。但是ARRAY的长度不固定,每次重新定义BUFFER和
传递数据之类耗时远比计算本身耗时长。所以OVERHEAD都算进去之后结果比直接
用NUMPY计算还要慢。我用的是PYOPENCL,PYCUDA没试过但是应该结果没什么大
区别。
另一个可能性是用MULTIPROCESSING。实现很容易。但是速度和NUMPY几乎完全
一样。以前在XEON工作站上是可以提高速度的,现在在I7上就不行。查了一下,
大概是因为CPU内存共享的问题,I7受限于架构和CACHE大小,无法通过并行来
进一步提高速度。
所以现在貌似效费比最高的是认命直接用NUMPY硬算。或者谁能告诉我,如何在
每个ARRAY PAIR长度都不等的情况下,如何利用GPU做高速并行计算吗?谢谢!
--
※ 来源:·水木社区 newsmth.net·[FROM: 198.11.29.*]
from 水木社区 电脑技术区十大热门话题 https://ift.tt/2qZ5VsN
via IFTTT
评论
发表评论