为设计基于固定序的 Bellman-Ford 算法在 CUDA 平台下并行优化方案,结合算法计算密集和数据密集的特点。从核函数计算层 面,提出了访存优化方法和基于固定序优化线程发散;从 CPU-GPU 传输层面,提出了基于 CUDA 流优化数据传输开销方法。经对不同显 卡测试,参照共享内存容量划分线程块、缩减迭代后向量维度和使用 CUDA 流缩短首次计算时延,相比传统算法,改进后并行算法加速 比在 200 倍左右。该并行优化方案验证了固定序在 CUDA 平台具有可行性和可移植性,可作为多平台研究参照。
1