针对标准并行算法难以在图形处理器(GPU)上高效运行的问题,以累加和算法为例,基于Nvidia公司统一计算设备架构(CUDA)GPU介绍了指令优化、共享缓存冲突避免、解循环优化和线程过载优化四种优化方法。实验结果表明,并行优化能有效提高算法在GPU上的执行效率,优化后累加和算法的运算速度相比标准并行算法提高了约34倍,相比CPU串行实现提高了约70倍。
1
为解决点源法计算全息速度较慢的问题,提出了一种新的查表算法,命名为三角函数查表法(T-LUT算法)。该算法是基于点源法基本的数学公式,通过一系列数学近似与恒等变换,生成了一种纯相位查找表,该查找表具有三维特性,并具有生成速度快、精度高、占用内存少等特点,克服了点源法重复计算相位的缺点。同时采用统一计算设备架构(CUDA)并行计算在图形处理器(GPU)上加以实现,并进行了三次并行优化。在算法的验证与对比实验中,采用单显卡(GPU显卡)实现T-LUT算法,在不牺牲全息图再现像质量的前提下,成功地将点源法计算全息的速度大幅度提升。实验发现在不同的物空间采样点数量的情况下,速度相对于点源法GPU 运算提升30倍至近千倍不等。
2022-04-16 14:12:31 3.51MB 全息 三角函数 查表法 统一计算
1
NVIDIACUDA 统一计算设备架构 编程指南 version2.0
2021-06-22 19:17:48 2.43MB NVIDIACUDA
1
为设计基于固定序的 Bellman-Ford 算法在 CUDA 平台下并行优化方案,结合算法计算密集和数据密集的特点。从核函数计算层 面,提出了访存优化方法和基于固定序优化线程发散;从 CPU-GPU 传输层面,提出了基于 CUDA 流优化数据传输开销方法。经对不同显 卡测试,参照共享内存容量划分线程块、缩减迭代后向量维度和使用 CUDA 流缩短首次计算时延,相比传统算法,改进后并行算法加速 比在 200 倍左右。该并行优化方案验证了固定序在 CUDA 平台具有可行性和可移植性,可作为多平台研究参照。
1