针对标准并行算法难以在图形处理器(GPU)上高效运行的问题,以累加和算法为例,基于Nvidia公司统一计算设备架构(CUDA)GPU介绍了指令优化、共享缓存冲突避免、解循环优化和线程过载优化四种优化方法。实验结果表明,并行优化能有效提高算法在GPU上的执行效率,优化后累加和算法的运算速度相比标准并行算法提高了约34倍,相比CPU串行实现提高了约70倍。
1
基于中央处理器(CPU)串行的人群疏散传统方法对于人群规模较少的场景,可以得到良好的疏散模拟效果,但在人群密度较高的场景中,难以达到实时模拟的要求.为了克服上述问题,实现了一种基于图形处理器(GPU)的人群疏散模拟的方法.该方法通过对个体寻径算法的优化,不仅能使个体快速准确地智能寻径,而且将个体寻径独立性与图形处理器高性能计算特性进行结合,充分利用了图形处理器强大的并行计算能力,从而大幅度提高了人群疏散模拟的人群规模,使人群疏散模拟的实时性得到增强.
1
针对FDK算法重建图像异常耗时的问题,提出了一种极坐标反投影快速重建算法。根据三角函数对称性,64幅预处理后的投影数据在反投影过程中同时运算;在极坐标反投影数据映射到笛卡尔坐标时,利用像素位置相关参数的对称性,在不使用查表方法的情况下,使双线性插值的计算量大大减少。实验结果表明,采用这两种措施实现了FDK算法优化,与传统的FDK算法相比,重建速度提高8倍,采用CUDA技术,实现GPU对其加速,速度提高40倍,且均不产生新的误差。
1
基于图形处理器(GPU) 的通用计算
2022-05-04 14:06:24 702KB 源码软件
针对快速傅里叶算法FFT在图形图像处理和科学计算领域的重要作用,提出了一种基于CUDA的高速FFT计算方法,在分析GPU硬件平台执行模式及FFT算法并行性特征的基础上,采用多线程并行的映射方法实现算法,并从存储层次优化算法。实验结果表明该算法的高效性,优化后的FFT加速比能达到CUFFT库加速比的26倍。
1
针对目前图形处理器(GPU) 上的动态数据处理问题,在分析现有并行单源最短路径(SSSP) 算法的基础上,对 GPU上的Moore SSSP算法进行并行化设计与实现。
2021-12-16 15:55:49 1.03MB 图形处理器
1
针对目前并行Prim最小生成树算法效率不高的问题,在分析现有并行Prim算法的基础上,提出了适于GPU架构的压缩邻接表图表示形式,开发了基于GPU的min-reduction数据并行原语,在NVIDIA GPU上设计并实现了基于Prim算法思想的并行最小生成树算法。该算法通过使用原语缩短关键步骤的查找时间,从而获得较高效率。实验表明,相对于传统CPU实现算法和不使用原语的算法,该算法具有较明显的性能优势。
1
业分类-物理装置-一种图形处理器箱.zip
为设计基于固定序的 Bellman-Ford 算法在 CUDA 平台下并行优化方案,结合算法计算密集和数据密集的特点。从核函数计算层 面,提出了访存优化方法和基于固定序优化线程发散;从 CPU-GPU 传输层面,提出了基于 CUDA 流优化数据传输开销方法。经对不同显 卡测试,参照共享内存容量划分线程块、缩减迭代后向量维度和使用 CUDA 流缩短首次计算时延,相比传统算法,改进后并行算法加速 比在 200 倍左右。该并行优化方案验证了固定序在 CUDA 平台具有可行性和可移植性,可作为多平台研究参照。
1