使 CUDA 代码在 CPU 上无缝运行的库和头文件。 使用 cuda4cpu 在包含 CUDA 代码的源文件中包含cuda4hpc.hpp文件: # include < cuda4hpc> 使用cuda4hpc命名空间覆盖 CUDA 关键字和类型: using namespace cuda4hpc ; 使用launch函数而不是 CUDA <<<...>>>符号来启动 cuda 内核。 它返回一个临时对象,您必须使用它来传递内核参数: launch (my_cuda_kernel, grid, block)(arguments...); 使用 C++11 编译您的代码: g++ -o object_file -c source_file -std=c++11 将您的程序与libcuda4cpu链接: g++ -o my_app object_files
2022-11-24 21:21:46 34KB C++
1
弹性波正演的CUDA代码,可用,在windows测试成功,使用者可以添加对速度模型文件的收敛判断函数
2022-11-09 15:39:27 8KB 弹性波正演 CUDA
1
使用时域和 CUDA 中的有限差分对声波传播的简短实现。该代码正在求解压力公式中的二阶波动方程,O(2,8)。计算域被反射边界包围。 部分效果展示: https://github.com/ovcharenkoo/CUDA_FDTD_2D_acoustic_wave_propagation/raw/master/doc/wave.gif
2022-07-03 18:03:37 1.43MB cuda
该库为 GPU 提供高性能批量稀疏矩阵乘法 (SpMM) 内核。目标矩阵很小,行(或列)数为几十或几百。这种操作可以在图卷积网络的应用中找到。Batched SpMM 算法的详细信息可以在论文 (1) 中找到。 (1) Yusuke Nagasaka、Akira Nukada、Ryosuke Kojima、Satoshi Matsuoka,“用于加速图卷积网络的批量稀疏矩阵乘法”,第 19 届 IEEE/ACM 集群、云和网格计算国际研讨会 (CCGrid 2019),拉纳卡,塞浦路斯,2019 年。(论文也在arXiv上)
2022-06-23 09:05:42 7KB cuda
使用 GPU 张量核加速稀疏矩阵-矩阵乘法 在这个存储库中,我们提供了加速稀疏矩阵-矩阵乘法 (SpGEMM) 实现的源代码
2022-06-22 21:04:14 911KB cuda
使用 ACO 的 TSP 说明 - 对于 ACO ,因为它是一个更小更简单的代码,我只为并行版本和 CUDA 版本分别使用了 1 个文件。我正在使用一个开源 map_generator(用 ruby​​ 编码),它将城市数量作为参数并构建一个 map.txt,其中包含一个带有所述 N 个城市的随机城市地图。运行地图生成器的命令:ruby map_generator.rb Num_of_cities -我已经编译并保存了 3 个不同的地图变体,以方便评分者检查我的代码。map25.txt 、 map50.txt 和 map100.txt 分别包含 25,50,100 个城市的地图。 - 运行代码的顺序和并行版本。只需执行“make”并运行顺序版本,例如运行 25 个城市 -> ./tsp-ant-cpu < map25.txt 并运行并行版本,例如使用 25 个城市 -> ./tsp- ant-gpu < map25.txt 这确保并行和顺序版本的输入数据相同 更多详情、使用方法,请下载后阅读README.md文件
2022-06-22 12:03:38 1.38MB cuda
CUDA-模拟退火 CUDA 中的模拟退火,用于使用序列对进行布局优化。
2022-06-22 09:05:29 7KB cuda
用cuda编写的LU分解解线性方程组问题
2019-12-21 22:23:00 3KB LU分解 解线性方程 cuda代码
1
基于CUDA平台GPU加速的共轭梯度法求解器。示例中提供了线性方程组。
2019-12-21 19:42:11 29KB 共轭梯度法 CUDA
1