torch-1.12.0a0+2c916ef.nv22.3-cp38-cp38-linux_aarch64.whl for jetson
2022-06-23 22:07:51 22.77MB pytorch jetson cuda deep
1
该库为 GPU 提供高性能批量稀疏矩阵乘法 (SpMM) 内核。目标矩阵很小,行(或列)数为几十或几百。这种操作可以在图卷积网络的应用中找到。Batched SpMM 算法的详细信息可以在论文 (1) 中找到。 (1) Yusuke Nagasaka、Akira Nukada、Ryosuke Kojima、Satoshi Matsuoka,“用于加速图卷积网络的批量稀疏矩阵乘法”,第 19 届 IEEE/ACM 集群、云和网格计算国际研讨会 (CCGrid 2019),拉纳卡,塞浦路斯,2019 年。(论文也在arXiv上)
2022-06-23 09:05:42 7KB cuda
方便我再次搭建GPU环境时使用
2022-06-22 21:06:14 513.14MB 深度学习加速库
1
使用 GPU 张量核加速稀疏矩阵-矩阵乘法 在这个存储库中,我们提供了加速稀疏矩阵-矩阵乘法 (SpGEMM) 实现的源代码
2022-06-22 21:04:14 911KB cuda
使用 ACO 的 TSP 说明 - 对于 ACO ,因为它是一个更小更简单的代码,我只为并行版本和 CUDA 版本分别使用了 1 个文件。我正在使用一个开源 map_generator(用 ruby​​ 编码),它将城市数量作为参数并构建一个 map.txt,其中包含一个带有所述 N 个城市的随机城市地图。运行地图生成器的命令:ruby map_generator.rb Num_of_cities -我已经编译并保存了 3 个不同的地图变体,以方便评分者检查我的代码。map25.txt 、 map50.txt 和 map100.txt 分别包含 25,50,100 个城市的地图。 - 运行代码的顺序和并行版本。只需执行“make”并运行顺序版本,例如运行 25 个城市 -> ./tsp-ant-cpu < map25.txt 并运行并行版本,例如使用 25 个城市 -> ./tsp- ant-gpu < map25.txt 这确保并行和顺序版本的输入数据相同 更多详情、使用方法,请下载后阅读README.md文件
2022-06-22 12:03:38 1.38MB cuda
CUDA-模拟退火 CUDA 中的模拟退火,用于使用序列对进行布局优化。
2022-06-22 09:05:29 7KB cuda
cublas64_90.dll cudart64_90.dll cudnn64_7.dll curand64_100.dll
2022-06-21 21:07:25 187.27MB cuda
博主自行实现的动态链接库,通过python导入后可以实现释放显存,与ai框架无关。支持pytorch、tensorflow、onnxruntime等cuda运行环境。调用dll.reset_cuda()即可释放显存
2022-06-21 21:07:23 14KB python 显存释放
1
基于Android平台CUDA程序移植的研究与实现.pdf
2022-06-21 16:04:30 4.95MB 基于Android平台CUDA程
均值滤波,在卷积形式的均值滤波中,需要把输入图对应模板内所有点像素点相加求平均,代替 原像素点。窗口越大,滤波效果越好,但是图像也变得更加模糊,所以需要根据实际情况设置矩形窗口的大小。 高斯滤波是一种线性平滑滤波,适用于消除高斯噪声,广泛应用于图像处理的减噪过程。通俗 的讲,高斯滤波就是对整幅图像进行加权平均的过程,每一个像素点的值,都由其本身和邻域内的 其他像素值经过加权平均后得到。 高斯滤波的具体操作是:用一个模板 (或称卷积、掩模) 扫描图像中的每一个像素,用模板确 定的邻域内像素的加权平均灰度值去替代模板中心像素点的值。对应均值滤波说,其邻域内每个像素的权重是相等的。而在高斯滤波中,会将中心点的权重值加大,远离中心点的权重值减小,在此基础上计算邻域内各个像素值不同权重的和。
2022-06-20 14:07:28 499KB cuda 高性能计算 C++ 高斯滤波