支持cuda9.2的cudnn7.1压缩包。具体是那个版本忘了。支持linux系统。
2022-05-26 10:59:07 401.58MB cudnn
1
FFT-GPU-Accel Fast Fourier Transform Acceleration Algorithm. (Accelerated by CUDA) 简要介绍 基于FFT的蝶形公式,利用GPU的多核心优势,结合蝶形公式算法中同一层级的运算因子互不干扰的特点,对算法进行了并行化优化处理,加速效果十分显着。 在同一测试机器上,速度能达到Matlab(R2017b)的数十倍。 核心算法 基于快速傅里叶变换的蝶形公式,对于N元待转换信号,蝶形公式为logN层级的子运算,每层的子运算中,运算因子在同层中互不干扰,因此只要利用好CUDA的__syncthreads()函数,在此基础上便可进一步利用GPU的单个线程来纵向处理每一个运算因子。 优化处理 注意到蝶形公式中的旋转因子Wn^k大量重复出现,因此必须要对旋转因子做好预处理工作。由于预处理数据是静态的,故可考虑将其放入纹理单元以加
2022-05-25 22:22:20 242KB C++
1
可复制粘贴 并行计算 CUDA编程 基于GPU-多核-集群等并行化编程 并行机编程
2022-05-25 10:48:18 1.65MB bbbb
1
串行版本的矩阵乘法 M N P WIDTH WIDTH WIDTH WIDTH // 宿主机的双精度矩阵乘法 void MatrixMulOnHost(float* M, float* N, float* P, int Width){ for (int i = 0; i < Width; ++i) for (int j = 0; j < Width; ++j){ double sum = 0; for (int k = 0; k < Width; ++k){ double a = M[i * width + k]; double b = N[k * width + j]; sum += a * b; } P[i * Width + j] = sum; } } i k k j *
2022-05-25 10:08:57 436KB CUDA
1
NVIDIA 的openCL 教程 介绍了CUDA 和 OpenCL的区别
2022-05-24 19:26:36 271KB NVIDIA OpenCL CUDA GPU
1
一个老程序猿要走Pytorch的新路,先搭建一个运行调试环境,踩坑若干若干,那滋味就是一个字=太爽!分享给同路的小伙伴,一些学习成长吧! 涉及的内容包括: 1.更新显卡驱动GTX1070 CUDA Version:11.6; 2.从官网下载对应版本的 CUDA Toolkit Archive | NVIDIA Developer 3.安装NVIDIA cuDNN 4.安装Anaconda3 5.创建Pytorch_GPU运行的虚拟环境 6.使用清华镜像快速安装PytorchGPU版本 7.IDE安装Pycharm,链接Anaconda环境解释器 8.验证
2022-05-24 09:08:32 535KB pytorch gpu cuda pycharm
1
CUDA是一种专门为提高并行程序开发效率而设计的计算架构。在构建高性能应用程序时,CUDA架构能充分发挥GPU的强大计算功能。本书首先介绍了CUDA架构的应用背景,并给出了如何配置CUDA c的开发环境。然后通过矢量求和运算、矢量点积运算、光线跟踪、热传导模拟等示例详细介绍了CUDA c的基本语法和使用模式。通过学习本书,读者可以清楚了解CUDA c中每个功能的适用场合,并编写出高性能的CUDA软件。
2022-05-23 14:31:43 337KB cuda gpu
1
基于cuda的图像边缘检测文档,对于学习cuda的新手来说是不可多得的材料!
2022-05-21 15:15:41 414KB cuda边缘检测
1
Glirt基于CUDA的多模态三维医学图像配准.rar
2022-05-19 11:14:17 3.03MB cuda GPU 并行计算
1
opencv4.5.1+vs2017+win10+cuda+编译
2022-05-18 14:37:25 240.53MB opencv4.5.1 vs2017 win10 cuda
1