NVIDIA官网资源TensorRT 8.2 GA Update 4,请仔细核对版本 TensorRT-8.2.5.1.Windows10.x86_64.cuda-11.4.cudnn8.2.zip
2022-05-30 12:05:41 828.92MB TensorRT
1
TensorRT-7.0.0.11.Ubuntu-18.04.x86_64-gnu.cuda-10.2.cudnn7.6.zip是tensorrt安装包,由于官方下载太慢在这里备份以下。
2022-05-29 21:05:48 728.84MB ubuntu gnu linux 运维
1
CUDA环境下旅行商问题的算法.ppt
2022-05-29 14:06:54 1.21MB 算法 文档资料
经过自己整理的《深入浅出谈CUDA》,适合于CUDA的初学者
2022-05-26 20:46:23 269KB 深入浅出谈CUDA
1
支持cuda9.2的cudnn7.1压缩包。具体是那个版本忘了。支持linux系统。
2022-05-26 10:59:07 401.58MB cudnn
1
FFT-GPU-Accel Fast Fourier Transform Acceleration Algorithm. (Accelerated by CUDA) 简要介绍 基于FFT的蝶形公式,利用GPU的多核心优势,结合蝶形公式算法中同一层级的运算因子互不干扰的特点,对算法进行了并行化优化处理,加速效果十分显着。 在同一测试机器上,速度能达到Matlab(R2017b)的数十倍。 核心算法 基于快速傅里叶变换的蝶形公式,对于N元待转换信号,蝶形公式为logN层级的子运算,每层的子运算中,运算因子在同层中互不干扰,因此只要利用好CUDA的__syncthreads()函数,在此基础上便可进一步利用GPU的单个线程来纵向处理每一个运算因子。 优化处理 注意到蝶形公式中的旋转因子Wn^k大量重复出现,因此必须要对旋转因子做好预处理工作。由于预处理数据是静态的,故可考虑将其放入纹理单元以加
2022-05-25 22:22:20 242KB C++
1
可复制粘贴 并行计算 CUDA编程 基于GPU-多核-集群等并行化编程 并行机编程
2022-05-25 10:48:18 1.65MB bbbb
1
串行版本的矩阵乘法 M N P WIDTH WIDTH WIDTH WIDTH // 宿主机的双精度矩阵乘法 void MatrixMulOnHost(float* M, float* N, float* P, int Width){ for (int i = 0; i < Width; ++i) for (int j = 0; j < Width; ++j){ double sum = 0; for (int k = 0; k < Width; ++k){ double a = M[i * width + k]; double b = N[k * width + j]; sum += a * b; } P[i * Width + j] = sum; } } i k k j *
2022-05-25 10:08:57 436KB CUDA
1
NVIDIA 的openCL 教程 介绍了CUDA 和 OpenCL的区别
2022-05-24 19:26:36 271KB NVIDIA OpenCL CUDA GPU
1
一个老程序猿要走Pytorch的新路,先搭建一个运行调试环境,踩坑若干若干,那滋味就是一个字=太爽!分享给同路的小伙伴,一些学习成长吧! 涉及的内容包括: 1.更新显卡驱动GTX1070 CUDA Version:11.6; 2.从官网下载对应版本的 CUDA Toolkit Archive | NVIDIA Developer 3.安装NVIDIA cuDNN 4.安装Anaconda3 5.创建Pytorch_GPU运行的虚拟环境 6.使用清华镜像快速安装PytorchGPU版本 7.IDE安装Pycharm,链接Anaconda环境解释器 8.验证
2022-05-24 09:08:32 535KB pytorch gpu cuda pycharm
1