Understanding the Overheads of Launching CUDA Kernels.pdf
2022-01-30 09:09:03 546KB CUDA Kernels Overheads
1
CUDA中PyTorch的软DTW 用于PyTorch的快速CUDA实现。 基于但运行速度最高可提高100倍! forward()和backward()传递都使用CUDA实现。 我的实现部分受到启发,其中提出了基于对角线的Belman递归实现。 入门 此代码取决于和 。 只需在您的项目中包含soft_dtw_cuda.py ,就可以了! 您还可以运行随附的事件探查器/测试(已通过Python v3.6测试),并查看获得的加速效果: git clone https://github.com/Maghoumi/pytorch-softdtw-cuda cd pytorch-softdtw-cuda python soft_dtw_cuda.py 用法示例 脚本中已经提供了示例代码。 这是一个简单的例子: from soft_dtw_cuda import SoftDTW # Crea
2022-01-28 10:40:49 10KB deep-learning cuda pytorch dynamic-time-warping
1
cufftShift 基于CUDA的线性1D,2D和3D FFT移位功能实现。
2022-01-27 14:31:21 28KB C++
1
快速流网
2022-01-27 12:27:27 38.29MB Cuda
1
1. 版本:OpenCV 4.5.5 2. 编译器:Visual Studio 2022 (VC17),CUDA 11.5 3. 平台: Windows 10 x64,GTX 1060 4. 说明:有CUDA和CUDANN,包括开源不免费的算法部分。
2022-01-25 19:05:27 210.59MB cuda vs2022 vc17 gtx1060
1
CUDA PTX 手册
2022-01-23 19:12:49 3.74MB CUDA ptx GPU 高性能计算
1
中文书名:《大规模并行处理器编程实战》,胡文美的书,很好的学习cuda的书。《大规模并行处理器编程实战》介绍了学生和专业人员都适合的并行编程与gpu体系结构的基本概念,详细剖析了编写并行程序所需的各种技术,用案例研究说明了并行程序设计的整个开发过程,即从计算思想开始,直到最终实现高效可行的并行程序。
2022-01-22 21:48:49 7.77MB GPU cuda
1
CUDA-Cpp-Makefile 大型 CUDA C++ 程序的 Makefile 原型 混合使用 CUDA 和 C++ 源文件的程序很难使用 Make 进行管理。 nvcc 要求文件以 .o 后缀结尾才能进行链接,但以 .o 结尾的 Makefile 规则会覆盖现有的隐式规则,从而导致烦人的循环依赖消息。 此外,nvcc 编译器速度慢,特别是对于大型项目的编译。 因此,重新编译所有 CUDA 源文件即使只有一小部分更改的解决方案是不够的。 这个简单的 Makefile 会自动处理这些烦恼。 输入: 包含 C++ 和 CUDA 源文件和(可选)CUDA 头文件的目录 C++ 和 CUDA 包含目录 g++ 和 nvcc 编译器标志(如果需要,可以轻松调整 Clang) (可选)调试上述等效项 输出: 代码的编译和链接的可执行文件 源文件是分开处理的——编辑一个文件只需要重新编
2022-01-21 20:38:22 2KB Makefile
1
QR_CUDA ###使用CGS和MGS的QR分解的GPU实现 这些文件包含用于在GPU上运行Cholesky分解的代码。 它是在安装了CUDA 11.0开发套件的Visual Studio 2019中创建并运行的。 输入矩阵及其尺寸在代码中定义。 在文件QR_CGS.cu中,使用Classical Gram Schmidt算法分解矩阵。 在文件QR_MGS中,使用了改进的Gram Schmidt算法。
2022-01-21 17:09:30 8KB Cuda
1
cuda 11.5.1,需要的朋友可以下载一下,百度云下载
2022-01-19 16:09:16 97B cuda
1