Modern Data Mining Algorithms in C- and CUDA C.pdf
2022-10-25 12:05:16 2.28MB
1
基于图形处理器单元(GPU)提出了一种帧间差分与模板匹配相结合的运动目标检测算法。在CUDA-SIFT(基于统一计算设备架构的尺度不变特征变换)算法提取图像匹配特征点的基础上,优化随机采样一致性算法(RANSAC)剔除图像中由于目标运动部分产生的误匹配点,运用背景补偿的方法将静态背景下的帧间差分目标检测算法应用于动态情况,实现了动态背景下的运动目标检测,通过提取目标特征与后续多帧图像进行特征匹配的方法最终实现自动目标检测。实验表明该方法对运动目标较小、有噪声、有部分遮挡的图像序列具有良好的目标检测效果。
1
CUDA Toolkit 11.6.0+对应CUDNN,适合win10系统
2022-10-24 16:09:05 28.43MB CUDA CUDNN
1
首先介绍了CUDA架构特点,在GPU上基于CUDA使用两种方法实现了矩阵乘法,并根据CUDA特有的软硬件架构对矩阵乘法进行了优化。然后计算GPU峰值比并进行了分析。实验结果表明,基于CUDA的矩阵乘法相对于CPU矩阵乘法获得了很高的加速比,最高加速比达到1 079.64。GPU浮点运算能力得到有效利用,峰值比最高达到30.85%。
2022-10-21 22:47:29 194KB 微处理器|微控制器
1
安装CUDA经常显示丢失的DLL库。在运行tensorflow时,报错can`t load cublasLt64_11.dll。tensorflow10.1系列dll文件cublas64_11.dll、cublas64_100.dll等
2022-10-18 09:07:22 248B DLL库 tensorflow CUDA cublas
CUDA-3D CUDA基础教程 用于3D点云操作,功能工程和基本算法的本机CUDA实现 结构体 ├── operators │   └── README.md ├── README.md └── tutorials ├── hello_world │   ├── coordinating_parallel.cu │   ├── error101.cu │   ├── error_macro.cu │   ├── grid_stride.cu │   ├── hello_world.cu │   ├── loop_accelerate.cu │   ├── Makefile │   ├── matrix_mul.cu │   ├── memory101.cu │   ├── mismatched_c
2022-10-14 16:40:13 13KB Cuda
1
cg法matlab代码GPUTUM:有限元求解器 GPUTUM FEM解算器是为解决FEM线性系统而编写的C ++ / CUDA库。 它旨在通过使用GPU硬件快速解决FEM系统。 该代码由美国盐湖城犹他大学科学计算与成像研究所的Zhisong Fu和T. James Lewis编写。 该代码背后的理论发表在下面的链接中。 目录 -[FEM知识](#fem-aknowledgements)-[需求](#requirements)-[建筑物](#building) -[Linux和OSX](#linux-and-osx) -[Windows](#windows) -[运行示例](#running-examples)-[使用库](#using-the-library)-[测试](#testing) 有限元知识 **** 作者: 付志松( a ) 詹姆斯·刘易斯( b ) 罗伯特·M·柯比( a ) 罗斯·惠特克( a ) 该库可解决GPU上四面体或三角形网格上顶点的偏微分方程和系数值。 支持多种网格格式,并由和读取。 用于分割非结构化网格。 用于测试。 要求 Git,CMake(推荐3.0+
2022-10-09 16:12:55 1.5MB 系统开源
1
MPI CUDA编程.pdf WHAT YOU WILL LEARN What MPI is How to use MPI for inter GPU communication with CUDA and OpenACC What CUDA-aware MPI is What Multi Process Service is and how to use it How to use NVIDIA Tools in an MPI environment How to hide MPI communication times
2022-09-29 15:29:34 3.28MB MPI CUDA 并行计算
1
遗传算法TSP_CUDA 一种遗传算法,可使用CUDA体系结构(GPU)为TSP(旅行商问题)找到最佳解决方案。 这是我在USF进行的并行和分布式处理课程的最后一个项目,与Berkeley在2015年Spring发布的“并行计算机的应用程序”一起完成的。该项目的目的是使自己熟悉遗传算法的设计和实现,重点是学习如何在CUDA架构以及C ++的OpenMP库上编写并行代码。 概述: 该项目将在德克萨斯大学奥斯汀分校的Stampede.tacc超级计算机上运行。 该代码在踩踏群集的单个节点上运行,此刻使用Nvidia的CUDA调用单个GPU。 在CUDA中,执行内核(GPU功能),并由块和线程组成。 每个块最多可以有1024个线程,每个内核可以有〜65000个块。 我设计了一种算法,以便在每个GPU上创建一个填充,该填充由启动内核的NTHREADS * NBLOCKS组成。 例如,在一个流行
2022-09-28 11:57:44 20KB Cuda
1
CUDA-API教程
2022-09-24 09:06:35 2.76MB cuda
1