matlab fft 代码 1D-4096-FFT-with-CUDA 实测FFT算法在Maxwell架构上恰好处于计算密集和访存密集两类算法之间, 在做到足够优化的情况下,计算时间可以掩盖访存时间。 本项目使用Stockham结构实现并行FFT算法,达到与cuFFT一致的速度。 通过整合kernel,可实现比调用cuFFT更快的算法整体执行速度。 另外cuFFT分配了用户不可访问的显存空间,本项目避免了这一问题。 项目中测试了8192组4096点时域递增数的一维FFT计算。 结果保存于一个txt文件,可用MATLAB对比验证。 暂给出4096点FFT实现代码,文档请联系作者。 运行环境为WIN7 x64 + CUDA 7.5。
2021-12-22 01:16:07 5KB 系统开源
1
文件夹结构:MPI——在“src”文件夹中包含 MPI 代码以及 Makefile 和运行脚本。 OMP——在“src”文件夹中包含 OpenMP 代码以及 Makefile 和运行脚本。 SEQ——在“src”文件夹中包含序列代码以及 Makefile 和运行脚本。 SSE——在“src”文件夹中包含英特尔内部代码以及 Makefile 和运行脚本。 MPI+OMP——在“src”文件夹中包含 MPI+OMP 代码以及 Makefile 和运行脚本。 如何: -- 请加载以下模块: $ 模块加载英特尔 $ 模块加载英特尔-mpi 在上述每个文件夹中都有一个运行脚本,用于在 SBATCH 中提交程序,这里是它们的名称、它们的作用以及如何运行它们。 ------------------------------------------------ 序列文件夹-------------
2021-12-21 22:05:48 1.15MB C
1
过分割是计算机视觉领域流行的图像预处理方法。针对其运行速度慢的缺点,对广泛采用的Turbopix算法提出CUDA并行优化的方法。通过每个线程执行一个超像素扩张的任务分配,实现了水平集函数的并行演化;利用纹理存储空间和常数存储空间的优化策略,改善了数据访存的效率。实验结果表明,在GT 240M平台上,平均加速比达到了15以上。
2021-12-21 16:44:44 314KB 软件
1
这是一个CUDA编程经典入门介绍文档,希望对大家的学习有所帮助。
2021-12-21 11:13:50 1.8MB CUDA 编程
1
k-means聚类算法及matlab代码目录 介绍 K-均值聚类是一种简单且可扩展的聚类方法,它以一种客观的方式将观察结果划分为k个聚类。 它具有非常广泛的应用,例如图像分割,零售产品分类(Kusrini,2015),温室气体排放等环境问题(Kijewska和Bluszcz,2015)。 K均值聚类可以与其他高级方法结合使用。 例如,它与支持向量机(SVM)一起使用来执行自动文本分类(Perrone和Connell,2000年)。 它也可以用作预处理方法,例如在隐马尔可夫模型(HMM)中初始化(Hu和Zanibbi,2011年)。 它的广泛应用和简单的计算复杂度使k-means聚类成为当今流行的方法之一。 当维数d> 1且簇数k> 1时,找到k均值成本函数的最小值是一个NP难题。 科学家想出了几种启发式方法来找到局部最小值,但是该过程仍然需要大量计算,尤其是对于具有高维特征的大型数据集而言。 因此,我们希望在机器集群上实现k-means启发式方法的并行版本,以在不牺牲算法准确性的情况下显着加快算法的运行速度。 k均值聚类的典型方法是期望最大化(EM)。 E步将点分配到最近的聚类中心,而
2021-12-18 20:06:11 54.51MB 系统开源
1
SVM算法在统计分类以及回归分析中得到了广泛的应用。而随着物联网的迅速发展,SVM算法在各种应用中往往需要解决大量数据的快速处理问题。在SVM算法并行化研究中,首先对SVM算法进行分析研究,提出了基于CUDA的SVM算法并行化方案;其次,进一步研究海量数据的处理,提出海量数据处理的并行化方案;最后,通过实验分析对比了并行化算法的性能。
2021-12-18 11:22:47 459KB 工程技术 论文
1
皮托希德 这是使用PyTorch对整体嵌套边缘检测[1]的个人重新实现。 如果您要利用这项工作,请相应地引用本文。 另外,请确保遵守作者的许可条款。 如果您要使用此特定实现,请适当确认它[2]。 有关这项工作的原始版本,请参见: : 有关基于Caffe的另一种重新实现,请参见: : 用法 要在自己的映像上运行它,请使用以下命令。 请确保查看他们的论文/代码以获取更多详细信息。 python run.py --model bsds500 --in ./images/sample.png --out ./out.png 恐怕这种重新实现即使使用官方权重,也不完全适用于最初的Caffe版本。 相对于BSDS500数据集上的官方ODS = 0.780,使用进行评估,它可以实现ODS = 0.774。 请随时通过提交问题和请求请求为该存储库做出贡献。 比较 参考 [1] @inproc
2021-12-17 21:49:33 828KB python deep-learning cuda pytorch
1
#CUDA 使用暗通道先验去雾算法的实现 在 CUDA 上实现的去雾算法。 ##特征 OpenCV 读取图像并在 GPU 上处理它们 共享内存优化 多平台支持(Windows、Linux、Mac) ##用法 确保已安装 openCV、CUDA 工具包和 NVIDIA 显卡 git clone https://github.com/arsenalliu123/dehazing-GPU.git cd dehazing-GPU make clean && make Debug/dehazing -h 由 Yichen Liu 和 Yin Lin 开发
2021-12-17 21:02:41 1.76MB Cuda
1
N体问题,它是指在已知N个物体的初始位置、速度和质量的情况下,在牛顿经典力学情况下研究它们的运动,包括轨迹预测等。
2021-12-16 17:09:13 732KB ;nbody问题 cuda cudaN_body cudaN体问题
一本提高GPU编程的好书,采用CUDA技术,容易理解!
2021-12-15 11:04:46 6.82MB CUDA
1