具有并行计算的卷积神经网络的C ++库(openMP,CUDA,MPI) 用法: g ++ -std = c ++ 11 -fopenmp lenet.cpp -o lenet ./lenet 这是模型的多线程版本(具有数据并行性),您可以使用以下方法更改线程数: 导出OMP_NUM_THREADS = 4 要使用MPI版本的代码,您需要使用mpic ++进行编译: mpic ++ -std = c ++ 11 -fopenmp lenet.cpp -o lenet 您可以在多节点系统上运行它! 创建自己的网络 您可以通过派生Model类并使用addLayer()方法按顺序添加所有图层来创建自己的深度神经网络类。 您还可以通过扩展ActivationLayer来引入自己的激活层。 您可以通过扩展LossFunction类来创建自定义Loss函数。 工作正在进行中 使用以下方法进
2022-05-13 18:00:15 10.98MB C++
1
CUDA Programming,中文名:CUDA并行程序设计-GPU编程指南 2014年 含书签,高清。
2022-05-13 10:56:03 143.79MB cuda GPU编程
1
运用OpenMP和CUDA优化蒙特卡洛算法.doc
2022-05-13 09:06:56 2.33MB 算法 文档资料
GPU高性能编程CUDA实战中文版.pdf
2022-05-11 11:03:34 28.95MB GPU,CUDA
1
OpenCV从3.0开始,将部分算法封装在Contrib包中,并且仅发行源代码,给开发带来很大不便。本安装包是通过2017年10月27日从官方Git网站上下载的主线代码编译而成,几乎包含了全部的OpenCV3.3.1功能。该包的编译时间接近10小时,希望能给使用OpenCV的开发人员带来方便。
2022-05-10 17:48:05 67.16MB OpenCV331
1
Linux创始人LinusTorvalds有一句名言:Talk is cheap, Show me the code.(冗谈不够,放码过来!)。 代码阅读是从入门到提高的必由之路。尤其对深度学习,许多框架隐藏了神经网络底层的实现,只能在上层调包使用,对其内部原理很难认识清晰,不利于进一步优化和创新。 YOLOv3是一种基于深度学习的端到端实时目标检测方法,以速度快见长。 YOLOv3的实现Darknet是使用C语言开发的轻型开源深度学习框架,依赖少,可移植性好,可以作为很好的代码阅读案例,让我们深入探究其实现原理。 本课程将解析YOLOv3的实现原理和源码,具体内容包括:      YOLO目标检测原理       神经网络及Darknet的C语言实现,尤其是反向传播的梯度求解和误差计算      代码阅读工具及方法      深度学习计算的利器:BLAS和GEMM      GPU的CUDA编程方法及在Darknet的应用      YOLOv3的程序流程及各层的源码解析本课程将提供注释后的Darknet的源码程序文件。 除本课程《YOLOv3目标检测:原理与源码解析》外,
1
下面小编就为大家带来一篇使用Python写CUDA程序的方法。小编觉得挺不错的,现在就分享给大家,也给大家做个参考。一起跟随小编过来看看吧
2022-05-08 15:05:12 49KB cuda python
1
| | 什么是新的? ThunderGBM获得了IEEE计算机协会出版委员会颁发的IEEE并行和分布式系统事务奖(2019年最佳论文奖)(在987篇论文中,有1篇是因为“ Zeyi Wen ^,Jiahuaai Shi *,Bingsheng He,Jian Chen,Kotagiri Ramamohanarao和李勤彬*,“为高效梯度提升决策树训练开发GPU”,IEEE并行和分布式系统交易,第30卷,第12期,2019年,第2706-2717页。”)。 查看更多详细信息: , 总览 ThunderGBM的任务是帮助用户轻松有效地应用GBDT和随机森林来解决问题。 ThunderGBM利用G
2022-05-08 14:50:49 11.94MB machine-learning random-forest gpu cuda
1
大数据-算法-面向可逆逻辑综合的QM算法并行设计与基于CUDA的实现.pdf
2022-05-07 14:06:45 3.6MB big data 算法 文档资料
《GPU高性能计算之CUDA》实例。 GPU高性能计算系列丛书的第一本《GPU高性能计算之CUDA》已经出版,由张舒,褚艳利,赵开勇,张钰勃所编写。本书除了详细介绍了CUDA的软硬件架构以及C for CUDA程序开发和优化的策略外,还包含有大量的实例供读者学习参考用。 下表是各个实例的介绍列表。 文件夹 对应书中章节 备注 ACsearch_DPPcompact_with_driver 5.2.2 AC多模式匹配算法 asyncAPI 2.5 异步API调用示例 bandwidthTest 2.3.6 带宽测试 Bitonic 5.1.1 双调排序网络 conjugateGradient 5.2.1 共轭梯度算法,CUBLAS实现 cudaMPI 2.7.3 CUDA+MPI管理GPU集群 cudaOpenMP 2.7.2 CUDA+OpenMP管理多GPU deviceQuery 2.1.4 设备查询 histKernel 2.4.3 亮度直方图统计 matrixAssign 2.1.4 矩阵赋值 matrixMul 4.7.1 矩阵乘法,利用shared memory matrixMul_Berkeley 4.7.1 矩阵乘法,利用register reduction 4.7.2 并行归约(缩减)程序 scan 5.1.2 Scan算法,例如计算前缀和 scanLargeArray 5.1.2 Scan算法,可以处理大数组 simpleCUBLAS 5.1.3 CUBLAS库的简单应用 simpleCUFFT 5.1.4 CUFFT库的简单应用 simpleD3D9 2.6.2 CUDA与Direct3D 9互操作 simpleD3D10 2.6.2 CUDA与Direct3D10互操作 simpleGL 2.6.1 CUDA与OpenGL互操作 simpleMultiGPU 2.7.1 多设备控制 simpleStreams 2.5.2 流的使用演示 simpleTexture 2.3.8 简单的纹理使用 simpleTextureDrv 2.3.8 简单的纹理使用,驱动API 实现 sortingNetworks 5.1.1 双调排序网络,处理大数组 threadMigration 2.7.1 通过上下文管理和设备管理功能实现多设备并行计算 timing 4.2.1 设备端测时 transpose 4.7.3 矩阵转置 transposeDiagonal 4.7.3 矩阵转置,考虑partition conflict VectorAdd 2.2.3/2.3.4 矢量加 VectorAddDrv 2.2.3/2.3.4 矢量加,驱动API实现 【备注】以上工程,均在Windows XP 64-bit + Tesla C1060 + CUDA 2.3 + VS2005环境下测试通过。
2022-05-05 17:03:47 10.5MB GPU 高性能计算 CUDA 实例
1