并行 C 程序 挪威科技大学并行计算课程中的练习。 介绍 作为对 C 的简单介绍以帮助我们入门,本练习在 C 中实现了一些与矩阵相关的计算。 区域随着 MPI 增长 在这个练习和以下许多练习中,我们被要求解决一个区域增长问题。 问题如下。 您有一个二维像素网格,每个像素都有一个灰度颜色(0 到 255 之间的一个字节)。 给定一个阈值和一些位置(种子),如果颜色差异低于阈值,您将把种子“生长”到相邻像素。 继续扩大该地区,直到它不再增长。 在本练习中,我们将使用MPI实现它, MPI是一种用于并行计算的消息传递协议。 串行优化 引用练习:“在这个问题中,你应该编写一个函数来尽可能快地执行稀疏矩阵向量乘法。你应该通过在文件 spmv.c 中实现乘法函数来做到这一点。你的函数应该比包含的函数更快乘以天真。您可以使用 struct s 矩阵 t 创建自己的稀疏矩阵格式。” 使用 pth
2022-05-15 22:07:18 956KB C
1
具有并行计算的卷积神经网络的C ++库(openMP,CUDA,MPI) 用法: g ++ -std = c ++ 11 -fopenmp lenet.cpp -o lenet ./lenet 这是模型的多线程版本(具有数据并行性),您可以使用以下方法更改线程数: 导出OMP_NUM_THREADS = 4 要使用MPI版本的代码,您需要使用mpic ++进行编译: mpic ++ -std = c ++ 11 -fopenmp lenet.cpp -o lenet 您可以在多节点系统上运行它! 创建自己的网络 您可以通过派生Model类并使用addLayer()方法按顺序添加所有图层来创建自己的深度神经网络类。 您还可以通过扩展ActivationLayer来引入自己的激活层。 您可以通过扩展LossFunction类来创建自定义Loss函数。 工作正在进行中 使用以下方法进
2022-05-13 18:00:15 10.98MB C++
1
适用于Python的HPC基准 这是一组基准测试,用于测试使用Python前端的各种计算后端的顺序CPU和GPU性能。 具体来说,我们想测试哪种高性能后端最适合地球物理(基于有限差分)的模拟。 内容 常问问题 为什么? 科学的Python生态系统正在蓬勃发展,但是Python中的高性能计算还不是真正的事情。 我们尝试来更改此,但是我们应该使用哪个后端进行计算? Python前端到高性能后端的开发需要大量的时间和资源,但是这些通常是为深度学习量身定制的。 我们想了解一下,通过(滥用)这些库进行地球物理建模,我们是否可以从这些进展中获利。 为什么基准看起来如此怪异? 这些或多或少是逐字记录副本(即物理模型的实际部分)。 大多数地球系统和气候模型组件都基于有限差分方案来计算导数。 这可以通过数组的索引移位(例如0.5 * (arr[1:] + arr[:-1]) , arr在每个点的一
2022-05-09 16:03:04 236KB python tensorflow gpu parallel-computing
1
ParallelFor 介绍 一个对 PHP 数组并行执行操作的类。 它旨在代替 PHP 的 while、for、foreach 和其他循环。 当对数组的每个元素执行以下处理时,有可能缩短处理时间。 执行占用大量 CPU 时间的处理时 当有DB访问、网络访问等进程被阻塞时 1的情况下,除非是多核CPU,否则无效。 操作环境 PHP 5.3 或更高版本 可以使用 pcntl 函数(不适用于 mod_php 等) 编译PHP时添加--enable-pcntl选项。另外,用yum或apt安装PHP似乎经常可以从一开始就使用。 这个怎么运作 将要处理的数组分成多个较小的数组,分别在用pcntl_fork创建的子进程中处理,合并结果返回。可以在设置中更改分割数。 对于数组元素的每个合并处理内容和结果的过程,创建一个闭包并传递它。 有关详细信息,请参阅示例和测试目录中的文件。 约束 执行前一定要关
2022-04-29 18:58:56 6KB PHP
1
重点是只要8个积分,本书是CUDA并行程序设计领域最全面、最详实和最具权威性的著作之一,由CUDA开发者社区技术总监亲自撰写,英伟达中国首批CUDA官方认证工程师翻译,详实地讲解了CUDA并行程序设计的技术知识点(平台、架构、硬件知识、开发工具和热点技术)和编程方法,包含大量实用代码示例,实践性非常强。   全书共分为12章。第1章从宏观上介绍流处理器演变历史。第2章详解GPU并行机制,深入理解串行与并行程序,以辩证地求解问题。第3章讲解CUDA设备及相关的硬件和体系结构,以实现最优CUDA程序性能。第4章介绍CUDA开发环境搭建和可用调试环境。第5章介绍与CUDA编程紧密相关的核心概念——网格、线程块与线程,并通过示例说明线程模型与性能的关系。第6章借助实例详细讲解了不同类型内存的工作机制,并指出实践中容易出现的误区。第7章细述多任务的CPU和GPU协同,并介绍多个CPU/GPU编程秘技。第8章介绍如何在应用程序中编写和使用多GPU。第9章详述CUDA编程性能限制因素、分析CUDA代码的工具和技术。第10章介绍编程实践中的库与软件开发工具包。第11章讲解如何设计基于GPU的系统。第12章总结CUDA应用中易犯错误以及应对建议。
2022-04-25 16:20:15 16.58MB CUDA
1
Learn CUDA Programming A beginners guide to GPU programming and parallel computing with CUDA 10.x and CC++ by Jaegeun Han, Bharatkumar Sharma (z-lib.org).pdf
2022-04-25 16:16:37 33.39MB
1
•Intel® Parallel Studio XE 2015 Update 5 Professional Edition 的license,当然也适用于2015Professional各个版本。
2022-04-14 13:30:59 548B Intel Parallel Studio Professional
1
CUDA for Engineers An Introduction to High-Performance Parallel Computing 英文无水印原版pdf pdf所有页面使用FoxitReader、PDF-XChangeViewer、SumatraPDF和Firefox测试都可以打开 本资源转载自网络,如有侵权,请联系上传者或csdn删除 查看此书详细信息请在美国亚马逊官网搜索此书
2022-04-07 13:17:45 7.42MB CUDA Engineers Introduction Parallel
1
Parallel SGD   Parallel-SGD v0.7   本项目为分布式并行计算框架&简易CPU神经网络模型库。可用于联邦学习和分布式学习中的关于网络架构和通信编码部分的实验,参考ICommunication_Ctrl接口说明( );可用于神经网络模型分割与模型验证,参考 nn 库使用说明();可用于分布式并行计算实验,参考 executor 说明()。 参数说明 工作节点参数   所有的参数都通过 job_submit.py 传入,worker节点无需传入任何参数。启动时,使用以下命令启动Worker,无需传入参数。当任务提交时,节点会自动申请并获取工作状态信息。 python worker.py 注意:每个worker所在的计算机都需要允许15387端口的TCP传入。 注意:Worker启动后就进入无人值守状态,可以反复提交任务无需重启。 任务提交 (已弃用)   提交任
2022-03-14 10:49:42 22.31MB Python
1
cypress-parallel-specs-locally 在本地并行执行 Cypress 规范的脚本: runner_v1 是一个带有递归的承诺池 - runner_v2 是一个基于事件的,带有状态 - ,用于节点 12+ Runner v2 尝试解决多个 Cypress xvfb 实例同时产生并争夺相同资源导致跳过某些套件的问题。 现在可以配置参数timeout ,如果上次启动的超时尚未完成,它将阻止新实例生成 cypress。 timeout值应该是启动 cypress 和打开浏览器之间的 +/- 平均时间,这取决于您的测试套件大小和可用的机器资源。 参数: executors = 选择要运行的规范的链接器的数量; filter = 按关键字过滤规格路径; 如何运行 runner v1: yarn cy:run - 单个执行器 yarn cy:run:paralle
2022-03-07 09:21:15 86KB cypress parallel-tests locally JavaScript
1