思科统一计算系统是一个综合性的,可扩展的多设备平台,所有资源均处于一个统一的管理域当中。其设计初衷是为了减少企业的总体拥有成本(TCO),增加业务灵活性。该系统集成了低延迟,无损万兆以太网统一网络结构与企业级x86架构的服务器。
2024-02-23 18:41:06 203KB 网络
1
针对标准并行算法难以在图形处理器(GPU)上高效运行的问题,以累加和算法为例,基于Nvidia公司统一计算设备架构(CUDA)GPU介绍了指令优化、共享缓存冲突避免、解循环优化和线程过载优化四种优化方法。实验结果表明,并行优化能有效提高算法在GPU上的执行效率,优化后累加和算法的运算速度相比标准并行算法提高了约34倍,相比CPU串行实现提高了约70倍。
1
统一计算架构虚拟化数据中心构建示意图 NAS Non-X86 Application Desktop Unix Oracle Firewall Load-Balancer IPS Utility FCoE 虚拟化的计算服务 虚拟化的存储服务 虚拟化的网络服务 Unified Fabric Archive Tier 3 Tier 2 Tier 1 Tier 0 Deduplication MOUNT Backup Disk snapshot snapshot snapshot VCB Management Test/Dev UCS Unified I/O Network Service VN-LINK VN-LINK
2022-06-21 16:30:49 1.94MB 数据中心 架构
1
为解决点源法计算全息速度较慢的问题,提出了一种新的查表算法,命名为三角函数查表法(T-LUT算法)。该算法是基于点源法基本的数学公式,通过一系列数学近似与恒等变换,生成了一种纯相位查找表,该查找表具有三维特性,并具有生成速度快、精度高、占用内存少等特点,克服了点源法重复计算相位的缺点。同时采用统一计算设备架构(CUDA)并行计算在图形处理器(GPU)上加以实现,并进行了三次并行优化。在算法的验证与对比实验中,采用单显卡(GPU显卡)实现T-LUT算法,在不牺牲全息图再现像质量的前提下,成功地将点源法计算全息的速度大幅度提升。实验发现在不同的物空间采样点数量的情况下,速度相对于点源法GPU 运算提升30倍至近千倍不等。
2022-04-16 14:12:31 3.51MB 全息 三角函数 查表法 统一计算
1
NVIDIACUDA 统一计算设备架构 编程指南 version2.0
2021-06-22 19:17:48 2.43MB NVIDIACUDA
1
为设计基于固定序的 Bellman-Ford 算法在 CUDA 平台下并行优化方案,结合算法计算密集和数据密集的特点。从核函数计算层 面,提出了访存优化方法和基于固定序优化线程发散;从 CPU-GPU 传输层面,提出了基于 CUDA 流优化数据传输开销方法。经对不同显 卡测试,参照共享内存容量划分线程块、缩减迭代后向量维度和使用 CUDA 流缩短首次计算时延,相比传统算法,改进后并行算法加速 比在 200 倍左右。该并行优化方案验证了固定序在 CUDA 平台具有可行性和可移植性,可作为多平台研究参照。
1
数字化远程Loran-C信号传播的建模非常困难,因为它的计算成本非常高。 由于不可避免的近似,其他分析/半分析方法不够准确。 在这项研究中,作者提出了一种使用自适应移动窗口时域有限差分(FDTD)方法计算统一设备架构并行计算技术的解决方案。 窗口的移动速度自适应地取决于波速。 为了实现自适应移动窗口技术,首先将原始的Loran-C信号截断。 提出了用于提取电场幅度和相位的另一种方法。 随着FDTD更新,可以从空间域同步获取计算空间中每个网格的电场幅度和相位数据,而无需在时域进行额外的存储成本和后处理。 通过所有这些努力,在22分钟内成功模拟了400 km的传播路径。 采取了江西省晋县和上饶之间的测量结果来验证数值方法。
2021-03-02 21:05:48 2.16MB 研究论文
1