NVIDIA UFM(Unified Fabric Manager)企业版用户手册(版本6.15.1)涵盖了用于管理InfiniBand规模计算环境的UFM平台的各个方面。
文档开始介绍了UFM的主要特点、新功能和变更、不支持的功能/特性、安装说明、此版本中修复的错误、已知问题以及历史变更和新功能。UFM的主要优势包括中央织物管理控制台、深入的织物可视性和控制、多隔离应用环境的支持、面向服务的自动资源配置、快速解决织物问题的能力、无缝故障转移处理和开放架构。UFM的主要功能模块包括织物仪表板、织物分段(PKey管理)、织物发现和物理视图、中央设备管理、监控、配置、织物健康、日志记录和高可用性。
此外,手册详细介绍了UFM的软件架构,包括图形用户界面、客户端API、客户端SDK工具、UFM服务器、子网管理器、NVIDIA可扩展层次聚合和还原协议(SHARP)聚合管理器、性能管理器、设备管理器、UFM开关代理和通信协议。文档还涵盖了UFM的安装和初始配置过程、历史遥测收集和UFM服务器软件的运行方式。
NVIDIA UFM(Unified Fabric Manager)企业版用户手册是针对InfiniBand大规模计算环境管理的详尽指南,特别适用于那些需要高效管理复杂网络架构的IT专业人士。版本6.15.1的手册包含了关于UFM平台的全面信息,帮助用户理解和利用其强大的功能。
手册的【关键特点】部分强调了UFM的核心优势。UFM提供了一个【中央织物管理控制台】,使管理员能够在一个集中化的界面上监控和控制整个网络。这一特性极大地简化了日常管理和故障排查任务。UFM提供了【深入的织物可视性和控制】,允许用户对网络的各个方面进行精细监控,确保高性能和稳定性。再者,它支持【多隔离应用环境】,能够在共享的硬件基础设施上安全地运行多个独立的应用环境,提高资源利用率。此外,UFM还实现了【面向服务的自动资源配置】,可以根据需求自动分配和调整资源,大大提升了效率。UFM还有助于【快速解决织物问题】,通过其内置的诊断工具和智能分析功能,能迅速定位并解决问题。同时,UFM具备【无缝故障转移处理】能力,确保服务的连续性和高可用性。UFM基于【开放架构】设计,允许与其他系统集成,增强了其灵活性和扩展性。
手册的【主要功能模块】部分详细列出了UFM的不同组件及其作用。例如,【织物仪表板】提供了一目了然的网络状态概览;【织物分段(PKey管理)】允许精细控制网络分区;【织物发现和物理视图】用于自动识别和可视化网络拓扑;【中央设备管理】集中管理所有连接的设备;【监控】和【配置】模块则负责网络性能和配置的实时监控与调整;【织物健康】确保网络的健康状态;【日志记录】记录活动和事件,便于审计和故障分析;而【高可用性】确保系统的稳定运行,即使在单点故障情况下也能正常工作。
在【软件架构】部分,手册详细介绍了UFM的各个组件,如【图形用户界面】(GUI),提供了直观的交互方式;【客户端API】和【客户端SDK工具】为开发人员提供了接口和工具来扩展UFM的功能;【UFM服务器】作为核心服务运行,处理请求并管理数据;【子网管理器】协调网络中的节点;【NVIDIA可扩展层次聚合和还原协议(SHARP)聚合管理器】优化了网络资源的聚合;【性能管理器】监控和调整网络性能;【设备管理器】负责设备的管理和配置;【UFM开关代理】是与硬件交换机交互的桥梁;而【通信协议】则确保了各组件间的有效通信。
在【安装和配置】章节,用户可以找到详细的【安装说明】,包括【支持的设备】列表、【系统要求】、从先前版本升级的步骤,以及如何处理【历史遥测收集】。此外,手册还涵盖了【UFM服务器软件的运行方式】,指导用户正确部署和运行UFM以确保其高效工作。
手册的【问题与修复】部分列出了【此版本中修复的错误】、【已知问题】,以及【历史变更和新功能】的完整历史记录,帮助用户了解UFM的演进过程,以及如何应对可能出现的问题。
NVIDIA UFM企业版用户手册6.15.1版是一个综合性的参考资料,为管理员提供了全面的指导,以充分利用UFM的强大功能来管理InfiniBand网络,实现高效、可靠的计算环境。
2024-11-22 16:18:18
20.18MB
fabric
1