LBNL节点运行状况检查(NHC)
TORQUE,Slurm和其他调度程序/资源管理器提供了对每个计算节点执行的定期“节点运行状况检查”,以验证该节点是否正常运行。 可以将确定为“不正常”的节点标记为“已关闭”或“脱机”,以防止计划作业或在其上运行作业。 通过减少由于配置错误,硬件故障等导致的可预防的作业故障,这有助于提高群集的可靠性和吞吐量。
尽管许多站点都创建了自己的脚本来实现此功能,但绝大多数站点都是一次性的工作,很少关注扩展性,灵活性,可靠性,速度或重用性。 开发人员创建了这个项目,以试图改变这一状况。 LBNL节点运行状况检查(NHC)具有多种设计功能,使其与大多数本地解决方案区分开来:
可靠-为了防止单线程脚本执行导致挂起,将子命令的执行保持在绝对最低限度,并且如果检查时间过长,则使用看门狗计时器终止检查。
快速-几乎完全以本机bash (2.x或更高版本)实施。 减少
2023-03-23 16:14:19
141KB
Shell
1