上传者: 42114046
|
上传时间: 2022-03-05 23:50:57
|
文件大小: 554KB
|
文件类型: -
TorchElastic TorchElastic允许您以容错和弹性的方式启动分布式PyTorch作业。
有关最新文档,请访问我们的网站。
需求torchelastic需要pytho TorchElastic TorchElastic允许您以容错和弹性的方式启动分布式PyTorch作业。
有关最新文档,请访问我们的网站。
要求torchelastic需要python3(3.6+)torch etcd安装pip install torchelastic快速入门在4个节点上容错,每个节点8个教练,总共4 * 8 = 32个教练。
在所有节点上运行以下命令。
python -m torchelastic.distributed.launch --nnodes = 4 --nproc_per_node = 8