蓝雾
BlueFog 是一个高性能的分布式训练框架,采用分散优化算法构建。 Bluefog 的目标是使去中心化算法易于使用、容错、对异构环境友好,甚至比使用参数服务器或 ring-allreduce 构建的训练框架更快。
表现
下面的图表代表了在 ResNet50 基准上完成的 BlueFog 的性能。 每台机器有 8 个 V100 GPU(64GB 内存),启用 NVLink,互连通信速度为 25Gbps。 这与您可以在获得的硬件设置相同。 我们测试了计算密集型场景的批量大小为 64 和通信密集型场景的批量大小为 32 的扩展效率。
在图中,黑框代表理想的线性缩放。 据观察,Bluefog 可以实现超过 95% 的扩展效率,而 Horovod 在 128 个 GPU 上以 64 的批量大小达到约 66% 的扩展效率。 对于批量大小为 32 的通信密集型场景,Bluefog 和 Hor
1