tensroflow为了提高多模型训练速度,需要多个GPU同时工作,而且我们一般使用的工作站都是8块tesla K80,如果能将8块显卡的计算力充分利用起来,将会大大提高模型训练的速度,缩短模型训练时间。这几天看到tensorflow的morroredstrategy特别好用,就想试试,所以写了代码,想看看多个GPU的效能怎么样,就仿照github上tensorflow的一些例子写了一些教程,但是出现了一个错误: tensorflow.python.framework.errors_impl.NotFoundError: libnccl.so.2: cannot open shared object file: No such file or directory。 根据报错的内容,我们知道,缺少一个文件,libnccl*** 类似的东西,看到nccl立马想到是nvidia的东西,经过查找资料发现,这个东西应该放在cuda文件夹下,在出现需要多个GPU同时工作时来调用的,如果cuda对应的lib64文件下没有找到该文件,就需要下载一下,默认的cuda并不直接安装该功能的,但是如果已经有cuda的情况下,只需要将对应的文件复制进cuda文件夹下的lib64 这个库里。
2021-06-04 08:55:04 85.33MB libnc
1