在VM/BareMetal部署Tensor Fusion
文件
https://r2-upload.code2life.top/CUDA-Fusion.tar
客户端
环境:Ubuntu 24.04 or Rocky linux 9.0
安装依赖:
- 安装 CUDA 12.1 官方安装包 下载链接 安装时勾选安装 CUDA Toolkit 即可,不要安装 NVIDIA 驱动;
- 安装 Tensor Fusion 客户端部分 解压CUDA-Fusion.tar,将
CUDA-Fusion/client/libs
下的所有文件覆盖拷贝至 CUDA 安装目录/usr/local/cuda-12.1/lib64/
- 安装pytorch,下载链接 该版本使用pytorch代码tag-v2.1.2,且动态链接cuda runtime library
启动命令:
sh
./vcuda-client [节点编号] [服务端 IP] [协议类型] [发送端口] [接收端口] [注册端口] [显卡编号]
示例:
sh
./vcuda-client 0 192.168.2.129 native 9998 9997 9999 0
参数解析:
- 节点编号:每台服务器定义的数字编号
- 协议类型:
native
/light
传输协议,客户端需要和服务端保持一致 - 显卡编号:本条配置所使用的显卡在该服务器的编号
注意:
- 发送端口对应服务端接收端口,接收端口对应服务端发送端口,注册端口客户端与服务端保持一致
- 在vcuda-client与server端成功建立连接后,vcuda-client即可接管当前系统的所有cuda请求
服务端
环境:Ubuntu 24.04 or Rocky linux 9.0
安装依赖:
- 安装 NVIDIA 官方驱动:sh
apt install nvidia-driver-535
- 安装 CUDA 12.1 官方安装包 下载链接 安装时勾选安装 CUDA Toolkit 即可,不要安装 NVIDIA 驱动
- 安装 CUDNN,下载链接 解压后放在
/usr/local/
目录下
启动命令:
sh
LD_LIBRARY_PATH=/usr/local/cudnn-linux-x86_64-8.8.1.3_cuda12-archive/lib/ ./vcuda -n native -s 9997 -r 9998 -p 9999 -a 0x1129 -k 0x298
参数解析:
-n
:native
/light
传输协议,客户端需要和服务端保持一致-s
:发送端口-r
:接收端口-p
:注册端口-a
:显存标记-k
:内核参数偏移(与服务端nvidia驱动以及cuda版本相关)