问题处理手册
未识别GPU节点
安装TensorFusion后,如果未发现任何GPU节点,请检查您的GPU节点是否已标记为 nvidia.com/gpu.present=true
。
bash
kubectl get nodes --show-labels | grep nvidia.com/gpu.present=true
如果没有标记,您可以通过修改IaC代码中的 userdata
或手动添加标记。
TensorFusion Operator持续重启
如果TensorFusion operator持续重启,请检查日志并查找错误:
bash
kubectl logs -n tensor-fusion-sys -l app.kubernetes.io/component=controller
如果错误指示任何配置问题,请参考TensorFusion Custom Resource文档进行修复。否则,请在Discord中寻求TensorFusion支持团队的帮助。
GPU Worker无法工作
如果TensorFusion GPU Worker Pod持续重启,您可以检查日志。如果日志信息不够详细,请在TensorFusionCluster自定义资源配置中的worker Pod模板中设置 TF_ENABLE_LOG=1
。
请将崩溃日志发送给TensorFusion支持团队以寻求帮助。
"Invalid Memory Address"问题
TensorFusion的底层虚拟化技术实现了针对GPU的特殊MMIO,CUDA cuMemMap
API在某些情况下会导致复杂行为。为此,TensorFusion开发了GPU内存管理器,但在极少数情况下可能导致"Invalid Memory Address"问题。
您可以通过禁用内存管理器来缓解此问题。
要禁用TensorFusion内存管理器,请在集群配置中的GPU Worker Pod模板中设置以下环境变量:
bash
TF_DISABLE_MEMORY_MANAGER=1
启用此选项后,内存冻结和VRAM扩展/分层功能将无法使用。团队将继续致力于解决此问题。