Skip to content

无ClusterAgent模式本地安装(不推荐)

当您需要纯本地安装且不需要使用高级功能时,可以使用此选项,但无法使用TensorFusion控制台进行集中管理。

bash
helm upgrade --install --create-namespace --namespace tensor-fusion-sys --repo https://helm.tensor-fusion.ai --set agent.agentId="" tensor-fusion-sys tensor-fusion

对于无代理本地安装,使用以下命令获取并应用基本配置(仅测试)

bash
kubectl apply -f https://app.tensor-fusion.ai/tmpl/tf-cluster
kubectl apply -f https://app.tensor-fusion.ai/tmpl/tf-scheduling-config

然后运行以下命令验证,如果看到每个GPU节点上hypervisor正常运行且GPUCluster资源状态就绪,即可开始使用TensorFusion。

bash
kubectl get pods -n tensor-fusion-sys
# 预期输出:
# NAME                                      READY   STATUS    RESTARTS   AGE
# hypervisor-<节点名称>                    1/1     Running   0          2m

kubectl get tensorfusionclusters
# 预期输出:
# NAME                                  STATUS      AGE
# shared-tensor-fusion-cluster          Ready       2m

常见问题

如果hypervisor Pod未显示,请检查GPU节点是否已添加标签nvidia.com/gpu.present=true

bash
kubectl get nodes --show-labels | grep nvidia.com/gpu.present=true

# 预期找到GPU节点输出:
# gpu-node-name   Ready   <none>   42h   v1.32.1 beta.kubernetes.io/arch=amd64,...,kubernetes.io/os=linux,nvidia.com/gpu.present=true

解决方法:可以添加标签或修改TensorFusionCluster资源使用自定义标签识别GPU节点

bash
# Using helm `initialGpuNodeLabelSelector` parameter to add env var `INITIAL_GPU_NODE_LABEL_SELECTOR` to tensor-fusion-operator:
helm upgrade --install --create-namespace --namespace tensor-fusion-sys --repo https://helm.tensor-fusion.ai --set agent.agentId="" --set initialGpuNodeLabelSelector="your-own-gpu-label-key=value" tensor-fusion-sys tensor-fusion
bash
curl https://app.tensor-fusion.ai/tmpl/tf-cluster > tf-cluster.yaml

# 编辑tf-cluster.yaml
# nodeManagerConfig:
#   nodeSelector:
#    nodeSelectorTerms: 
#     - matchExpressions:
#       - key: nvidia.com/gpu.present  //  TODO -/+
#         operator: In
#         values:
#           - "true"

kubectl apply -f tf-cluster.yaml