Skip to content

# 概述

什么是TensorFusion?

TensorFusion是一个GPU虚拟化框架。

用更少的GPU,运行更多的AI应用。

  • 多个AI模型共享融合的分布式GPU池并使用虚拟GPU进行推理。
  • 在毫秒内的CUDA API级别上自动扩缩AI应用程序

试想一下,每个AI应用程序,都能用到池中所有的GPU!

它是如何工作的?

张量融合框架包括:

  • cf-client:Hook CUDA API以使推理应用无需GPU运行
  • cf-server:重放CUDA调用、上下文切换
  • cf-mediator(可选):CUDA调用的Load-Balancer
  • cf-control(可选):用于管理GPU群集元数据的控制面,控制调度策略

TensorFusion如何为您提供帮助?

节省40%-90%的GPU成本

通过毫秒级调度,驱逐,负载平衡,摆脱定期GPU尖峰效果,将GPU的使用率整形,Scale to Zero。

弹性推理

自动在CUDA API级别扩容,大大增加推理吞吐量、减少热模型延迟。

轻松管理GPU节点

没有GPU Operator,drive, device-plugin, 或任何麻烦的Infra问题。

TensorFusion自动管理GPU池,就像NFS一样使用它即可!

动机

目前业界有3个常见问题。

#1 AI模型运行成本过高

大规模的多模型推理时,多个GPU无法充分利用。

理想情况下,系统应该保持稳定的70%左右的GPU使用率,而不是10%-30%,从而节省超过50%的成本。

#2开发人员缺乏GPU

开发AI应用、或通过Hands-on Lab学习时,多个开发人员/学生需要时排队锁定GPU机器,互相等待。

理想情况下,开发人员可以无需锁定整个VM,就能按需使用GPU资源。

#3云供应商GPU不够卖

云供应商向客户出售GPU机器,但他们总是缺乏可用的GPU。

理想情况下,云供应商应该能够超卖GPU,多租户在底层共享同一个物理设备。

何时使用TensorFusion?

  • 提供多个小型/中/大型型号,但不是Llama-3.1-70B或405B这种超大模型
  • 当您为多个学习者建立AI动手实验室时。

何时不使用TensorFusion?

  • 运行大于70B的单个超大模型。这类模型无法加载到单个GPU,是通信密集型场景,远程GPU池并不是最佳实践,请购买NVLink和NVSwwitch增加吞吐量。
  • 当您不关心GPU费用时。