支持矩阵#

TensorRT-LLM 优化了 NVIDIA GPU 上一系列知名模型的性能。以下部分提供了支持的 GPU 架构列表,以及 TensorRT-LLM 中实现的重要特性。

模型#

LLM 模型#

多模态模型 [3]#

硬件#

下表显示了 TensorRT-LLM 支持的硬件。

如果未列出 GPU 架构,则 TensorRT-LLM 团队不会在该架构上开发或测试该软件,并且支持仅限于社区支持。此外,较旧的架构对于较新的软件版本可能存在限制。

硬件兼容性

操作系统

TensorRT-LLM 需要 Linux x86_64 或 Linux aarch64。

GPU 模型架构

软件#

下表显示了 TensorRT-LLM 支持的软件。

软件兼容性

容器

25.03

TensorRT

10.9

精度

  • Hopper (SM90) - FP32, FP16, BF16, FP8, INT8, INT4

  • Ada Lovelace (SM89) - FP32, FP16, BF16, FP8, INT8, INT4

  • Ampere (SM80, SM86) - FP32, FP16, BF16, INT8, INT4[5]

注意

并非所有模型都实现了对 FP8 和量化数据类型(INT8 或 INT4)的支持。有关更多信息,请参阅 数值精度示例 文件夹。