性能调优指南#

虽然默认设置预计会提供不错的性能,但 TensorRT-LLM 有多个可配置选项,可以提高特定工作负载的性能。本指南旨在帮助您调优 TensorRT-LLM,以便在您的用例中获得最佳性能。它涵盖了一些最有用的可调参数,并提供了理解它们的直觉。本指南也兼作如何使用 TensorRT-LLM 的 LLM-API 及其 TRTLLM-Bench 基准测试工作流程的示例。

本指南以通过 NVLink 连接的 4 个 H100-sxm-80GB 上的 Llama-3.3-70b 作为案例研究,重点关注优化输入序列长度/输出序列长度为 2048/2048 的性能。本指南中的案例研究部分参考了内部性能测试和结果,以帮助巩固给出的结论和建议。

先决知识#

本指南要求您对以下概念有所了解

  • 推理阶段:上下文(Prefill)阶段和生成阶段

  • 进行中批处理 (Inflight Batching)

  • 张量并行和流水线并行

  • 量化

请参考 Mastering LLM Techniques - Inference Optimization 以了解这些概念的介绍。

目录#