性能调优指南#

虽然默认设置预计会提供不错的性能，但 TensorRT-LLM 有多个可配置选项，可以提高特定工作负载的性能。本指南旨在帮助您调优 TensorRT-LLM，以便在您的用例中获得最佳性能。它涵盖了一些最有用的可调参数，并提供了理解它们的直觉。本指南也兼作如何使用 TensorRT-LLM 的 LLM-API 及其 TRTLLM-Bench 基准测试工作流程的示例。

本指南以通过 NVLink 连接的 4 个 H100-sxm-80GB 上的 Llama-3.3-70b 作为案例研究，重点关注优化输入序列长度/输出序列长度为 2048/2048 的性能。本指南中的案例研究部分参考了内部性能测试和结果，以帮助巩固给出的结论和建议。