性能调优指南#
虽然默认设置预计会提供不错的性能,但 TensorRT-LLM 有多个可配置选项,可以提高特定工作负载的性能。本指南旨在帮助您调优 TensorRT-LLM,以便在您的用例中获得最佳性能。它涵盖了一些最有用的可调参数,并提供了理解它们的直觉。本指南也兼作如何使用 TensorRT-LLM 的 LLM-API 及其 TRTLLM-Bench 基准测试工作流程的示例。
本指南以通过 NVLink 连接的 4 个 H100-sxm-80GB 上的 Llama-3.3-70b 作为案例研究,重点关注优化输入序列长度/输出序列长度为 2048/2048 的性能。本指南中的案例研究部分参考了内部性能测试和结果,以帮助巩固给出的结论和建议。
先决知识#
本指南要求您对以下概念有所了解
推理阶段:上下文(Prefill)阶段和生成阶段
进行中批处理 (Inflight Batching)
张量并行和流水线并行
量化
请参考 Mastering LLM Techniques - Inference Optimization 以了解这些概念的介绍。