概述#

关于 TensorRT-LLM#

TensorRT-LLM 加速并优化 NVIDIA GPU 上最新大型语言模型 (LLM) 的推理性能。这个开源库可以在 TensorRT-LLM GitHub 存储库上免费获得，也可以作为 NVIDIA NeMo 框架的一部分获得。

LLM 彻底改变了人工智能领域，并创造了与数字世界交互的全新方式。但是，随着世界各地的组织和应用程序开发人员希望将 LLM 纳入他们的工作，运行这些模型的一些挑战变得显而易见。简而言之，LLM 很大。如果没有正确的技术，这一事实会使它们的运行成本高昂且缓慢。

TensorRT-LLM 提供了一个全面的库，用于编译和优化 LLM 以进行推理。 TensorRT-LLM 结合了所有优化（即，内核融合和量化、运行时优化（如 C++ 实现）、KV 缓存、连续飞行中批处理和分页注意力）等等，同时提供了一个直观的模型定义 API 用于定义和构建新模型。

TensorRT-LLM 提供的一些主要好处是

通用 LLM 支持#

TensorRT-LLM 支持最新的 LLM。有关完整列表，请参阅软件。

飞行中批处理和分页注意力#

飞行中批处理利用 LLM 的整体文本生成过程可以分解为模型上执行的多个迭代。 TensorRT-LLM 运行时不会等待整个批处理完成才开始处理下一组请求，而是立即从批处理中清除已完成的序列。然后，它开始执行新请求，而其他请求仍在处理中。这是一个执行器 API，旨在减少队列中的等待时间，消除对填充请求的需求，并允许更高的 GPU 利用率。

多 GPU 多节点推理#

TensorRT-LLM 由预处理和后处理步骤以及多 GPU 多节点通信原语组成，采用简单的开源模型定义 API，可在 GPU 上实现突破性的 LLM 推理性能。有关更多信息，请参阅多 GPU 和多节点支持部分。

FP8 支持#

采用 TensorRT-LLM 的 NVIDIA H100 GPU 使您能够轻松地将模型权重转换为新的 FP8 格式，并编译模型以自动利用优化的 FP8 内核。这可以通过 NVIDIA Hopper 实现，而无需更改任何模型代码。

原生 Windows 支持#

自 v0.18.0 起，Windows 平台支持已弃用。所有与 Windows 相关的代码和功能将在未来的版本中完全删除。

您可以使用 TensorRT-LLM 做什么？#

让 TensorRT-LLM 加速 NVIDIA GPU 上最新 LLM 的推理性能。将 TensorRT-LLM 用作 NVIDIA NeMo 中 LLM 推理的优化骨干，NeMo 是一个端到端框架，用于构建、自定义和将生成式 AI 应用程序部署到生产中。 NeMo 提供了完整的容器，包括 TensorRT-LLM 和 NVIDIA Triton，用于生成式 AI 部署。

TensorRT-LLM 通过开源模块化模型定义 API 提高了易用性和可扩展性，用于定义、优化和执行新架构和增强功能，因为 LLM 在不断发展，并且可以轻松自定义。

如果您渴望投入 LLM 的世界，那么现在是开始使用 TensorRT-LLM 的最佳时机。探索它的功能，尝试不同的模型和优化，并开始您的旅程，以释放 AI 驱动语言模型的强大力量。要开始使用，请参阅快速入门指南。

概述#