概述#
关于 TensorRT-LLM#
TensorRT-LLM 加速并优化 NVIDIA GPU 上最新大型语言模型 (LLM) 的推理性能。 这个开源库可以在 TensorRT-LLM GitHub 存储库 上免费获得,也可以作为 NVIDIA NeMo 框架 的一部分获得。
LLM 彻底改变了人工智能领域,并创造了与数字世界交互的全新方式。 但是,随着世界各地的组织和应用程序开发人员希望将 LLM 纳入他们的工作,运行这些模型的一些挑战变得显而易见。 简而言之,LLM 很大。 如果没有正确的技术,这一事实会使它们的运行成本高昂且缓慢。
TensorRT-LLM 提供了一个全面的库,用于编译和优化 LLM 以进行推理。 TensorRT-LLM 结合了所有优化(即,内核融合和量化、运行时优化(如 C++ 实现)、KV 缓存、连续飞行中批处理和分页注意力)等等,同时提供了一个直观的模型定义 API 用于定义和构建新模型。
TensorRT-LLM 提供的一些主要好处是
通用 LLM 支持#
TensorRT-LLM 支持最新的 LLM。 有关完整列表,请参阅 软件。
飞行中批处理和分页注意力#
飞行中批处理 利用 LLM 的整体文本生成过程可以分解为模型上执行的多个迭代。 TensorRT-LLM 运行时不会等待整个批处理完成才开始处理下一组请求,而是立即从批处理中清除已完成的序列。 然后,它开始执行新请求,而其他请求仍在处理中。 这是一个 执行器 API,旨在减少队列中的等待时间,消除对填充请求的需求,并允许更高的 GPU 利用率。
多 GPU 多节点推理#
TensorRT-LLM 由预处理和后处理步骤以及多 GPU 多节点通信原语组成,采用简单的开源模型定义 API,可在 GPU 上实现突破性的 LLM 推理性能。 有关更多信息,请参阅 多 GPU 和多节点支持 部分。
FP8 支持#
采用 TensorRT-LLM 的 NVIDIA H100 GPU 使您能够轻松地将模型权重转换为新的 FP8 格式,并编译模型以自动利用优化的 FP8 内核。 这可以通过 NVIDIA Hopper 实现,而无需更改任何模型代码。
最新的 GPU 支持#
TensorRT-LLM 支持基于 NVIDIA Hopper、NVIDIA Ada Lovelace 和 NVIDIA Ampere 架构的 GPU。 某些限制可能适用。 有关更多信息,请参阅 支持矩阵。
原生 Windows 支持#
自 v0.18.0 起,Windows 平台支持已弃用。 所有与 Windows 相关的代码和功能将在未来的版本中完全删除。
您可以使用 TensorRT-LLM 做什么?#
让 TensorRT-LLM 加速 NVIDIA GPU 上最新 LLM 的推理性能。 将 TensorRT-LLM 用作 NVIDIA NeMo 中 LLM 推理的优化骨干,NeMo 是一个端到端框架,用于构建、自定义和将生成式 AI 应用程序部署到生产中。 NeMo 提供了完整的容器,包括 TensorRT-LLM 和 NVIDIA Triton,用于生成式 AI 部署。
TensorRT-LLM 通过开源模块化模型定义 API 提高了易用性和可扩展性,用于定义、优化和执行新架构和增强功能,因为 LLM 在不断发展,并且可以轻松自定义。
如果您渴望投入 LLM 的世界,那么现在是开始使用 TensorRT-LLM 的最佳时机。 探索它的功能,尝试不同的模型和优化,并开始您的旅程,以释放 AI 驱动语言模型的强大力量。 要开始使用,请参阅 快速入门指南。