跳到主要内容

Ctrl+K

TensorRT-LLM

TensorRT-LLM

目录

入门

概览
快速入门指南
主要特性
PyTorch 后端
发行说明

安装

在 Linux 上安装
在 Linux 上从源代码构建
在 Grace Hopper 上安装

LLM API

API 介绍
API 参考

示例

LLM 示例介绍
LLM 常见自定义
LLM 示例
在线服务示例

模型定义 API

层
函数
模型
插件
量化
运行时

C++ API

执行器
运行时

命令行参考

trtllm-build
trtllm-serve

架构

TensorRT-LLM 架构
模型定义
TensorRT-LLM 检查点
TensorRT-LLM 构建工作流程
添加模型

高级

多头、多查询和分组查询注意力
C++ GPT 运行时
执行器 API
图重写模块
使用执行器/cpp 运行时运行 gpt-2b + LoRA
TensorRT-LLM 中的专家并行性
KV 缓存重用
推测抽样
分离式服务（实验性）

性能

概览
基准测试
性能调优指南
性能分析

参考

问题排查
支持矩阵
数值精度
TensorRT-LLM 的内存使用情况

博客

H100 在 TensorRT-LLM 中的性能是 A100 的 4.6 倍，在 100 毫秒内达到 10,000 个令牌/秒的首个令牌
H200 在 Llama2-13B 上使用 TensorRT-LLM 实现了近 12,000 个令牌/秒
在单个 H200 GPU 上使用 INT4 AWQ 的 Falcon-180B，以及比 A100 快 6.7 倍的 Llama-70B
通过 TRT-LLM 中的 SOTA 量化技术加速推理
新的 XQA-kernel 在相同的延迟预算内提供 2.4 倍的 Llama-70B 吞吐量

LLM 示例

LLM 示例#

脚本

使用引导式解码生成文本
使用 logits 处理器控制生成的文本
生成文本
异步生成文本
以流式传输方式生成文本
通过自定义生成文本
分布式 LLM 生成
使用 Medusa 解码生成文本
使用量化生成
使用前瞻解码生成文本
使用 Eagle 解码生成文本
获取 KV 缓存事件
使用多个 LoRA 适配器生成文本
使用 LLM 实现自动并行化
Llm Mgmn Llm 分布式
Llm Mgmn Trtllm 基准测试
Llm Mgmn Trtllm 服务

上一个

LLM 常见自定义

下一个

在线服务示例

隐私政策 | 管理我的隐私 | 不要出售或分享我的数据 | 服务条款 | 无障碍访问 | 公司政策 | 产品安全 | 联系我们

版权所有 © 2025, NVidia。