跳到主要内容

Ctrl+K

TensorRT-LLM

TensorRT-LLM

目录

入门

概述
快速入门指南
主要特性
PyTorch 后端
发行说明

安装

在 Linux 上安装
在 Linux 上从源代码构建
在 Grace Hopper 上安装

LLM API

API 介绍
API 参考

示例

LLM 示例介绍
LLM 常见自定义项
LLM 示例
在线服务示例

模型定义 API

层
函数
模型
插件
量化
运行时

C++ API

执行器
运行时

命令行参考

trtllm-build
trtllm-serve

架构

TensorRT-LLM 架构
模型定义
TensorRT-LLM 检查点
TensorRT-LLM 构建工作流程
添加模型

高级

多头、多查询和组查询注意力
C++ GPT 运行时
执行器 API
图重写模块
使用 Executor / cpp 运行时运行 gpt-2b + LoRA
TensorRT-LLM 中的专家并行性
KV 缓存重用
推测采样
分离服务（实验性）

性能

概述
基准测试
性能调优指南
性能分析

参考

问题排查
支持矩阵
数值精度
TensorRT-LLM 的内存使用情况

博客

在 TensorRT-LLM 中，H100 的性能是 A100 的 4.6 倍，在 100 毫秒内达到 10,000 个 tok/s 的首个 token
H200 在 Llama2-13B 上使用 TensorRT-LLM 实现了接近 12,000 个 tokens/秒的速度
单个 H200 GPU 上的 Falcon-180B 采用 INT4 AWQ，Llama-70B 比 A100 快 6.7 倍
在 TRT-LLM 中使用 SOTA 量化技术加速推理
新的 XQA-kernel 在相同的延迟预算内提供 2.4 倍的 Llama-70B 吞吐量

在线服务示例

在线服务示例#

脚本

Curl 聊天客户端
用于多模态的 Curl 聊天客户端
Curl 完成客户端
Genai Perf 客户端
OpenAI 聊天客户端
OpenAI 聊天客户端
OpenAI 完成客户端

上一页

LLM 示例

下一页

Curl 聊天客户端

隐私政策 | 管理我的隐私 | 不要出售或分享我的数据 | 服务条款 | 辅助功能 | 公司政策 | 产品安全 | 联系方式

版权所有 © 2025, NVidia。