跳到主要内容
返回顶部
Ctrl
+
K
TensorRT-LLM
选择版本
搜索
Ctrl
+
K
搜索
Ctrl
+
K
TensorRT-LLM
选择版本
目录
入门
概述
快速入门指南
主要特性
PyTorch 后端
发行说明
安装
在 Linux 上安装
在 Linux 上从源代码构建
在 Grace Hopper 上安装
LLM API
API 介绍
API 参考
示例
LLM 示例介绍
使用引导式解码生成文本
使用 logits 处理器控制生成的文本
生成文本
异步生成文本
流式生成文本
使用自定义生成文本
分布式 LLM 生成
使用 Medusa 解码生成文本
使用量化生成文本
使用 Lookahead 解码生成文本
使用 Eagle 解码生成文本
获取 KV 缓存事件
使用多个 LoRA 适配器生成文本
使用 LLM 自动并行
Llm Mgmn Llm 分布式
Llm Mgmn Trtllm 基准测试
Llm Mgmn Trtllm 服务
LLM 常用自定义项
LLM 示例
使用引导式解码生成文本
使用 logits 处理器控制生成的文本
生成文本
异步生成文本
流式生成文本
使用自定义生成文本
分布式 LLM 生成
使用 Medusa 解码生成文本
使用量化生成文本
使用 Lookahead 解码生成文本
使用 Eagle 解码生成文本
获取 KV 缓存事件
使用多个 LoRA 适配器生成文本
使用 LLM 自动并行
Llm Mgmn Llm 分布式
Llm Mgmn Trtllm 基准测试
Llm Mgmn Trtllm 服务
在线服务示例
Curl 聊天客户端
用于多模态的 Curl 聊天客户端
Curl 完成客户端
Genai Perf 客户端
OpenAI 聊天客户端
OpenAI 聊天客户端
OpenAI 完成客户端
模型定义 API
层
函数
模型
插件
量化
运行时
C++ API
执行器
运行时
命令行参考
trtllm-build
trtllm-serve
架构
TensorRT-LLM 架构
模型定义
TensorRT-LLM 检查点
TensorRT-LLM 构建工作流程
添加模型
高级
多头、多查询和组查询注意力
C++ GPT 运行时
执行器 API
图重写模块
使用执行器 / cpp 运行时运行 gpt-2b + LoRA
TensorRT-LLM 中的专家并行
KV 缓存重用
推测性采样
分解服务 (实验性)
性能
概述
基准测试
性能调优指南
基准测试默认性能
有用的构建时标志
调整最大批处理大小和最大令牌数
决定模型分片策略
FP8 量化
有用的运行时选项
性能分析
参考
故障排除
支持矩阵
数值精度
TensorRT-LLM 的内存使用情况
博客
在 TensorRT-LLM 中,H100 具有 4.6 倍的 A100 性能,在 100 毫秒内达到 10,000 个 token/秒 的首个 token
H200 在 Llama2-13B 上使用 TensorRT-LLM 实现了接近 12,000 个 token/秒
在单个 H200 GPU 上使用 INT4 AWQ 运行 Falcon-180B,并且比 A100 快 6.7 倍的 Llama-70B
使用 TRT-LLM 中 SOTA 量化技术加速推理
新的 XQA-kernel 在相同的延迟预算内提供 2.4 倍的 Llama-70B 吞吐量
搜索
错误
请激活 JavaScript 以启用搜索功能。
Ctrl
+
K