跳到主要内容
Ctrl+K
TensorRT-LLM - Home TensorRT-LLM - Home

TensorRT-LLM

TensorRT-LLM - Home TensorRT-LLM - Home

TensorRT-LLM

目录

入门

  • 概览
  • 快速入门指南
  • 主要特性
  • PyTorch 后端
  • 发行说明

安装

  • 在 Linux 上安装
  • 在 Linux 上从源代码构建
  • 在 Grace Hopper 上安装

LLM API

  • API 介绍
  • API 参考

示例

  • LLM 示例介绍
    • 使用引导式解码生成文本
    • 使用 logits 处理器控制生成的文本
    • 生成文本
    • 异步生成文本
    • 以流式传输方式生成文本
    • 通过自定义生成文本
    • 分布式 LLM 生成
    • 使用 Medusa 解码生成文本
    • 使用量化生成
    • 使用前瞻解码生成文本
    • 使用 Eagle 解码生成文本
    • 获取 KV 缓存事件
    • 使用多个 LoRA 适配器生成文本
    • 使用 LLM 实现自动并行化
    • Llm Mgmn Llm 分布式
    • Llm Mgmn Trtllm 基准测试
    • Llm Mgmn Trtllm 服务
  • LLM 常见自定义
  • LLM 示例
    • 使用引导式解码生成文本
    • 使用 logits 处理器控制生成的文本
    • 生成文本
    • 异步生成文本
    • 以流式传输方式生成文本
    • 通过自定义生成文本
    • 分布式 LLM 生成
    • 使用 Medusa 解码生成文本
    • 使用量化生成
    • 使用前瞻解码生成文本
    • 使用 Eagle 解码生成文本
    • 获取 KV 缓存事件
    • 使用多个 LoRA 适配器生成文本
    • 使用 LLM 实现自动并行化
    • Llm Mgmn Llm 分布式
    • Llm Mgmn Trtllm 基准测试
    • Llm Mgmn Trtllm 服务
  • 在线服务示例
    • Curl 聊天客户端
    • 多模态 Curl 聊天客户端
    • Curl 完成客户端
    • Genai Perf 客户端
    • OpenAI 聊天客户端
    • OpenAI 聊天客户端
    • OpenAI 完成客户端

模型定义 API

  • 层
  • 函数
  • 模型
  • 插件
  • 量化
  • 运行时

C++ API

  • 执行器
  • 运行时

命令行参考

  • trtllm-build
  • trtllm-serve

架构

  • TensorRT-LLM 架构
  • 模型定义
  • TensorRT-LLM 检查点
  • TensorRT-LLM 构建工作流程
  • 添加模型

高级

  • 多头、多查询和分组查询注意力
  • C++ GPT 运行时
  • 执行器 API
  • 图重写模块
  • 使用执行器/cpp 运行时运行 gpt-2b + LoRA
  • TensorRT-LLM 中的专家并行性
  • KV 缓存重用
  • 推测抽样
  • 分离式服务(实验性)

性能

  • 概览
  • 基准测试
  • 性能调优指南
    • 基准测试默认性能
    • 有用的构建时标志
    • 调整最大批处理大小和最大令牌数
    • 确定模型分片策略
    • FP8 量化
    • 有用的运行时选项
  • 性能分析

参考

  • 问题排查
  • 支持矩阵
  • 数值精度
  • TensorRT-LLM 的内存使用情况

博客

  • H100 在 TensorRT-LLM 中的性能是 A100 的 4.6 倍,在 100 毫秒内达到 10,000 个令牌/秒的首个令牌
  • H200 在 Llama2-13B 上使用 TensorRT-LLM 实现了近 12,000 个令牌/秒
  • 在单个 H200 GPU 上使用 INT4 AWQ 的 Falcon-180B,以及比 A100 快 6.7 倍的 Llama-70B
  • 通过 TRT-LLM 中的 SOTA 量化技术加速推理
  • 新的 XQA-kernel 在相同的延迟预算内提供 2.4 倍的 Llama-70B 吞吐量
  • LLM 示例

LLM 示例#

脚本

  • 使用引导式解码生成文本
  • 使用 logits 处理器控制生成的文本
  • 生成文本
  • 异步生成文本
  • 以流式传输方式生成文本
  • 通过自定义生成文本
  • 分布式 LLM 生成
  • 使用 Medusa 解码生成文本
  • 使用量化生成
  • 使用前瞻解码生成文本
  • 使用 Eagle 解码生成文本
  • 获取 KV 缓存事件
  • 使用多个 LoRA 适配器生成文本
  • 使用 LLM 实现自动并行化
  • Llm Mgmn Llm 分布式
  • Llm Mgmn Trtllm 基准测试
  • Llm Mgmn Trtllm 服务

上一个

LLM 常见自定义

下一个

在线服务示例

NVIDIA NVIDIA
隐私政策 | 管理我的隐私 | 不要出售或分享我的数据 | 服务条款 | 无障碍访问 | 公司政策 | 产品安全 | 联系我们

版权所有 © 2025, NVidia。