:loudspeaker: 注意：以下数据使用 TensorRT-LLM v0.5。 v0.6 及更高版本有重大改进。请参阅更新的 Llama 性能此处。

H200 在 Llama2-13B 上使用 TensorRT-LLM 达到近 12,000 tokens/秒#

TensorRT-LLM 对新的 H200 GPU 的评估在单个 GPU 上实现了 Llama2-13B 上 11,819 个 token/s。 H200 比 H100 快高达 1.9 倍。这种性能得益于 H200 更大、更快的 HBM3e 内存。

H200 FP8 最大吞吐量

模型	批量大小⁽¹⁾	TP⁽²⁾	输入长度	输出长度	吞吐量（输出 token/s/GPU）
llama_13b	1024	1	128	128	11,819
llama_13b	128	1	128	2048	4,750
llama_13b	64	1	2048	128	1,349
llama_70b	512	1	128	128	3,014
llama_70b	512	2	128	2048	1,654
llama_70b	64	1	2048	128	341
llama_70b	32	1	2048	128	303

_{初步测量性能，可能会发生变化。 TensorRT-LLM v0.5.0，TensorRT v9.1.0.4 | H200，H100 FP8。}

^{(1) 给定 TP 配置支持的最大批量大小，以 2 的幂为单位。} ^{(2) TP = 张量并行}

其他性能数据可在 NVIDIA 数据中心深度学习产品性能页面上找到，并很快在 TensorRT-LLM 的性能文档中找到。

H200 vs H100#

与 H100 相比，H200 的 HBM3e 更大的容量和更快的内存使 LLM 的性能提高了高达 1.9 倍。由于其对内存容量和带宽的依赖性，最大吞吐量得到了提高，这得益于新的 HBM3e。对于大多数 ISL 而言，首个令牌延迟受计算限制，这意味着 H200 保持了与 H100 相似的首个令牌时间。

有关 H200 性能的实际示例

最大吞吐量 TP1： 在单个 H200 上使用 Llama-70B 的离线摘要场景 (ISL/OSL=2048/128) 比 H100 的性能高 1.9 倍。

最大吞吐量 TP8： 在完整的 HGX (TP8) H200 上使用 GPT3-175B 的在线聊天代理场景 (ISL/OSL=80/200) 比 H100 的性能高 1.6 倍。

_{初步测量性能，可能会发生变化。 TensorRT-LLM v0.5.0，TensorRT v9.1.0.4。 | Llama-70B：H100 FP8 BS 8，H200 FP8 BS 32 | GPT3-175B：H100 FP8 BS 64，H200 FP8 BS 128}

跨 TP/BS 的最大吞吐量： H200 与 H100 上的最大吞吐量⁽³⁾ 因模型、序列长度、BS 和 TP 而异。下面显示了所有这些变量中每个 GPU 的最大吞吐量的结果。

_{初步测量性能，可能会发生变化。 TensorRT-LLM v0.5.0，TensorRT v9.1.0.4 | H200，H100 FP8。}

^{(3) 每个 GPU 的最大吞吐量定义为每个 GPU 的最高 token/s，在 TP 配置和 BS 2 的幂之间扫描。}

H200 在 Llama2-13B 上使用 TensorRT-LLM 达到近 12,000 tokens/秒#

H200 vs H100#

最新的 HBM 内存#