:loudspeaker: 注意:以下数据使用 TensorRT-LLM v0.5。 v0.6 及更高版本有重大改进。 请参阅更新的 Llama 性能此处。
H200 在 Llama2-13B 上使用 TensorRT-LLM 达到近 12,000 tokens/秒#
TensorRT-LLM 对 新的 H200 GPU 的评估在单个 GPU 上实现了 Llama2-13B 上 11,819 个 token/s。 H200 比 H100 快高达 1.9 倍。 这种性能得益于 H200 更大、更快的 HBM3e 内存。
H200 FP8 最大吞吐量
模型 |
批量大小(1) |
TP(2) |
输入长度 |
输出长度 |
吞吐量(输出 token/s/GPU) |
---|---|---|---|---|---|
llama_13b |
1024 |
1 |
128 |
128 |
11,819 |
llama_13b |
128 |
1 |
128 |
2048 |
4,750 |
llama_13b |
64 |
1 |
2048 |
128 |
1,349 |
llama_70b |
512 |
1 |
128 |
128 |
3,014 |
llama_70b |
512 |
2 |
128 |
2048 |
1,654 |
llama_70b |
64 |
1 |
2048 |
128 |
341 |
llama_70b |
32 |
1 |
2048 |
128 |
303 |
初步测量性能,可能会发生变化。 TensorRT-LLM v0.5.0,TensorRT v9.1.0.4 | H200,H100 FP8。
(1) 给定 TP 配置支持的最大批量大小,以 2 的幂为单位。 (2) TP = 张量并行
其他性能数据可在 NVIDIA 数据中心深度学习产品性能 页面上找到,并很快在 TensorRT-LLM 的性能文档 中找到。
H200 vs H100#
与 H100 相比,H200 的 HBM3e 更大的容量和更快的内存使 LLM 的性能提高了高达 1.9 倍。 由于其对内存容量和带宽的依赖性,最大吞吐量得到了提高,这得益于新的 HBM3e。 对于大多数 ISL 而言,首个令牌延迟受计算限制,这意味着 H200 保持了与 H100 相似的首个令牌时间。
有关 H200 性能的实际示例
最大吞吐量 TP1: 在单个 H200 上使用 Llama-70B 的离线摘要场景 (ISL/OSL=2048/128) 比 H100 的性能高 1.9 倍。
最大吞吐量 TP8: 在完整的 HGX (TP8) H200 上使用 GPT3-175B 的在线聊天代理场景 (ISL/OSL=80/200) 比 H100 的性能高 1.6 倍。

初步测量性能,可能会发生变化。 TensorRT-LLM v0.5.0,TensorRT v9.1.0.4。 | Llama-70B:H100 FP8 BS 8,H200 FP8 BS 32 | GPT3-175B:H100 FP8 BS 64,H200 FP8 BS 128
跨 TP/BS 的最大吞吐量: H200 与 H100 上的最大吞吐量(3) 因模型、序列长度、BS 和 TP 而异。 下面显示了所有这些变量中每个 GPU 的最大吞吐量的结果。

初步测量性能,可能会发生变化。 TensorRT-LLM v0.5.0,TensorRT v9.1.0.4 | H200,H100 FP8。
(3) 每个 GPU 的最大吞吐量定义为每个 GPU 的最高 token/s,在 TP 配置和 BS 2 的幂之间扫描。
最新的 HBM 内存#
H200 是 NVIDIA 数据中心 GPU 产品组合中的最新成员。 为了最大限度地提高计算性能,H200 是第一个具有 HBM3e 内存的 GPU,其内存带宽为 4.8TB/s,比 H100 增加了 1.4 倍。 H200 还将 GPU 内存容量扩大了近 2 倍,达到 141 GB(千兆字节)。 更快、更大的 HBM 内存的结合,通过更快的吞吐量和每秒令牌数,加速了 LLM 模型推理性能。 这些结果是经过测量和初步的,随着 TensorRT-LLM 继续对 H200 进行优化,预计会有更多更新。