:loudspeaker: 注意:以下数据使用 TensorRT-LLM v0.5。 v0.6 及更高版本有重大改进。 请参阅更新的 Llama 性能此处

H200 在 Llama2-13B 上使用 TensorRT-LLM 达到近 12,000 tokens/秒#

TensorRT-LLM 对 新的 H200 GPU 的评估在单个 GPU 上实现了 Llama2-13B 上 11,819 个 token/s。 H200 比 H100 快高达 1.9 倍。 这种性能得益于 H200 更大、更快的 HBM3e 内存

H200 FP8 最大吞吐量

模型

批量大小(1)

TP(2)

输入长度

输出长度

吞吐量(输出 token/s/GPU)

llama_13b

1024

1

128

128

11,819

llama_13b

128

1

128

2048

4,750

llama_13b

64

1

2048

128

1,349

llama_70b

512

1

128

128

3,014

llama_70b

512

2

128

2048

1,654

llama_70b

64

1

2048

128

341

llama_70b

32

1

2048

128

303

初步测量性能,可能会发生变化。 TensorRT-LLM v0.5.0,TensorRT v9.1.0.4 | H200,H100 FP8。

(1) 给定 TP 配置支持的最大批量大小,以 2 的幂为单位。 (2) TP = 张量并行

其他性能数据可在 NVIDIA 数据中心深度学习产品性能 页面上找到,并很快在 TensorRT-LLM 的性能文档 中找到。

H200 vs H100#

与 H100 相比,H200 的 HBM3e 更大的容量和更快的内存使 LLM 的性能提高了高达 1.9 倍。 由于其对内存容量和带宽的依赖性,最大吞吐量得到了提高,这得益于新的 HBM3e。 对于大多数 ISL 而言,首个令牌延迟受计算限制,这意味着 H200 保持了与 H100 相似的首个令牌时间。

有关 H200 性能的实际示例

最大吞吐量 TP1: 在单个 H200 上使用 Llama-70B 的离线摘要场景 (ISL/OSL=2048/128) 比 H100 的性能高 1.9 倍。

最大吞吐量 TP8: 在完整的 HGX (TP8) H200 上使用 GPT3-175B 的在线聊天代理场景 (ISL/OSL=80/200) 比 H100 的性能高 1.6 倍。

H200 TPS

初步测量性能,可能会发生变化。 TensorRT-LLM v0.5.0,TensorRT v9.1.0.4。 | Llama-70B:H100 FP8 BS 8,H200 FP8 BS 32 | GPT3-175B:H100 FP8 BS 64,H200 FP8 BS 128

跨 TP/BS 的最大吞吐量: H200 与 H100 上的最大吞吐量(3) 因模型、序列长度、BS 和 TP 而异。 下面显示了所有这些变量中每个 GPU 的最大吞吐量的结果。

max throughput llama sweep

初步测量性能,可能会发生变化。 TensorRT-LLM v0.5.0,TensorRT v9.1.0.4 | H200,H100 FP8。

(3) 每个 GPU 的最大吞吐量定义为每个 GPU 的最高 token/s,在 TP 配置和 BS 2 的幂之间扫描。

最新的 HBM 内存#

H200 是 NVIDIA 数据中心 GPU 产品组合中的最新成员。 为了最大限度地提高计算性能,H200 是第一个具有 HBM3e 内存的 GPU,其内存带宽为 4.8TB/s,比 H100 增加了 1.4 倍。 H200 还将 GPU 内存容量扩大了近 2 倍,达到 141 GB(千兆字节)。 更快、更大的 HBM 内存的结合,通过更快的吞吐量和每秒令牌数,加速了 LLM 模型推理性能。 这些结果是经过测量和初步的,随着 TensorRT-LLM 继续对 H200 进行优化,预计会有更多更新。