
發布會上英偉達表示 GB200 相較于 H200 在 1.8T 參數的 GPT-MoE 模型上的推理性能將提升 30 倍,然而,這一數據是基于一個非常特定的最佳場景得出的。需要明確的是,這一場景在理論上確實可以實現,但并不能完全代表市場中的普遍應用場景。解釋 30 倍性能提升的一個關鍵因素是將 GB200 NVL 在 FP4 下的性能與 H200 和 B200 在 FP8 量化下的性能進行對比,而且比較基準選取的是最不適合 H200 的 64GPU 張量并行,根據Semianalysis 模擬分析,這一情形下實際性能提升僅有 18 倍,如果在更貼近現實的情況下,性能提升幅度將更低。