
力墻”。Facebook研究人員在PaLM論文中引入了模型FLOPs利用率(MFU)來衡量訓練中算力的飽和程度,但對于推理,更相關的指標是模型帶寬利用率(MBU)。MBU定義為實際消耗的內存帶寬除以硬件峰值帶寬。在純memory-bound情況下,MBU接近100%,此時進一步增加算力無濟于事,只有提高帶寬或減少數據量才能加速。很多大模型推理場景下MBU都很高,而MFU偏低。例如Llama-2 70B在批量1時GPU計算利用較低,但HBM帶寬幾乎被吃滿。工程上會采用批處理等手段提高每次計算處理的token數,從而用額外吞吐換取更高效率。但在極端情況下(如單用戶長文本生成),序列步驟無法并行,此時很難擺脫帶寬瓶頸。Databricks實測H100集群相比A100在相同模型上Batch Size 1 延遲降低36%,在Batch Size 16延遲降低52%,但簡單“堆砌算力”(增加更多卡)效果并不顯著。