
V3 通過多頭潛在注意力(Multi-Head Latent Attention, MLA)機制提升推理效率。MLA 方法借助低秩鍵值聯合壓縮,可使 MLA 的性能優于 MHA,但所需的 KV 緩存量顯著減少,從而減少模型所需算力。在自回歸生成(如文本生成)過程中,模型需逐步生成每個 token,并緩存所有歷史 token 的 Key 和 Value 矩陣以供后續計算。若以圖書館管理作類比,圖書館有多個獨立研究小組(每個小組對應一個“頭”),MHA 方法中每個小組需要查閱完整的書籍庫(原始 Key 和Value)。此方法的優點是每個小組能深度研究不同領域(捕捉多樣化信息),成果全面。但缺點是 1)存儲壓力大,每個小組都要復制一套完整書籍(KV 緩存占用高);2)空間浪費,圖書館需要為每個小組開辟獨立書架(顯存爆炸)。MLA 類似在圖書館引入智能壓縮技術,將書籍轉換為精華摘要(低秩壓縮),每個小組(頭)根據摘要展開研究,必要時還原細節,這樣可以在降低 KV 緩存的同時維持模型性能。