
從實驗結果上看,MLA 壓縮后實現的模型性能優于傳統的 MHA。雖然 GQA 和 MQA 也對傳統的 MHA 進行了壓縮,但是這兩種方法往往使得模型性能受損,表現不如 MHA。而從實驗結果上看,MLA 是優于 MHA 的:1)MLA 所需的 KV cache 相比其他幾種注意力機制更少;2)與 MHA 相比,MLA 在困難測評集上表現更好,且 MLA 的 KV cache 僅為 MHA的 14%(Small MoE)和 4%(Large MoE)(圖表 26)。2)DeepSeek V2 以 21B 的激活參數(共 236B 參數,每個 token 激活 8 個專家),達到了與開源 Llama 3 70B 可比的水平,在近似大小開源模型中表現優異。最終,DeepSeek V2 相比其前一代模型 DeepSeek 67B(稠密架構),性能更強,訓練成本節省 42.5%,KV cache 降低了 93.3%。