Deepseek-V2和其他模型的評價基準指標數值對比 在模型通用能力的表現評估上,Deepseek-V2 的中文綜合評分達到 7.91 分,英文綜合評分達到 8.97 分,在MMLU,GSM8K,MATH,BBH,HumanEval 等測試上分別拿到 77.8、92.2、53.9、79.7、81.1 分。在眾多開源模型中,Deepseek-V2 表現僅次于 70B 的開源模型 LLaMA3,超過了他們此前發布的 V1 代 67B 的非 MoE 模型。圖表 2 展示了 Deepseek-V2 和和其他模型的評價基準指標數值。 其它 下載Excel 下載圖片 原圖定位