
SimpleQA)上的水平相比前代 DeepSeek-V2.5 顯著提升,接近當前表現最好的模型 Claude-3.5-Sonnet-1022;長文本測評方面,在 DROP、FRAMES 和 LongBench v2 上,DeepSeek-V3 平均表現超越其他模型;DeepSeek-V3 在算法類代碼場景(Codeforces),遠遠領先于市面上已有的全部非 o1 類模型,并在工程類代碼場景(SWE-Bench Verified)逼近 Claude-3.5-Sonnet-1022;在美國數學競賽(AIME 2024, MATH)和全國高中數學聯賽(CNMO 2024)上,DeepSeek-V3 大幅超過了所有開源閉源模型;DeepSeek-V3 與 Qwen2.5-72B 在教育類測評 C-Eval 和代詞消歧等評測集上表現相近,但在事實知識 C-SimpleQA 上更為領先。