
具體而言,DeepSeek-V3在知識類任務(MMLU, MMLU-Pro, GPQA, SimpleQA)上的水平相比前代 DeepSeek-V2.5顯著提升,接近當前表現最好的模型 Anthropic 公司于 2024年 10月發布的Claude-3.5-Sonnet-1022;在長文本評測(DROP、FRAMES 和 LongBench v2 )方面,V3平均表現也超越其他模型。在算法類代碼場景(Codeforces),V3 遠遠領先于市面上已有的全部非 o1 類模型,并在工程類代碼場景(SWE-Bench Verified)逼近 Claude-3.5-Sonnet-1022。而在美國數學競賽(AIME 2024, MATH)和全國高中數學聯賽(CNMO 2024)上,DeepSeek-V3大幅超過了其他所有開源閉源模型。