
模型。評估結果表明,蒸餾的較小密集模型在基準上表現非常出色。DeepSeekR1-Distill-Qwen-7B 在 AIME 2024 上取得了 55.5% 的成績,超過了 QwQ-32B-Preview。此外,DeepSeek-R1-Distill-Qwen-32B 在 AIME 2024 上的得分為 72.6%,在 MATH-500 上為 94.3%,在 LiveCodeBench 上為 57.2%。這些結果明顯優于以前的開源模型,可與 o1-mini 相媲美。DeepSeek 開源了基于 Qwen2.5 和 Llama3 系列的 1.5B、7B、8B、14B、32B 和 70B 檢查點給社區。