DeepSeek-R1模型在多個基準測試中的表現超越OpenAI-o1模型的兩個版本mini和0912 DeepSeek的旗艦推理模型R1在多個基準測試中的表現超越當下全球AI行業領先的推理模型 OpenAI-o1。根據 DeepSeek-R1 公開的技術報告,經過額外的 SFT 階段和進一步的RL訓練完善后的R1,在AIME 2024、MATH-500、LiveCode Bench、CodeForces 等多個數學、編程測試集中獲得超越 OpenAI 的 o1 系列的分數,僅在考察物理化學生物的 GPQA Diamond 數據集上遜色于OpenAI-o1-0912。 行業數據 下載Excel 下載圖片 原圖定位