DeepSeek-R1-Zero訓練期間AIME準確率 而隨著 RL 訓練的持續推進,DeepSeek-R1-Zero 的性能呈現出穩步提升的趨勢。此外,通過延長測試時間的計算,DeepSeek-R1-Zero 自然而然地獲得了解決更復雜推理任務的能力,從生成數百個 token 到數千個 token,模型得以更深入地探索和優化其思維過程。模型的「思考過程」會不斷與最終的正確率獎勵相互作用。當模型最初得出的答案并未得到較高獎勵時,它會在后續的推理中「回頭反省」,嘗試補充或修正先前的思路,從而獲得更高的獎勵,通過這樣的方式,模型在沒有外部指導的情況下持續自主學習與迭代,最終具備了強大的推理能力。 行業數據 下載Excel 下載圖片 原圖定位