
隨著模型規模的不斷增大,推理側的 Scaling Law 在提升模型性能方面的重要性愈發顯著。OpenAI 團隊通過大規模強化學習算法教會 o1 模型如何在高度數據高效的訓練過程中使用 CoT 進行高效思考,無論是隨著強化學習(train-time compute)的增加或是思考時間的增加(test-time compute),o1 的性能均會不斷提高。無獨有偶,DeepSeek團隊發現R1-Lite模型在數學競賽上的得分也與測試所允許思考的長度緊密相關,即CoT越長則推理結果越精準。因此我們認為,在當前 AI 發展階段,在預訓練階段之外,在后訓練階段對模型加大強化學習力度或在推理階段允許模型多思考一會兒,都能使模型的“智能”程度明顯提升。