
DeepSeek-R1-Zero 采用組相對策略優化(GRPO)算法進行強化學習。DeepSeek-R1-Zero以 DeepSeek-V3為基礎模型,直接應用強化學習(RL),通過 Group Relative Policy Optimization(GRPO)算法優化模型策略,采用基于規則的獎勵模型引導訓練。DeepSeek-R1-Zero直接基于基礎模型(如 DeepSeek-V3-Base)通過大規模強化學習(RL)訓練,無需任何監督微調(SFT)數據,僅依賴規則化獎勵(如答案正確性、格式規范性)驅動模型自我進化。采用 GRPO(Group Relative Policy Optimization)算法,通過組內樣本的獎勵相對比優化策略模型,降低計算成本。