各模型微調示例數與準確度對比 到700億參數的R1蒸餾版本。這些模型基于Qwen和Llama等架構蒸餾,表明復雜的推理能力可以被封裝在更小、更高效的模型中。從論文結論看,蒸餾比單獨依賴強化學習訓練更為高效,且蒸餾與強化學習的結合可以進一步提升模型性能。? 2025年2月,科學家李飛飛團隊帶領以不到50美元的費用訓練了一個能力比肩DeepSeek-R1的s1模型,也展現了蒸餾模型的更多應用潛力。 行業數據 下載Excel 下載圖片 原圖定位