
我們認為,DeepSeek 的核心優勢為訓練/推理成本優化,為 AI 應用的星辰大海創造可能。比如(1)DeepSeek-V2,采用混合專家(MoE)架構,相較同規模稠密模型節省 42.5%計算資源;(2)DeepSeek-V3,采用 FP8 混合精度框架實現高效訓練,總成本較同類閉源模型降低 90%以上;(3)在推理專用模型(R 系列)中,DeepSeek-R1 通過大規模強化學習(RL)訓練,引入顯式思維鏈輸出機制,可自主優化推理邏輯鏈,在數學、代碼和推理任務方面均達到了與 OpenAI-o1 相當的性能,但推理成本僅為 OpenAI o1 系列的 1/30。(4)同時,通過知識蒸餾,推出 R1 的蒸餾版本 DeepSeek-R1-Distill-Qwen-7B、DeepSeek-R1-Distill-Qwen-32B,其中 DeepSeek-R1-Distill-Qwen-32B 在保持高基準準確率的同時,將推理功耗控制在低水平,顯著提升了企業級應用的可行性。