
DeepSeek-V3、R1 兩款模型最讓人印象深刻的不僅在于其比肩業內最佳表現的性能,更在于超低的訓練成本:DeepSeek 在 V3 相關的論文中披露,V3 僅僅使用 2048 塊 H800 GPU 訓練 2 個月的時間,共消耗 278.8 萬 GPU 小時,而按照 OpenAI 創始成員之一 Andrej Karpathy 介紹,Llama3-405B 則消耗了 3080萬 GPU 小時,是 V3 的 11 倍;如果按照 H800 GPU 每小時 2 美金的租賃費用計算,意味著 V3 模型正式訓練僅僅需要 557.6 萬美金, 而此前同等性能的模型則需要 0.6-1 億美金。而 R1 模型是在 DeepSeek V3 的基礎上,通過引入大規模強化學習(Reinforcement Learning)和多階段訓練,進一步提升推理能力的模型,據專家判斷,在 V3 的基礎上生產 R1 模型的成本可能非常低廉。