
DeepSeek-V3 于 2024 年 12 月底發布,為開源自研 MoE 模型,共 671B 參數,激活 37B,在 14.8T token 上進行了預訓練。根據測試,DeepSeek-V3 的多項評測成績超越了 Qwen2.5-72B 和 Llama-3.1-405B 等其他開源模型,并在性能上和世界頂尖的閉源模型 GPT-4o 以及Claude-3.5-Sonnet 不分伯仲。從 API 定價看,DeepSeek-V3 每百萬輸入 tokens 0.5 元(緩存命中)/ 2 元(緩存未命中),每百萬輸出 tokens 8 元,遠低于其他廠商的頭部大模型。從訓練成本看,根據官方的《DeepSeek-V3 Technical Report》,在預訓練階段,在每萬億個 token 上訓練 DeepSeek-V3 只需要 18 萬個 H800 GPU 小時,即在擁有 2048 個 H800 GPU的集群上需要 3.7 天。因此,預訓練階段是在不到兩個月的時間內完成的,成本為 266.4 萬個 GPU 小時。再加上 11.9 萬個 GPU 小時用于擴展上下文長度和 5000 個 GPU 小時的后訓練,DeepSeek-V3 的總訓練成本僅為 278.8 萬個 GPU 小時。假設 H800 GPU 的租賃價格為 2 美元/每 GPU 小時,那總訓練成本僅為 557.6 萬美元(上述成本僅包括 DeepSeek-V3 的官方訓練,不包括與先前研究、架構、算法、數據和消融實驗相關的成本)。與 GPT-4 相比,上述成本不到其 1/10,DeepSeek-V3 的發布驗證了 AI 大模型低成本訓練的商業可行性。