多Token預測(MTP)模塊結構示意 2)模型蒸餾技術:模型蒸餾(Knowledge Distillation)是一種將大型復雜模型(教師模型)的知識遷移到小型高效模型(學生模型)的技術。其核心目標是在保持模型性能的同時,顯著降低模型的計算復雜度和存儲需求。DeepSeek 利用強大的教師(R1)模型生成或優化數據,幫助小模型更高效地學習,此外,DeepSeek 通過監督微調(SFT)的方式,將教師模型的知識遷移到學生模型中。 行業數據 下載Excel 下載圖片 原圖定位