MoE模型訓練時僅激活一部分專家及參數 絡分配給最適合的專家模型,因此每個階段只有部分專家的參數被激活,從而減少了算力的消耗。例如,DeepSeek-V2-Lite 模型參數量為 16B,但每個 token 僅激活 2.4B 個參數;MiniMax-01 模型內使用 32 個專家模塊,雖然總參數量達到了 4560 億,但每個 token 激活的參數僅為 459 億。 行業數據 下載Excel 下載圖片 原圖定位