
MoE 的特點在于可通過指令微調技術大幅提升語言模型性能。MoE 可在不增加推理成本的情況下,為大型語言模型(LLM)增加可學習的參數,能夠解決模型規模擴展導致訓練成本顯著增加的問題,結合指令調優后,MoE 模型(Flan-MoE)在多個任務上的表現超越了更大的密集模型,同時 MoE 模型的計算成本只是密集模型的三分之一。2023 年 12 月,Mistral AI 發布了首個開源 MoE 大模型 Mistral 8x7B,其包含 47B 參數,在每個時間步長內只有 2 個專家處于活躍狀態,對每個輸入 token 只使用了 13B 參數,因此比普通的非 MoE 47B 參數模型要高效得多,性能達到 Llama 2 70B 和 GPT-3.5 的水平。