
Mistral 引發 MoE 關注,Google 掀起 MoE 浪潮,國內廠商跟隨發布 MoE 模型。23 年 12月,Mistral 開源 Mixtral-8x7B-MoE,以近 47 億的參數在多項測評基準上達到或超過 1750億參數的 GPT-3.5 水平,引發了全球開發者對 MoE 架構的再次關注。英偉達的研究主管Jim Fan 指出 MoE 將成為未來模型發展的重要趨勢。24 年 2 月,Google 將其最先進模型系列 Gemini 更新到 1.5 Pro,并指出架構上從稠密架構切換到 MoE 架構,實現了 1.5 Pro 模型性能 的大幅提升,核心能力超過 Gemini 1.0 Ultra。 國內外模型廠商隨即跟進發布 MoE相關模型,包括 xAI 開源的 Grok-1(23 年 10 月已實現 MoE,24 年開源)、MiniMax abab6、Databricks DBRX、AI21 Jamba、阿里 Qwen-1.5 MoE、昆侖萬維天工 3.0、階躍星辰 STEP 2、商湯日日新 5.0 等。