
Google 是 MoE 架構的早期探索者之一,OpenAI 實現了 MoE 的商業化落地。MoE 的理念起源于 1991 年的論文《Adaptive Mixture of Local Experts》。在 ChatGPT 問世之前,Google 已經有了較深入的 MoE 研究,典型代表是 20 年的 Gshard 和 21 年的開源 1.6 萬億Switch-Transformer 模型。23 年 3 月 GPT-4 問世,OpenAI 繼續走了閉源路線,沒有公布模型參數。但是據 SemiAnalysis 信息,GPT-4 的參數約 1.8 萬億,采用 MoE 架構,專家 數為 16, 每次推理調用兩個專家,生成 1 個 token 約激 活 2800 億參數(GPT-3 為 1750億參數),消耗 560 TFLOPs 算力。在 GTC 2024 演講上,黃仁勛展示了 GB200 訓練 GPT模型示意圖,給出的參數也是 GPT-MoE-1.8T,交叉印證。