
EPLB(Expert-Parallel Load Balancer,專家并行負載均衡)是 DeepSeek 提出一種用于優化 LLM 在專家并行架構中訓練效率的技術。它通過動態調整 MoE 模型中專家(子網絡)的分配,平衡 GPU 之間的工作負載,同時減少跨節點通信開銷。在專家并行中,不同專家被分配到不同 GPU 上,但各專家的負載會隨任務變化,因此保持 GPU 間負載平衡至關重要。正如 DeepSeek-V3 論文所述,工程師采用冗余專家策略,復制高負載專家,并通過啟發式方法將這些專家合理分配到 GPU 上,以確保負載均衡。此外,借助組限制專家路由(Group-Limited Expert Routing),工程師還盡量將同一組的專家放置在同一節點上,減少節點間數據傳輸。為了便于復現和部署,DeepSeek 在 eplb.py 中開源了 EP 負載平衡算法,該算法根據專家負載估算生成平衡的專家復制和放置方案。