1、大模型 AI Infra 挑戰與實踐MiniMax技術總監/星龍CATALOG目錄01 02 03 04數據存儲實踐與挑戰基礎設施現狀關于MiniMax大規模訓練集群構建05實踐收益PART ONEPART ONE0101A About MiniMaxbout MiniMax關于MiniMaxMiniMax 成立于 2021 年12月,是一家專注于推動通用人工智能技術突破的科技創業公司。我們的愿景是與用戶共創智能。自研文本、語音、圖像等多種模態通用大模型,包括萬億MoE大語言模型。MiniMax 開放平臺為企業及開發者提供安全、靈活、可靠的API服務。PART PART TWOTWO0 02
2、2Status of infrastructureStatus of infrastructure基礎設施現狀基礎設施現狀1 靈活性&成本的考量資源角度:混合CPU-云GPU-部分場景遷移IDC基礎組件角度:云原生公司高速發展穩定&高效 成本最優規?;?效果和成本收益MAX2 基礎環境業務全球化:切分國內外環境-海外業務/集群成本和靈活性:多云/IDC-混合云場景基礎設施復雜度高:Kubernetes 作為資源層抽象PART PART THREETHREE0 03 3數據數據處理實踐處理實踐與挑戰與挑戰Data Storage Practices&ChallengesData Storag
3、e Practices&Challenges1.1、數據處理-計算數據分布的挑戰 多模態/無結構化 多混合資源(GPU 來加速)工具鏈與技術棧的差異 資源利用/處理效率 數據量大1.2、數據處理-計算解決方案:計算引擎的遷移與混合使用Spark OperatorJob ControllerRay Operatork8s非結構化場景使用 Job Job 作為靈活性的補充作為靈活性的補充逐步改造為 RayRay解決計算效率和迭代效率解決計算效率和迭代效率的問題半結構化的場景保留保留SparkSpark選擇選擇 Spark Spark 的原因的原因遷移到遷移到 Job Job 的原因的原因遷移到遷移
4、到 Ray Ray 的原因的原因2、數據處理-存儲1、Posix 文件協議為主,提供 HDFS/S3 協議2、遠程緩存以及本地高速臨時讀寫3、數據處理-資源供給資源供給是制約數據處理速度的關鍵問題。集群維度:多個集群間做統一入口時間維度:利用好不同業務集群的空閑時間單機資源維度:利用好空閑 CPU/GPUPART PART FOURFOUR0 04 4大規模訓練集大規模訓練集群構建群構建Large-scale training cluster constructionLarge-scale training cluster construction1、平臺層架構入口層:統一平臺入口層,通過隊列
5、控制和分發集群層:基于 Volcano 二次開發的批調度器來作為資源分配的組件物理資源層:只用設備插件(非虛擬化)kubernetes 來管理裸金屬資源2、網絡架構FatTree 結構,Infiniband/RoCE NCCL 統一封裝,針對網絡特點/故障做優化 端到端優化最大化發揮不同集群優勢不同集群現狀Infiniband/RoCE 集群網絡top設計并行策略通信方式NCCL通信鏈路端到端構建定位止損方式硬件故障(難以定位和處理)Infiniband:優點:延遲低,Sharp(在網計算能力)缺點:黑盒,價格貴RoCE:優點:價格便宜,可控缺點:存在網絡擁塞問題Fat-Tree結構3、故障檢
6、測故障影響大,涉及底層多個硬件 框架/通信庫/平臺聯合檢測解決SpineLeaf1Leaf2NICPCleGPUGPU/MemoryHostNICPCleGPUGPU/MemoryNICPCleGPUGPU/MemoryLeaf/Spine 網絡鏈路擁塞Leaf/Spine 交換機故障交換機端口降速/FlappingNIC 網卡故障PCIe 降速Fabric-Manager 故障NVLink P2P 故障NVSwitch 故障GPU XID 錯誤 CPU/Memory 故障導致宕機PART PART F FIVEIVE0 05 5實踐實踐收益收益Practice&Practice&Benefits Benefits Future&Prospects實踐收益實踐收益 優化訓練效率,做 Profiling 提升訓練框架效率 端到端設計提升模型 MFU 調整機器排布和優化通信算法來降低通信耗時 迭代計算/存儲范式提升資源運行效率機器效率:標準化交付驗收和自檢自愈系統,降低故障率,減少人力消耗 優化技術選型降低學習上手成本工作效率:協作最佳實踐平臺化組織的效率: