《Kimi 穩定高效的 LLM 基礎設施構建之道.pdf》由會員分享,可在線閱讀,更多相關《Kimi 穩定高效的 LLM 基礎設施構建之道.pdf(23頁珍藏版)》請在三個皮匠報告上搜索。
1、Kimi 穩定效的 LLM 基礎設施構建之道維嘯之暗系統程師01020304規模訓推集群的挑戰全鏈路穩定性提升效資源利強化學習中的混合部署錄01規模訓推集群的挑戰量的資源造成故障頻次變,如何快速監測并恢復實驗變得尤其重要機器頻繁故障戶的開發機、件存儲存在量的浪費情況,根據量動清理的策略未必是最優的。需要建效的資源使范式資源使不夠效線上推理呈現常明顯的潮汐效應,資源需要能動態的根據時間進分配,避免資源浪費推理潮汐效應強化學習中存在訓推兩種 workload,需要平衡者的資源占防資源分配不均衡RL 資源分配不均規模訓推集群的挑戰02The more you stabilize,the more y
2、ou save全鏈路穩定性提升區分好機器、壞機器 根據任務查詢機器異常事件PreCheck、周期巡檢CPU 側監控 py 和 torch C 調棧 GPU 側插 cuda event 監控調棧全鏈路監控在離線志分析 Tensorboard 異常指標檢測智能志分析時刻不在 async 存 ckpt ckpt 效管理和備份連續異步 checkpointP任務全命周期監控LMCVarysPreCheck、周期巡檢PreCheck 測試標準集合通訊性能情況 測試 GPU d2h 等性能指標 使訓練中創建的 group 做 group 通訊檢測,避免調度到故障機器上周期巡檢、故障維護、檢恢復 對機器 G
3、PU 故障、線故障、pcie 降速等等故障問題進周期巡檢 故障機器即維護,等待排空,嘗試重啟愈,如故障未修復,動化通知供應商介 故障機器修復后動進檢流程,動加集群調棧全鏈路監控CPU 調棧監控 周期記錄 py 調棧 任務奔潰之后記錄 torch 調棧 提供聚類信息供戶查看是否有異常代碼或機器GPU 調棧監控 分級插 CUDA event 導出 event 信息整合成時序圖智能志分析離線志聚合查詢 從任務的各種志中查詢,匹配些特殊的模式,尋找報錯的實際志 和機器故障聯動,展示導致個任務故障的所有誘因在線志監控 從 tensorboard、機器巡檢等在線監控指標中尋找當前任務是否有異常連續異步 c
4、heckpoint不間斷異步 checkpoint 實現損 async checkpoint saver 針對重要任務不間斷開啟異步 checkpoint 存儲 任務重啟能即基于最新的 checkpoint 啟動,并保證狀態完全致,避免算浪費Checkpoint 備份同步系統 針對短時間內新增量 checkpoint 的場景提供快速刪除舊 checkpoint 和抽樣備份 checkpoint 到對象存儲的功能 跨集群同步 checkpoint,快速從另個集群拉取訓練任務 可直接從對象數據中拉取 checkpoint 做規模實驗03Efficiency is all you need效資源利全
5、位 LLM 開發效率提升動態申請云上開發資源 在 ECS 基礎上通過容器化實現持任意 docker 鏡像的開發機 使 remote 的式交互式啟動 GPU 資源于 Debug,并基于 GPU 量做動浪費率監控 基于云 k8s 節點池動擴縮容功能,動態申請交互式 worker 便于做臨時調試和資源使任意級錄量統計 fscounter 實現任意級錄量監控 緩存每次掃描的量信息,避免每次都做全局掃描模型異步 eval Watch 訓練 checkpoint,對每個 checkpoint 異步做 eval跨區域多實驗靈活對 統托管 tensorboard 優化讀取速率,持任意實驗之間的 tensorb
6、oard 對 持實驗 merge,merge 之后的實驗互相對ECS 開發機CPU workerGPU worker彈性動 清理跨機房推理模型分發1重保服務,必須保證穩定運線上 Kimi 推理服務2優先級訓練任務不可搶占訓練任務3低優任務,使潮汐資源Spot 訓練任務4插空調度,隨時被搶占低優先級離線推理訓推多級潮汐系統訓推多級潮汐系統04RL Hybrid Deployment強化學習中的混合部署強化學習 Infra 的挑戰訓推是兩種不同的模式 訓練和推理框架跑的是兩套代碼,各有各的優化案,較難融合 訓推任務者的 checkpoint 格式不致 訓推任務互相切換造成 GPU 閑置浪費 訓推并
7、模式不致,需要的資源可能也不樣RL 有復雜的計算流程 訓推 pipeline 流程較復雜 訓推計算流對硬件的要求可能是不樣的 Rollout 期間由于請求回復度不致造成了尾問題導致整體速度變慢和資源浪費k1.5 RL System Overview and Partial Rolloutk1.5 Hybrid Deployment 利 sidecar 隔離環境 訓推共享資源,避免資源閑置 不落盤傳輸 weight 兼容訓推不同的并策略Greedy Rollout重點問題 多機推理和 weights 傳輸中動態調整 RDAM QoS Rollout 請求需要做動態負載均衡 Isolated Pod 和 Core Pod 可能是異構的優勢 最化利空閑和異構資源,提 rollout 速度THANKS模型正在重新定義軟件Large Language Model Is Redefining The Software