當前位置：首頁 > 報告詳情

Kimi 穩定高效的 LLM 基礎設施構建之道.pdf

上傳人：山海編號：627093 2025-04-21 PDF PDF 23頁 4.42MB

該報告所屬合集： 2025QCon全球軟件開發大會-北京站嘉賓演講PPT合集

打包下載報告合集

文檔加載中……請稍候！
如果長時間未打開，您也可以點擊刷新試試。

下載報告到電腦，查找使用更方便

VIP專享文檔

書簽

分享

收藏

已收藏

版權投訴

/23

立即下載

word格式文檔無特別注明外均可編輯修改，預覽文件經過壓縮，下載原文更清晰！

三個皮匠報告文庫所有資源均是客戶上傳分享，僅供網友學習交流，未經上傳用戶書面授權，請勿作商用。

《Kimi 穩定高效的 LLM 基礎設施構建之道.pdf》由會員分享，可在線閱讀，更多相關《Kimi 穩定高效的 LLM 基礎設施構建之道.pdf（23頁珍藏版）》請在三個皮匠報告上搜索。

1、Kimi 穩定效的 LLM 基礎設施構建之道維嘯之暗系統程師01020304規模訓推集群的挑戰全鏈路穩定性提升效資源利強化學習中的混合部署錄01規模訓推集群的挑戰量的資源造成故障頻次變，如何快速監測并恢復實驗變得尤其重要機器頻繁故障戶的開發機、件存儲存在量的浪費情況，根據量動清理的策略未必是最優的。需要建效的資源使范式資源使不夠效線上推理呈現常明顯的潮汐效應，資源需要能動態的根據時間進分配，避免資源浪費推理潮汐效應強化學習中存在訓推兩種 workload，需要平衡者的資源占防資源分配不均衡RL 資源分配不均規模訓推集群的挑戰02The more you stabilize,the more y

2、ou save全鏈路穩定性提升區分好機器、壞機器根據任務查詢機器異常事件PreCheck、周期巡檢CPU 側監控 py 和 torch C 調棧 GPU 側插 cuda event 監控調棧全鏈路監控在離線志分析 Tensorboard 異常指標檢測智能志分析時刻不在 async 存 ckpt ckpt 效管理和備份連續異步 checkpointP任務全命周期監控LMCVarysPreCheck、周期巡檢PreCheck 測試標準集合通訊性能情況測試 GPU d2h 等性能指標使訓練中創建的 group 做 group 通訊檢測，避免調度到故障機器上周期巡檢、故障維護、檢恢復對機器 G

3、PU 故障、線故障、pcie 降速等等故障問題進周期巡檢故障機器即維護，等待排空，嘗試重啟愈，如故障未修復，動化通知供應商介故障機器修復后動進檢流程，動加集群調棧全鏈路監控CPU 調棧監控周期記錄 py 調棧任務奔潰之后記錄 torch 調棧提供聚類信息供戶查看是否有異常代碼或機器GPU 調棧監控分級插 CUDA event 導出 event 信息整合成時序圖智能志分析離線志聚合查詢從任務的各種志中查詢，匹配些特殊的模式，尋找報錯的實際志和機器故障聯動，展示導致個任務故障的所有誘因在線志監控從 tensorboard、機器巡檢等在線監控指標中尋找當前任務是否有異常連續異步 c

4、heckpoint不間斷異步 checkpoint 實現損 async checkpoint saver 針對重要任務不間斷開啟異步 checkpoint 存儲任務重啟能即基于最新的 checkpoint 啟動，并保證狀態完全致，避免算浪費Checkpoint 備份同步系統針對短時間內新增量 checkpoint 的場景提供快速刪除舊 checkpoint 和抽樣備份 checkpoint 到對象存儲的功能跨集群同步 checkpoint，快速從另個集群拉取訓練任務可直接從對象數據中拉取 checkpoint 做規模實驗03Efficiency is all you need效資源利全

5、位 LLM 開發效率提升動態申請云上開發資源在 ECS 基礎上通過容器化實現持任意 docker 鏡像的開發機使 remote 的式交互式啟動 GPU 資源于 Debug，并基于 GPU 量做動浪費率監控基于云 k8s 節點池動擴縮容功能，動態申請交互式 worker 便于做臨時調試和資源使任意級錄量統計 fscounter 實現任意級錄量監控緩存每次掃描的量信息，避免每次都做全局掃描模型異步 eval Watch 訓練 checkpoint，對每個 checkpoint 異步做 eval跨區域多實驗靈活對統托管 tensorboard 優化讀取速率，持任意實驗之間的 tensorb

6、oard 對持實驗 merge，merge 之后的實驗互相對ECS 開發機CPU workerGPU worker彈性動清理跨機房推理模型分發1重保服務，必須保證穩定運線上 Kimi 推理服務2優先級訓練任務不可搶占訓練任務3低優任務，使潮汐資源Spot 訓練任務4插空調度，隨時被搶占低優先級離線推理訓推多級潮汐系統訓推多級潮汐系統04RL Hybrid Deployment強化學習中的混合部署強化學習 Infra 的挑戰訓推是兩種不同的模式訓練和推理框架跑的是兩套代碼，各有各的優化案，較難融合訓推任務者的 checkpoint 格式不致訓推任務互相切換造成 GPU 閑置浪費訓推并

7、模式不致，需要的資源可能也不樣RL 有復雜的計算流程訓推 pipeline 流程較復雜訓推計算流對硬件的要求可能是不樣的 Rollout 期間由于請求回復度不致造成了尾問題導致整體速度變慢和資源浪費k1.5 RL System Overview and Partial Rolloutk1.5 Hybrid Deployment 利 sidecar 隔離環境訓推共享資源，避免資源閑置不落盤傳輸 weight 兼容訓推不同的并策略Greedy Rollout重點問題多機推理和 weights 傳輸中動態調整 RDAM QoS Rollout 請求需要做動態負載均衡 Isolated Pod 和 Core Pod 可能是異構的優勢最化利空閑和異構資源，提 rollout 速度THANKS模型正在重新定義軟件Large Language Model Is Redefining The Software

相關圖表

本文主要探討了大規模訓練推理集群的穩定性、資源高效利用、強化學習中的混合部署等關鍵問題。文章指出，為應對大規模資源帶來的挑戰，需要快速監測并恢復實驗，建立高效的資源使用范式；同時，線上推理存在明顯的潮汐效應，資源需動態分配以避免浪費。在強化學習中，訓練和推理框架的差異導致難以融合優化，checkpoint格式不一致，任務切換造成GPU閑置。文章提出，利用sidecar隔離環境、共享資源、不落盤傳輸weight等策略，可解決訓推任務資源分配不均和復雜的計算流程問題?？傊?，通過穩定性提升、資源高效利用和混合部署優化，大模型正在重新定義軟件開發。

"如何實現LLM的高效穩定構建？" "如何通過RL混合部署優化訓練與推理？" "如何應對大規模訓練推集群的挑戰？"

相關報告

聯系我們

0731-84720580
sgpjbg002
工作日 9:30 - 18:00

關于我們

侵權處理

關于我們

出版物經營許可證
工信部備案號：湘ICP備17000430號-2
公安備案號：湘公網安備43010402001071號

三個皮匠報告專業的行業報告下載站，每日更新，歡迎大家關注！

copyright@2008-2013 長沙景略智創信息技術有限公司版權所有
網站備案/許可證號：湘B2-20190120

客服

小程序

服務號

折疊

午夜网日韩中文字幕,日韩Av中文字幕久久,亚洲中文字幕在线一区二区,最新中文字幕在线视频网站