當前位置:首頁 > 報告詳情

火山引擎:云原生機器學習系統落地和實踐(2023)(20頁).pdf

上傳人: 一*** 編號:122384 2023-04-16 20頁 7.89MB

word格式文檔無特別注明外均可編輯修改,預覽文件經過壓縮,下載原文更清晰!
三個皮匠報告文庫所有資源均是客戶上傳分享,僅供網友學習交流,未經上傳用戶書面授權,請勿作商用。

相關圖表

火山引擎高級工程師郭海青在 2023 年 3 月 27 日介紹了云原生機器學習系統落地與實踐。主要內容包括:1) 負載特性:在線推理服務強調延遲和效果并重,NUMA 綁定和異構設備支持;離線訓練服務要求 PS 存儲模型參數,Worker 計算更新梯度,對穩定性要求較高,單個異常需要進行 failover,而 Worker 容忍部分異常。2) 云原生化的動機:統一在離線編排調度體系,實現資源池化,提高資源流轉效率和利用率;利用 K8s 提高用戶體驗。3) Godel 調度系統:支持 Dispatcher 調度任務分發,Scheduler 實際調度和搶占,Binder 解決調度沖突等。4) Katalyst 資源管控系統:通過 Katalyst Agent、CNR、QRM Plugins、SysAdvisor 等實現資源收集、上報、管控和調度。5) GPU 利用率提升實踐:通過 MPS + Bytecuda 實現 GPU 共享,Bytecuda 監控顯存使用情況并保證其在請求的 quota 之內,實現 GPU 常態混部。6) 未來展望:池化精細化,靈活高效的拆借,統一聯邦,精細化調度,減少碎片,動態、靈活的 scaling 機制。
"云原生機器學習系統如何提高GPU利用率?" "離線訓練中,PS-Worker架構和Ring AllReduce架構有何不同?" "如何通過Katalyst資源和GPU常態混部實現資源優化和管理?"
客服
商務合作
小程序
服務號
折疊
午夜网日韩中文字幕,日韩Av中文字幕久久,亚洲中文字幕在线一区二区,最新中文字幕在线视频网站