當前位置:首頁 > 報告詳情

何穎鵬-唯品會如何基于Volcano與AI訓練場景提高集群利用率_0708(GOTC上海會場)(15頁).pdf

上傳人: 懶人 編號:82869 2022-07-14 15頁 866.85KB

word格式文檔無特別注明外均可編輯修改,預覽文件經過壓縮,下載原文更清晰!
三個皮匠報告文庫所有資源均是客戶上傳分享,僅供網友學習交流,未經上傳用戶書面授權,請勿作商用。

相關圖表

本文主要探討了如何通過使用CNCF分論壇專場中的Volcano與AI訓練場景,提高集群利用率。何穎鵬在2021年7月10日的會議上分享了五個關鍵點: 1. 使用Helm發布TFJobs,由tf-operator管理訓練任務流程。 2. 使用Volcano對TFJobs的任務容器進行批量調度。 3. 對tf-operator進行改造,按業務劃分Volcano隊列,并支持任務優先級。 4. 改造kubelet實現資源超賣,提高容器部署密度。 5. 通過自研的VPA,實現在容器運行時動態調整資源。 此外,文章還提到了Volcano架構和部署,以及VPA的設計方案和操作策略。VPA能夠實時監控本宿主機容器的cgroup秒級指標,并通過調用docker API實時調整容器資源,無需重啟容器。 在提高集群利用率方面,文章提出了一些解決方案,如對訓練任務進行批調度,避免任務碎片化;改造kubelet進行資源超賣,提高CPU使用率;實現VPA,實時動態調整容器資源。 現狀顯示,每日運行約200個訓練任務,運行時間平均為75分鐘,資源等待時間平均為40秒。宿主機CPU使用率平均為50%,90分位到達75%。未來的工作方向包括:1) 加強訓練任務容器資源監控;2) 支持按照label選取宿主機;3) 增強VPA功能,提升資源使用率。
如何通過Volcano提高TFJob的集群利用率? 如何實現TFJob容器資源的精細化管理? 如何解決資源超賣導致的CPU熱點問題?
客服
商務合作
小程序
服務號
折疊
午夜网日韩中文字幕,日韩Av中文字幕久久,亚洲中文字幕在线一区二区,最新中文字幕在线视频网站