當前位置:首頁 > 報告詳情

04-美團大數據及機器學習基礎設施云原生改造實踐-吳通.pdf

上傳人: 2*** 編號:122313 2023-04-03 54頁 14.03MB

word格式文檔無特別注明外均可編輯修改,預覽文件經過壓縮,下載原文更清晰!
三個皮匠報告文庫所有資源均是客戶上傳分享,僅供網友學習交流,未經上傳用戶書面授權,請勿作商用。

相關圖表

美團大數據及機器學習集群云原生改造實踐主要包括以下幾個方面: 1. 改造前架構場景特點:大數據和機器學習兩個大場景,大數據場景供需共構,對擴展性、可觀測性等訴求不高,機器故障率低;機器學習場景供需異構,對調度語義、擴展性、可觀測性、運維友好均有高訴求,機器故障率高。 2. 改造前痛點:擴展App類型復雜度高,依賴AM,用戶無感知,影響資源統計;支持GPU、RDMA、NPU等設備復雜度高;調度策略定制成本高;故障感知、監控、可觀測水平低。 3. 改造后架構:采用K8S VS YARN,改造控制面、節點端、存儲、網絡、監控告警、可觀測性等。 4. 自研調度器:支持多租戶配額管理,集群唯一調度器,支持搶占式調度,配額之上增加彈性量,提升資源利用率;支持劃分邏輯資源池,Pod自適應優選策略,減少GPU碎片;支持RDMA親和性調度,更好地支持高性能計算需求。 5. 未來規劃:完成大數據離線和實時場景的云原生改造,場景間混部提升資源效率,構建場景適配的調度能力,持續提升穩定性和資源效率。
云原生改造如何提升調度能力? 調度器如何實現Gang Scheduling? 日志架構如何優化以提高效率?
客服
商務合作
小程序
服務號
折疊
午夜网日韩中文字幕,日韩Av中文字幕久久,亚洲中文字幕在线一区二区,最新中文字幕在线视频网站