《14-高效 AI 基礎設施:業務靈活彈性 + 云端 GPU 瞬時供應 -Wei JiangYuan Mo.pdf》由會員分享,可在線閱讀,更多相關《14-高效 AI 基礎設施:業務靈活彈性 + 云端 GPU 瞬時供應 -Wei JiangYuan Mo.pdf(25頁珍藏版)》請在三個皮匠報告上搜索。
1、高效AI基礎設施:業務靈活彈性+云端GPU即時供應莫源/阿里云&姜偉/CloudPilot AI目錄業界挑戰01架構&實現03解決方案02Content總結04Q&A05業界挑戰Part 01業界挑戰成本高資源確定性差業務/節點彈性不足啟動速度受限云上GPU費用較高,如,AWS us-east-1 T4的花費高達$383.98/月。傳統集群伸縮關鍵時刻可能無法彈性足夠的計算資源,導致無法處理業務突發峰值。無法及時根據業務需求擴縮容導致資源的浪費/不足。GPU業務通常鏡像或所需運行文件巨大,導致啟動速度較慢。解決方案Part 02解決方案業務彈性伸縮KServe配置簡單,根據業務的請求并發量彈性
2、業務,確保高效響應。節點彈性伸縮Karpenter 提供節點資源彈性,最大化資源利用率,多實例類型選擇提升資源供給確定性,同時支持Spot實例以降低成本。數據讀取加速利用Fluid的分布式緩存,高性能讀取業務初始化文件。鏡像加速利用云廠商/開源的延遲加載技術(如AWS SOCI,nydus等),極速啟動大鏡像業務。-如AWS T4,相比按量,Spot實例能節省70%,其他云廠商類似。-GPU 業務通常涉及特定的容器鏡像和模型參數,例如運行大模型時需要使用vLLM 鏡像和 DeepSeek 模型參數文件。-根據統計顯示,在鏡像啟動的時候,平均只有 6.4%的數據被真正使用到。-Spot 實例是未
3、被使用的資源,價格低至 On-Demand 實例的 20-30%,但是存在隨時被中斷的風險.-Spot 價格和中斷率查詢工具:Spot Insights https:/spot.cloudpilot.ai/解決方案1934.5/月按量1272.0/月包月406.6/月競價(spot)ecs.r6.2xlarge數據來源:-https:/spot.cloudpilot.ai/alibabacloud?instance=ecs.r6.2xlarge#region=cn-beijing-https:/ A106958.7/月按量4575.6/月包月2436.0/月競價(spot)架構&實現Part
4、03總體架構KServe介紹KServe是一個開源的云原生模型服務平臺,旨在簡化在K8s上部署和運行機器學習模型的過程。支持多種推理框架如Pytorch、TF、XGBoost、HF彈性擴容能力灰度發布統一數據面APIGithub 地址:https:/ Service負責數據的Pre/Post處理Predictor Service負責提供推理服務。本次分享主要使用此ServiceStorage Initializer負責加載應用所需的數據/模型。目前支持S3、GCS、Azure云盤、HTTP/HTTPS網頁鏈接及PVCKServe介紹KServe 通過InferenceService CR 即可
5、快速配置服務,拉起服務和彈性服務。Karpenter介紹Karpenter 架構圖智能資源匹配如 Pod 需要 GPU 資源,Karpenter 自動彈性 GPU 實例。無需節點組直接根據集群需求創建節點。專為 Kubernetes 設計自動管理集群的節點擴縮容。靈活選型可自動選擇最適合的實例類型和規格。Karpenter介紹NodePool 關鍵特性l 用于管理節點(Node)配置的一種Karpenter 資源。l 聲明式定義:設定節點的硬件規格、容量等參數。l 精細化控制:支持標簽、污點等配置。l 自動化管理:優化節點創建與生命周期管理。Karpenter介紹NodeClass 關鍵特性l
6、 用于定義節點(Node)啟動配置的一種資源類型。l 聲明式管理:設定 AMI 鏡像、磁盤掛載、標簽等屬性。l 靈活配置:支持啟動參數等多維度配置。Karpenter介紹Binpack最大化節點利用率,盡可能將 Pod 填充到較少的節點上Rightsizing為 Pod 選擇最合適的實例類型,避免資源過?;虿蛔?通過多節點整合(binpacking)和單節點替換,實現更低的成本和更高的資源利用率。Karpenter介紹-不同云廠商中斷通知時間節點不一樣,AWS中斷提前2min通知,阿里云提前5min通知。CloudPilot AI能夠選擇中斷率更低的實例,同時自動替換將被中斷的實例。Spot
7、實例中斷處理流程l Spot 實例啟動:Karpenter 創建新節點。l 中斷通知:實例收到 2 分鐘終止警告。(不同云廠商中斷通知時間不一樣)l 遷移&替換:Karpenter 重新調度工作負載。l 實例刪除:釋放即將中斷的節點。Karpenter介紹相比 Cluster AutoScaler,Karpenter有如下優勢:更靈活:lNodePool 定義彈性節點類型lNodeClass 設定節點屬性(如鏡像)l無需依賴節點組,配置更簡單更快擴縮容:l直接調用云廠商 VM APIl比 CA 多層 API 交互,響應更快更高性價比:l穩定利用 Spot 實例l支持更多節點類型,優化成本與資源
8、利用存儲&鏡像加速-實測9GiB Model Size/從46s縮減到26s總結Part 04總結:高效AI云上基礎設施l利用Spot,實現接近70%的成本降低(g4dn.xlarge,NVIDIA T4)l數據來源:Spot Insights(spot.cloudpilot.ai)l利用Karpenter,實現底層GPU資源按需彈性,實現計算彈性免運維總結高度可自定義彈性免運維成本低Karpenter 負責云上節點資源的自動擴縮容,支持 CPU 和 GPU節點資源,提供以下卓越特性:高確定性的資源彈性通過簡化節點資源配置,支持將數百種實例類型納入資源池。在特定實例類型資源緊張時,Karpenter 能自動切換到其他實例,確保計算資源彈性調度成功。集群高資源利用率通過主動 binpacking和節點替換,提升集群的資源利用率,最大化節點的計算價值。極致成本優化支持使用 Spot 實例,針對可遷移節點的工作負載,實現極高的性價比,在保證服務穩定的同時大幅降低運行成本。配置簡化通過 CR(Custom Resource,自定義資源),快速定義彈性資源池屬性,實現資源擴縮容的高效自動化。Q&APart 05Q&A掃碼添加小助手加入 Karpenter 技術交流群掃碼關注公眾號獲取更多云成本優化實踐Karpenter Cloud Provider Repo:阿里云https:/