《Cui-基于高穩定性GPU集群的AI應用.pdf》由會員分享,可在線閱讀,更多相關《Cui-基于高穩定性GPU集群的AI應用.pdf(37頁珍藏版)》請在三個皮匠報告上搜索。
1、演講嘉賓:King.Cui,GMI CLOUD亞太區總裁1AI 出海趨勢與“提效”挑戰23GMI Cloud 高穩定性 GPU 集群架構解析與故障預防策略4AI Infra 選型思考快速認識一下 GMI Cloud5AI 應用開發最佳實踐快速認識一下 GMI Cloud1第一章節GMI Cloud:關注 AI 出海,打造 AI 時代的新基建臺灣唯一 NVIDIA 認證的 云服務提供商(NCP/NPN)亞太區 GPU優先分配權AI 工程師為開發者鑄就的 獨立 AI原生云平臺愿景以 AI-TSMC 之姿,引領智算革命使命鑄就全球領先的 AI CLOUDGMI Cloud:使命和愿景GMI Clou
2、d:戰略布局,服務全球加利福尼亞州 IDCx1 科羅拉多州 IDCx1德克薩斯州 IDCx1阿肯色州 IDCx2美國臺灣 臺北 IDCx2泰國 曼谷 IDCx1馬來西亞 吉隆坡 IDCx1AI 出海趨勢與“提效”挑戰2第二章節我們正處于“1999 年的互聯網”時代技術普及率2000199519902020200520102025201525%50%75%100%InternetSmartphonesAIGPT4/ChatGPT 影響的用戶也還非常有限,遠遠未到“技術普惠點”(mobile internet)0204060801001201402024/12024/22024/32024/420
3、24/52024/62024/72024/82024/92024/102024/112024/12MAU百萬中國 AI 應用 MAU 增長趨勢圖源:中國證券報產品9月 AI 應用 MAUMAU 增長值ChatGPT225.39M12.74%Talkie-AI(MiniMax)18.12M7.54%Cici(字節)12.19M7.56%QuestionAI(作業幫)10.23M7.27%Gauth(字節)9.61M112.73%Linky(昆侖萬維)3.16M6.43%Fotor1.02M4.06%中國 AI 出海加速,提效需求=算力需求截止至 2024 年 8 月,全球 AI WEB 產品總數
4、共 1717 個,其中中國 AI WEB 產品數量 280 個,出海 AI WEB 產品數量 95 個,較今年 1 月有明顯增長,中國 AI 企業在海外市場的布局正在加速?!俺龊!壁厔莸谋澈笫侵袊a品全球競爭力提升。所有 AI 應用的出海,只要涉及模型的訓練和推理,“算力”都是最核心的生產資料。AI 出海過程中,以算力為中心的生產矛盾逐漸增多AI Infra 穩定性下降花費更多時間、經濟的沉默成本國內算力資源不足,導致業務進展緩慢AI Infra 的建設經驗不足,軟件和硬件基礎設施構建需消耗大量時間及經濟成本供應商(機房、能源、設備等)可靠性、穩定性難保障,選型困難帶寬延遲遠大于推理帶來的延遲
5、,網絡問題占用過多研發精力、更高帶寬成本合規性問題造成常見問題148 次,即 30.1 的意外中斷來自各種 GPU 失效(包括 NVLink 總線)72 次,即 17.2 來自 HBM3 內存失效(700W 功耗過熱)19 次,來自 GPU SRAM17 次來自 GPU 處理器6 次來自 GPU 靜默數據錯誤6 次來自 GPU 散熱和傳感器其他錯誤來自軟件 bug、網線和網卡等方面GPU 集群在大規模 AI 訓練中的穩定性至關重要Meta 披露的報告顯示,為期 54 天的預訓練階段中,總共出現了466 次工作中斷,其中 47 次是計劃內的自動維護,419 次是意外的,且大部分都來自硬件問題,G
6、PU 又是最多的,占了其中的 58.7。維持 AI Infra 層的穩定性并不是一件簡單的事情!CPU 錯誤只出現了 2 次我們需要在組網、硬件、軟件、工程化等方面做大量工作,以減少 GPU 的掉卡率,保持任務的連續性,最大化 GPU 的使用效率!GPU 集群在大規模 AI 訓練中的穩定性至關重要GPU 集群穩定性模型訓練推理效率時間成本經濟成本GMI Cloud 高穩定性 GPU 集群架構解析與故障預防策略3第三章節PART ONE集群引擎產品競爭優勢-全棧 AI 應用平臺從 GPU 到應用,驅動智能化轉型平臺即服務基礎大模型行業大模型智能金融智能制造智能客服自動駕駛內容生成與創作更多應用安
7、全容器化高速存儲系統網路高性能GPU大容量存儲系統高帶寬數據通道虛擬化應用平臺層中間件層級IaaS 層級GPU 硬件架構.GMI 云集群引擎容器分布式訓練負載推理負載通用微服務彈性伸縮serverless 計算MPI operater網絡提供直連和云端入口IB 網絡虛擬化負載均衡服務GMI 云集群引擎AI/機器學習服務高性能計算Slurm 服務基礎設施即服務AI/機器學習計算HPC SlurmGPU 云計算存儲基于 NVME 和 RDMA 的高性能分布式存為不同類型場景提供最具新價比的存儲支持 1PB 容量以上的高性能分布式存儲IB 組網5XSpine 1Spine 8HGX-001HGX-0
8、32HGX-033HGX-064HGX-225HGX-256UFM-001UFM-002Leaf-SU8Leaf-SU1Leaf-SU1Leaf-SU8Spine 1Spine 8Spine 1Spine 88 x 400G4 x 400GLeaf-SU1Core group 2Core 1Core 32Core group 1Core 1Core 32Core group 8Core 1Core 32SLG 1SLG 2SLG 8SU 1SU 2SU 8萬卡集群的 IB 組網架構Leaf-SU8IB 組網通過 IB 網絡虛擬化技術 最大化利用 GPU 效能網絡資源隔離和管理將 InfiniB
9、and 網絡切分為多個子網允許應用程序或用戶獨立運行通過限制子網間訪問增強網絡安全性性能提升根據不同應用需求優化和調整虛擬化子網提升網絡性能和吞吐量實現更高效的數據傳輸和通信成本優化高效利用現有硬件資源降低硬件采購和維護成本簡化網絡部署和管理總體成本降低IB 組網基于 IB 網絡的多租戶 VPC 參考架構CustomersGMI Cloud operation&consultant teamsGMI Cloud(Region I)Secure zone VPC1(include network,computing resources)Customer application1 accountV
10、irtual Private Subnetfor messaging,data transfer,managementCustomer application1 clusterApplication node 1Application node 2Application node 3Secure Zone VPC2(include network,computing resources)Customer application2 accountApplication node 1Application node 2Application node 3Privateexternalgateway
11、Virtual Private Subnet for messaging,data transfer,managementCustomer application2 clusterApplication node XApplication node XOther datacenterVirtual private gatewayGMI Cloud direct connectGMI Cloud direct connectVirtual private gateway存儲Node/Container NVME DiskParallel distributed file system根據不同場景
12、分級存儲IO延遲存儲容量SATA-based Store for backup/data主動監控持續監控對于維持最佳性能和快速解決潛在問題至關重要實時告警主動問題檢測,自動告警即時發現系統問題問題確認智能診斷,Root Cause 分析準確定位問題原因快速自愈自動故障轉移,快速系統自愈最小化停機時間和無縫性能恢復主動監控監控系統功能概覽端到端檢測告警和通知實時儀表盤監控數據歷史記錄PART TWO驗證體系類別要求目的GPU 集群必須符合 Nvidia 架構標準確保硬件兼容性性能驗證對 AI/HPC 工作負載進行全面測試保證 AI/ML 任務的可靠性基礎設施審批全面審查網絡、存儲和計算組件確保
13、AI 工作負載的性能優化NCP 資格認證概覽Nvidia 驗證流程NCP 資格認證的關鍵要求步驟 1GPU 集群架構設計步驟 2Nvidia 對基礎設施的驗證步驟 3獲得 NCP 資格認證測試領域重點硬件測試驗證 GPU、CPU 和組件完整性系統測試確保系統配置和設置正確InfiniBand 和網絡測試測試網絡效率和低延遲鏈接CUDA 和存儲測試驗證 CUDA 性能和存儲容量AI 訓練和 HPC 驗證模擬真實 AI/HPC 工作負載以測試性能GMI Cloud GPU 集群測試概覽硬件測試系統配置測試網絡和存儲測試AI 和 HPC 工作負載驗證關鍵測試領域:交付前測試流程測試領域:工具重點硬件
14、測試 工具NVSM,Stress-ng,HPL對 GPU、CPU、內存、網卡進行壓力測試系統測試 工具MLPerf,Linpack驗證配置和性能基準測試網絡測試 工具IPERF,HPC-X ToolkitInfiniBand 吞吐量和延遲驗證存儲測試 工具FIO吞吐量、延遲和 IOPS 測量測試領域工具重點AI 訓練驗證TensorFlow,PyTorch,LLaMA,TensorBoard分布式訓練和 GPU 利用率HPC 工作負載測試cuFFT,cuBLAS,nvprof,Nsight Systems驗證大規模 FFT 和矩陣運算2.AI 訓練和 HPC 工作負載性能關鍵測試領域工具1.硬
15、件和系統完整性驗證的關鍵測試領域工具試流程GMI Cloud GPU 集群測試概覽PART THREE故障預防策略全面規劃預防故障IDC 規劃分層重保描述第一層通過內部監控和診斷進行初步響應第二層立即訪問本地備件庫存第三層上報給數據中心以快速更換設備,并由 IDC 現場技術人員直接執行GMI Cloud 與 IDC 協作,在每個數據中心維持高水平的備件和機器率,確保最小化停機時間??焖俑鼡Q如果發生組件故障(如 GPU、內存等),預先儲備的組件可以快速更換,不影響客戶運營。問題源頭追溯GMI Cloud 與 GPU 供應商、IDC合作伙伴間共筑了三角合作的關系,為客戶提供更高水平的服務、更貼近源
16、頭的問題追溯。SLA 簽訂承諾保障,月度正常運行時間百分比至少為99%,提供備件和維修的更短交付時間。7*24小時服務項目交接后,通過工單系統提供全年全天候的監控和支持服務技術咨詢為客戶提供 GMI Cloud相關的技術咨詢、售后技術培訓GMI Cloud 確保為客戶保持高系統穩定性減少停機時間快速解決硬件故障(24x7x365)全面規劃預防故障4第四章節如何選擇 GPU Cloud根據 AI 場景進行選擇根據業務需求進行選擇根據經濟情況進行選擇AION-DEMAND適用靈活的短期計算需求PRIVATE CLOUD適用長期穩定的工作負載兩種選擇5第五章節GMI Cloud 某大型互聯網在線招聘
17、平臺使用 GMI CLOUD 穩定且高速的算力平臺,完成招聘行業垂類大語言模型布建通用大模型管理(DashScope)GMI 訓練集群安全防護線上招募平臺智能幫手與安全守護職位描述生成智能發布職缺一鍵履歷優化互動式職位匹配職缺助手模型管理ML Ops加速器模型管理模型管理object、blob storageEmbedding數據庫存儲私有域數據安全測試自評估GMI 私有云集群部署基礎網絡安全預訓練模型GMI 某知名直播平臺 AI 語音聊天機器人AI 語音技術,提升實況主與觀眾的互動體驗技術設施基礎GMI Cloud 提供 GPU 算力支持大語言模型語音對文字,文字對多國語音機器人業務研發質量實時互動,超低延遲,商機零漏接歡迎關注 GMI Cloud演講嘉賓:King.Cui,GMI CLOUD亞太區總裁歡迎關注 GMI Cloud演講嘉賓:King.Cui,GMI CLOUD亞太區總裁歡迎關注 GMI Cloud演講嘉賓:King.Cui,GMI CLOUD亞太區總裁