《1-高校云原生深度學習訓練推理平臺的實踐與創新.pdf》由會員分享,可在線閱讀,更多相關《1-高校云原生深度學習訓練推理平臺的實踐與創新.pdf(23頁珍藏版)》請在三個皮匠報告上搜索。
1、云原生深度學習訓練平臺在高校的實踐與創新沃天宇|北京航空航天大學教授目錄01高校集群資源管理的現狀與挑戰CONTENTS02自研深度學習訓推平臺的實踐與創新03平臺在高??蒲泄ぷ鞯膽贸尚?4平臺開源與未來展望集群資源管理需求深度學習應用場景廣泛AI服務器占比的增長中國GPU市場規模預估(億美元)深度學習需求的興起深度學習技術有著廣泛應用,大模型進一步增加了資源需求。研究深度學習通常需要高性能的硬件資源,例如 GPU。2025年國內GPU市場規?;驅⒊^1200億元。高校對集群資源管理的需求GPU成本高,搭建多租戶集群是常見方法。研究機構搭建超算中心,提供 GPU 等計算資源供研究者使用。Sl
2、urm 作業調度系統在高校有著廣泛的使用。01基于 modules 的環境管理方式難以滿足多樣化的深度學習軟件包版本需求,用戶習慣使用 Conda 管理環境。即使用戶存在相同的任務也難以復用環境,對存儲空間消耗大。環境配置復雜02Conda 中包含大量小文件,分布式存儲系統在頻繁小文件讀寫時面臨性能挑戰,影響深度學習數據存儲和讀取效率。難以遵循分布式存儲系統使用的最佳實踐。文件讀寫瓶頸03監控系統覆蓋不夠全面,無法實時準確地監控任務的運行狀態和資源使用情況。問題排查困難,影響系統的穩定性??捎^測性不足現有資源管理系統的局限性推廣云原生技術面臨的難題技術學習曲線陡峭,需要投入大量時間和精力進行學
3、習和掌握。實踐教學案例匱乏,缺乏與高??蒲袌鼍熬o密結合的云原生應用案例。高校助力云原生科研創新高校作為前沿技術研究的重要陣地,為云原生技術的理論發展與工程實踐提供了豐富的創新土壤。容器化和云原生技術能夠有效解決深度學習環境配置復雜、資源管理困難等問題,提升科研效率。云原生在高校的機遇與挑戰深度學習訓練平臺設計異構硬件資源分布式存儲接入異構算力資源接入(Device Plugin)作業隊列模塊Volcano 批處理調度器調度器模塊多租戶GPU動態超賣調度器交互式/批處理任務信息同步控制器模塊模型/鏡像/數據集管理監控運維模塊集群/節點/作業多維度監控作業運行期間性能分析作業日志與調試用戶界面模塊
4、多類型任務提交資源狀態跟蹤任務運行情況分析多租戶/多優先級1.多類型作業支持提供單機交互式作業、單機批處理作業、多機分布式批處理作業等多類型作業支持。網頁版 Jupyter Lab通過 VSCode 連接到交互式作業1.多類型作業支持提供單機交互式作業、單機批處理作業、多機分布式批處理作業等多類型作業支持。提交批處理作業運行 Pytorch 分布式作業2.環境配置流程簡化鼓勵用戶在容器中進行環境配置,但大部分同學不熟悉 Docker 等容器技術,為此提供了多種構建方式。2.環境配置流程簡化我不熟悉 Dockerfile 編寫,想要Python3.7 Cuda11.7 Cudnn8 的基礎環境,
5、最好還支持 Jupyter2.環境配置流程簡化我在交互式作業里運行了pip install xformers希望能保存我的改動3.多種調度策略適配支持開源的 Volcano 調度器和自研的多租戶 GPU 共享調度器,滿足不同場景需求。自研GPU共享調度器3.1 作業指標采集獨占GPU作業數據集構建模型選?。?6個常見的深度學習模型不同的超參數組合:batch size、混合精度等細粒度的硬件資源指標收集:SM相關指標、內存拷貝利用率、DRAM利用率、PCIE傳輸速率、顯存占用、內存占用、CPU使用率等。運行速率數據收集。作業混部數據集構建顯存限制:限制混部作業的顯存不溢出。性能衰減率數據收集:
6、通過混部前后的運行速率計算出混部后的每個作業的性能衰減率。2-3個任務混跑數據,共7000+條數據。獨占作業指標指標描述model模型dataset數據集gpu_numGPU個數batchsize批次大小amp是否開啟混合精度speed迭代運行的速度iter_avg_ms每個迭代運行的時間gpu_util_avg/max/stdGPU利用率指標sm_active_avg/max/stdSM活躍度指標sm_occupancy_avg/max/stdSM占用率指標mem_copy_util_avg/max/std內存拷貝利用率指標dram_util_avg/max/stdDRAM利用率指標pcie
7、_tx/rx_avg/max/stdPCIE傳輸速率指標gpu_mem_maxGPU顯存占用最大值cpu_mem_maxCPU內存占用最大值cpu_usageCPU使用率指標描述co_speed混部后的運行速率decay混部后的性能衰減率cosum_metric混部后利用率數據加和混部作業指標3.2 作業性能干擾分析建模輸入作業獨占GPU的利用率信息混部作業的利用率信息加和:背景干擾輸出混部后作業的性能衰減率列表模型評估ModelMSEScore隨機森林模型(RF)0.0060990.902111梯度提升樹模型(GDB)0.0072300.883967支持向量回歸模型(SVR)0.008297
8、0.866837線性回歸模型0.0138680.777418貝葉斯嶺回歸模型0.0138720.777351AdaBoost回歸模型0.0149600.7598873.3 多租戶GPU共享調度策略自研多租戶GPU共享調度器,通過作業 Profile、性能干擾分析、執行時間預測等,可提高GPU利用率10%。4.可觀測能力完善提供集群維度、節點維度、作業維度等多種監控面板。集群維度:全局利用率、流量監控等節點維度:單節點的 GPU 使用、作業運行情況等4.可觀測能力完善提供集群維度、節點維度、作業維度等多種監控面板。作業維度:展示作業的多維細粒度指標空閑資源查詢:輔助用戶選擇作業規格5.模型和數據
9、集管理提供文件管理、模型管理、數據集管理等,支撐訓練、微調等科研工作。模型管理在作業中使用模型和數據集6.Crater 系統架構平臺搭建于開源項目之上,同時將多維配額、分布式存儲接入等功能,反饋上游社區?,F場演示應用成效平臺自 24 年 12 月開始內部測試,逐步取代自 19 年開始運行的 Slurm 調度系統,目前:220+服務用戶6200+運行作業330+制作鏡像41%A100 平均利用率220+納管 GPU1.1PB存儲數據57%鏡像保存占比16%V100 平均利用率逐步開源中,未來將繼續擴展平臺在國產硬件、工作流編排、異常檢測等方面的能力促進高??蒲匈Y源共享與協同創新構建高校云原生技術社區與生態系統推動云原生技術在高校的普及與應用平臺開源與未來展望Crater Repo:Github:https:/