當前位置：首頁 > 報告詳情

1-高校云原生深度學習訓練推理平臺的實踐與創新.pdf

上傳人： Fl****zo 編號：624491 2025-03-31 PDF PDF 23頁 3.04MB

該報告所屬合集： 2025第十二屆開源操作系統年度技術會議（OS2ATC）嘉賓演講PPT合集

打包下載報告合集

文檔加載中……請稍候！
如果長時間未打開，您也可以點擊刷新試試。

下載報告到電腦，查找使用更方便

VIP專享文檔

書簽

分享

收藏

已收藏

版權投訴

/23

立即下載

word格式文檔無特別注明外均可編輯修改，預覽文件經過壓縮，下載原文更清晰！

三個皮匠報告文庫所有資源均是客戶上傳分享，僅供網友學習交流，未經上傳用戶書面授權，請勿作商用。

《1-高校云原生深度學習訓練推理平臺的實踐與創新.pdf》由會員分享，可在線閱讀，更多相關《1-高校云原生深度學習訓練推理平臺的實踐與創新.pdf（23頁珍藏版）》請在三個皮匠報告上搜索。

1、云原生深度學習訓練平臺在高校的實踐與創新沃天宇|北京航空航天大學教授目錄01高校集群資源管理的現狀與挑戰CONTENTS02自研深度學習訓推平臺的實踐與創新03平臺在高?？蒲泄ぷ鞯膽贸尚?4平臺開源與未來展望集群資源管理需求深度學習應用場景廣泛AI服務器占比的增長中國GPU市場規模預估（億美元）深度學習需求的興起深度學習技術有著廣泛應用，大模型進一步增加了資源需求。研究深度學習通常需要高性能的硬件資源，例如 GPU。2025年國內GPU市場規?；驅⒊^1200億元。高校對集群資源管理的需求GPU成本高，搭建多租戶集群是常見方法。研究機構搭建超算中心，提供 GPU 等計算資源供研究者使用。Sl

2、urm 作業調度系統在高校有著廣泛的使用。01基于 modules 的環境管理方式難以滿足多樣化的深度學習軟件包版本需求，用戶習慣使用 Conda 管理環境。即使用戶存在相同的任務也難以復用環境，對存儲空間消耗大。環境配置復雜02Conda 中包含大量小文件，分布式存儲系統在頻繁小文件讀寫時面臨性能挑戰，影響深度學習數據存儲和讀取效率。難以遵循分布式存儲系統使用的最佳實踐。文件讀寫瓶頸03監控系統覆蓋不夠全面，無法實時準確地監控任務的運行狀態和資源使用情況。問題排查困難，影響系統的穩定性?？捎^測性不足現有資源管理系統的局限性推廣云原生技術面臨的難題技術學習曲線陡峭，需要投入大量時間和精力進行學

3、習和掌握。實踐教學案例匱乏，缺乏與高?？蒲袌鼍熬o密結合的云原生應用案例。高校助力云原生科研創新高校作為前沿技術研究的重要陣地，為云原生技術的理論發展與工程實踐提供了豐富的創新土壤。容器化和云原生技術能夠有效解決深度學習環境配置復雜、資源管理困難等問題，提升科研效率。云原生在高校的機遇與挑戰深度學習訓練平臺設計異構硬件資源分布式存儲接入異構算力資源接入(Device Plugin)作業隊列模塊Volcano 批處理調度器調度器模塊多租戶GPU動態超賣調度器交互式/批處理任務信息同步控制器模塊模型/鏡像/數據集管理監控運維模塊集群/節點/作業多維度監控作業運行期間性能分析作業日志與調試用戶界面模塊

4、多類型任務提交資源狀態跟蹤任務運行情況分析多租戶/多優先級1.多類型作業支持提供單機交互式作業、單機批處理作業、多機分布式批處理作業等多類型作業支持。網頁版 Jupyter Lab通過 VSCode 連接到交互式作業1.多類型作業支持提供單機交互式作業、單機批處理作業、多機分布式批處理作業等多類型作業支持。提交批處理作業運行 Pytorch 分布式作業2.環境配置流程簡化鼓勵用戶在容器中進行環境配置，但大部分同學不熟悉 Docker 等容器技術，為此提供了多種構建方式。2.環境配置流程簡化我不熟悉 Dockerfile 編寫，想要Python3.7 Cuda11.7 Cudnn8 的基礎環境，

5、最好還支持 Jupyter2.環境配置流程簡化我在交互式作業里運行了pip install xformers希望能保存我的改動3.多種調度策略適配支持開源的 Volcano 調度器和自研的多租戶 GPU 共享調度器，滿足不同場景需求。自研GPU共享調度器3.1 作業指標采集獨占GPU作業數據集構建模型選?。?6個常見的深度學習模型不同的超參數組合：batch size、混合精度等細粒度的硬件資源指標收集：SM相關指標、內存拷貝利用率、DRAM利用率、PCIE傳輸速率、顯存占用、內存占用、CPU使用率等。運行速率數據收集。作業混部數據集構建顯存限制：限制混部作業的顯存不溢出。性能衰減率數據收集：

6、通過混部前后的運行速率計算出混部后的每個作業的性能衰減率。2-3個任務混跑數據，共7000+條數據。獨占作業指標指標描述model模型dataset數據集gpu_numGPU個數batchsize批次大小amp是否開啟混合精度speed迭代運行的速度iter_avg_ms每個迭代運行的時間gpu_util_avg/max/stdGPU利用率指標sm_active_avg/max/stdSM活躍度指標sm_occupancy_avg/max/stdSM占用率指標mem_copy_util_avg/max/std內存拷貝利用率指標dram_util_avg/max/stdDRAM利用率指標pcie

7、_tx/rx_avg/max/stdPCIE傳輸速率指標gpu_mem_maxGPU顯存占用最大值cpu_mem_maxCPU內存占用最大值cpu_usageCPU使用率指標描述co_speed混部后的運行速率decay混部后的性能衰減率cosum_metric混部后利用率數據加和混部作業指標3.2 作業性能干擾分析建模輸入作業獨占GPU的利用率信息混部作業的利用率信息加和：背景干擾輸出混部后作業的性能衰減率列表模型評估ModelMSEScore隨機森林模型（RF）0.0060990.902111梯度提升樹模型（GDB）0.0072300.883967支持向量回歸模型（SVR）0.008297

8、0.866837線性回歸模型0.0138680.777418貝葉斯嶺回歸模型0.0138720.777351AdaBoost回歸模型0.0149600.7598873.3 多租戶GPU共享調度策略自研多租戶GPU共享調度器，通過作業 Profile、性能干擾分析、執行時間預測等，可提高GPU利用率10%。4.可觀測能力完善提供集群維度、節點維度、作業維度等多種監控面板。集群維度：全局利用率、流量監控等節點維度：單節點的 GPU 使用、作業運行情況等4.可觀測能力完善提供集群維度、節點維度、作業維度等多種監控面板。作業維度：展示作業的多維細粒度指標空閑資源查詢：輔助用戶選擇作業規格5.模型和數據

9、集管理提供文件管理、模型管理、數據集管理等，支撐訓練、微調等科研工作。模型管理在作業中使用模型和數據集6.Crater 系統架構平臺搭建于開源項目之上，同時將多維配額、分布式存儲接入等功能，反饋上游社區?，F場演示應用成效平臺自 24 年 12 月開始內部測試，逐步取代自 19 年開始運行的 Slurm 調度系統，目前：220+服務用戶6200+運行作業330+制作鏡像41%A100 平均利用率220+納管 GPU1.1PB存儲數據57%鏡像保存占比16%V100 平均利用率逐步開源中，未來將繼續擴展平臺在國產硬件、工作流編排、異常檢測等方面的能力促進高?？蒲匈Y源共享與協同創新構建高校云原生技術社區與生態系統推動云原生技術在高校的普及與應用平臺開源與未來展望Crater Repo：Github：https:/

相關圖表

本文主要探討了云原生深度學習訓練平臺在高校的實踐與創新。關鍵點如下： 1. 高校對集群資源管理的需求日益增長，GPU成本高，多租戶集群成為常用方法。 2. 現有資源管理系統存在環境配置復雜、文件讀寫瓶頸、監控系統覆蓋不全面等問題。 3. 容器化和云原生技術可解決深度學習環境配置復雜、資源管理困難等問題，提升科研效率。 4. 平臺提供多類型作業支持，簡化環境配置流程，適配多種調度策略，提高GPU利用率。 5. 平臺具備完善的可觀測能力，提供多維度監控面板，輔助用戶選擇作業規格。 6. 模型和數據集管理功能支撐科研工作，如訓練、微調等。 7. 平臺基于開源項目搭建，將多維配額、分布式存儲接入等功能反饋上游社區。 8. 平臺自2024年12月內部測試，逐步取代2019年開始運行的Slurm調度系統，目前已有220+服務用戶，6200+運行作業。 9. 平臺平均GPU利用率為41%，鏡像保存占比為16%，存儲數據1.1PB，逐步開源中。綜上，云原生深度學習訓練平臺在高校的實踐與創新取得了顯著成效，解決了資源管理難題，提升了科研效率，并有望推動云原生技術在高校的普及與應用。

"高校深度學習訓練平臺如何實現資源優化？" "云原生技術在高?？蒲兄忻媾R哪些挑戰與機遇？" "Crater平臺的開源實踐為高?？蒲袔砹四男└淖?？"

相關報告

聯系我們

0731-84720580
sgpjbg002
工作日 9:30 - 18:00

關于我們

侵權處理

關于我們

出版物經營許可證
工信部備案號：湘ICP備17000430號-2
公安備案號：湘公網安備43010402001071號

三個皮匠報告專業的行業報告下載站，每日更新，歡迎大家關注！

copyright@2008-2013 長沙景略智創信息技術有限公司版權所有
網站備案/許可證號：湘B2-20190120

客服

小程序

服務號

折疊

午夜网日韩中文字幕,日韩Av中文字幕久久,亚洲中文字幕在线一区二区,最新中文字幕在线视频网站