《順豐科技:2025年EffectiveGPU技術白皮書(24頁).pdf》由會員分享,可在線閱讀,更多相關《順豐科技:2025年EffectiveGPU技術白皮書(24頁).pdf(24頁珍藏版)》請在三個皮匠報告上搜索。
1、EffectiveGPU?技術書順豐科技團隊?2025年4EffectiveGPU 技術書 錄CA TA LOGUE概述01背景介紹02GPU 算發展的挑戰2.102EffectiveGPU 的技術標2.303GPU 池化和虛擬化的價值2.202關鍵創新點09創新點:針對多節點異構GPU的池化和調度實現4.109創新點三:實現GPU的顯存和算切分保障機制4.311創新點:抽象適配國產和海外GPU的統調度接4.210創新點四:通過顯存超分和優先級保證多任務并運4.412技術原理與架構05技術架構3.105Volcano 集成案3.307核組件3.206GPU 虛擬化實現原理3.508HAMi 兼
2、容案3.407結論18附錄:名詞解釋與參考資料19應場景與解決案17模型推理服務場景6.117語識別場景6.317測試服務集群場景6.217適配國產算的推理場景6.417實施部署與測試13云原部署5.113部署功能測試5.315基于 Volcano 調度器部署5.214使整卡 EGPU5.3.115算和顯存切分5.3.215配置任務優先級5.3.316EffectiveGPU 技術書 在A I模型推動產業智能化變的新時代,算資源的效配置已成為制約企業數字化轉型的核命題。當前模型推理服務呈現指數級增態勢,異構算管理效率不已成為掣肘企業A I應落地、抬運營成本的關鍵瓶頸。傳統的異構算 資 源 分
3、配 模 式(如 獨 占 GPU)分 配 模 式 暴 露 三 核 痛點:資源孤島導致跨節點算法動態復、粗粒度調度引發的資源浪費、以及異構環境適配性不造成的管理復雜度攀升。?針對業痛點,本書介紹了 EffectiveGPU 池化技術(簡稱 eg pu),通過統調度接標準、算細粒度切分與跨節點協同調度,可顯著提升集群 G PU 等異構算的利率和管理效率,為云端及邊緣場景提供更靈活、更效的算基礎設施,并且適配國產 A I 算平臺。作為構建 GPU 池化和虛擬化的算基礎設施核技術,深融合研的 A I 技術平臺,為構建主可控的智能計算體系提供關鍵技術撐。011.概述EffectiveGPU 技術書2.背景
4、介紹GPU 算發展的挑戰2.1 隨著模型技術與A I應的爆發式增,算資源的效利成為產業核訴求。傳統GPU資源分配模式存在利率低(平均30%)、彈性不(整卡獨占)、態碎化(多商硬件/協議差異)等諸多痛點:EffectiveGPU 技術書GPU 池化和虛擬化的價值2.2 基于創新的池化技術架構,實現異構算細粒度切分、統的調度接與云原持,顯著提升算資源利率(最達200%顯存超分能),為A I訓練、推理及科學計算場景提供靈活效的算基礎設施撐:算資源利率低在A I模型運環境中,常規的GPU分配機制多采獨占模式,導致計算資源空置問題突出。特別是在模型推理和測試驗證環節,GPU設備的算負荷率和顯存使率普遍處
5、于低下狀態。資源共享度不現有GPU資源調度案通常局限于整卡分配,缺乏靈活的計算單元與顯存空間切分機制。這種粗放式資源分配式難以撐多樣化A I任務在單張加速卡上的并執需求。異構硬件適配困難當前加速器市場呈現多元硬件態(涵蓋GPU/NPU/及各類研芯),不同商設備存在兼容壁壘,導致上層應臨多平臺適配成本企的挑戰。02EffectiveGPU 的技術標2.3 EffectiveGPU 項的主要的是提供個異構算虛擬化平臺,于管理和優化規模異構算集群中的資源利,在云原環境中簡化部署和利如GPU這樣的復雜硬件的過程,同時提資源的利效率和靈活性。?具體來說,EffectiveGPU 項旨在實現以下個關鍵技術
6、標:?異構設備管理:EffectiveGPU具備多樣化異構設備(包括GPU、NPU等)的統管理能,持跨Pod的設備共享機制,通過分析硬件拓撲結構特征并應智能調度策略,實現更優的資源分配決策。?設備共享與資源隔離:系統提供細粒度資源管控案,持按核利率(百分)和顯存容量(M B)進精確分配,對計算單元實施硬件級隔離。在保持業務須改造的前提下,實現資源分割帶來的性能損耗控制在5%以內。EffectiveGPU 技術書03資源使效率優化采精細化資源分割與協同管理機制,突破傳統單卡獨占模式,有效激活閑置GPU算的動態復能。統調度的接標準計算框架服務提供層以調度器插件(vGPU scheduler-plu
7、g in)以及定制化的異構算設備插件(device-plug in)的形式,實現整個集群對于異構算資源的復請求。增強云原持深度融合Kubernetes原插件架構,強化容器化環境對GPU等異構計算資源的全命周期管控能。Ef f e c tiv e G PU 作為主研發的案,在多展現顯著優勢。其免費特性,相其他商業案的付費模式,可節省軟件授權成本。功能上,持顯存切分、算切分以及持顯存超分和算超分,突破硬件限制,提升資源利率。同時持計算優先級、訓練和推理混部,滿靈活調度與效部署需求。添加池化層后最低僅下降0.5%性能,最程度保證 G PU 性能。提供運維與監控提供持,且在公有云場景下節點數限制,適范
8、圍更。?彈性資源超配:持GPU算與顯存的雙維度超分技術,通過動態算復機制實現空閑資源跨應調度,配合優先級隊列保障優先級任務QoS?;诮y內存架構實現200%顯存超分,突破單卡物理顯存限制,持多任務并發執。?資源效率優化:采創新虛擬化技術構建密度資源復體系,通過精細化資源調度策略提升硬件使效率,有效降低閑置資源浪費,實現設備利率的質的躍。?縫兼容適配:采侵式設計架構,確?,F有業務系統需任何改造即可平滑接,全兼容各類存量應程序的運環境。?智能調度體系:內置多維度調度策略引擎,持基于節點特征、GPU型號等參數的適應調度算法,持續優化集群資源分配效率。?精準設備調度:提供基于設備型號指紋和唯標識符的精
9、準調度能,確保業務負載與硬件特性實現最優匹配。04EffectiveGPU 技術書3.技術原理與架構技術架構3.1 EffectiveGPU 提出了套持算細粒度劃分、節點內算調度、算跨節點協同調度的 GPU 池化和虛擬化技術架構,通過GPU 池化和混合云技術案,實現所有 GPU 資源的統視圖,按需申請和彈性擴縮容。EffectiveGPU 以 GPU 池化和虛擬化技術為核,通過管理實現對 GPU 資源的效整合與調配??烧纤接性坪凸性频?GPU 和 NPU 資源,持 GPU 獨占、切分、顯存超分和算超分等多種使式,滿機器、語識別、視頻處理、翻譯和 V R 等多樣化應場景,提升 GPU 資源的
10、利率和靈活性。EffectiveGPU 整體架構圖如下:05EffectiveGPU 技術書核組件3.2 EffectiveGPU 包含個核關鍵組件,與調度監控相關包含額外的多個核組件。核組件應場景功能描述egpu-core實現 CUDA 的顯存和算切分,超分,優先級調度等功能劫持 CUDA Runtime(libcudart.so)和 CUDA Driver(libcuda.so)之間的 API 調來實現切分超分等功能egpu-device-plugin異 構 設 備 抽 象 層,統 管 理NVIDIA/昇騰/寒武紀等商硬件資源于發現 GPU,上報 GPU 數量,替換 nvidia-devi
11、ce-plugin,同 時 實 現 Volcano 集成邏輯,實現資源注冊,資源管理,環境注等功能egpu-webhook將申請egpu的pod交由egpu-scheduler調度器接管調度如 果 申 請 的 資 源 為 egpu資 源,注 egpu-scheduleregpu-scheduler持Best-Fit/Bin-Packing等策略,動態優化資源分配于將申請的egpu調度到egpu節點上effective-gpu-webui可視化和管理節點上的 egpu 資源分配和使情況。持任務級別和顯卡級別的詳細視圖提供Web 界來管理和擴展 egpu 的功能,實現egpu的監控06Effect
12、iveGPU 技術書EffectiveGPU 技術書?新增顯存超分能,通過 device-memory-sca ling 參數動態調配顯存超分系數,持按不同的節點配置不同超分系數,同時保留原有的切分邏輯。?通過V o lc a n o 實現N U M A 親和調度,提升G PU 資源使效率,NUM A 節點是構成統內存訪問架構(Non-Uniform M emory A ccess,NUM A)系統的基本單位,個 NUM A 集合是指單個 Node 節點上多個 NUM A 節點的組合,于實現計算資源的有效分配,并降低處理器間內存訪問的競爭。當 CPU 沒有綁核或沒有與 GPU 分配在相同 NU
13、M A 節點上時,可能會由于 CPU 爭搶或 CPU 與 GPU 跨 NUM A 通信導致應執性能下降。為了使應的執性能最化,可以選擇將 CPU 與 GPU 綁定在相同 NUM A 節點下。?通過V o lc a n o 與資源池特性實現并持Ef f e c tiv e G PU 優先級Q o S,混部等特性。HAMi 兼容案3.407 HA M i 作為前主流的開源異構 A I 計算虛擬化中間件,提供了豐富的異構 GPU 管理接,EffectiveGPU 采了兼容 HA M i 態的架構實現案,其核兼容性設計體現在以下三個維度:虛擬化接兼容虛擬化實現上兼容 HA M i-core 的使式,通
14、過覆蓋主流 CUDA 版本的接虛擬化技術,實現原 CUDA 應的縫接,持上下隔離、時間切等核特性,確保不同任務間的算隔離與資源分配時序致性,使現有 GPU 應需改造即可透明化運。Volcano 集成案3.3 為了進步與 Volca no 集成,本案還提出了新的技術改造項,增強Volca no vg pu 使特性。EffectiveGPU 技術書GPU 虛擬化實現原理3.5技術維度性能指標實現式顯存隔離保證顯存獨占避免 OOM,性能損耗 5%虛擬內存映射+表隔離,持動態分配(1MB整卡)優先級調度推理任務延遲波動 10msQoS策略引擎,實時搶占低優先級任務資源保障優先級服務算復資源利率提升 3
15、0%以上,任務響應時間 20ms基于時間的調度機制,通過任務隊列管理和調度不同任務的執時間,持多任務并發顯存超分顯存擴展例可達 200%,數據傳輸延遲 2ms基于 CUDA 的 Unified Memory 實現顯存的動態擴展和優化,持設備顯存和內存的共享和管理應感CUDA 應兼容性達到 100%通過系統調 Hook 實現,需修改應代碼邏輯,動適配底層資源變化。08調度接兼容在調度和監控層深度對 HA M i 的云原調度器功能,持主流 Kubernetes 集群版本和 Volca no 調度器的深度集成,實現從資源請求、配額分配到任務編排的全鏈路標準化對接,確?,F有調度策略與業務作流需重構即可
16、平滑遷移虛擬化環境。異構 GPU 兼容通過集成 HA M i 態提供的國產算 device plug in,實現基于統的抽象驅動框架和跨架構算調度模型,實現對多種硬件加速卡的混合納管與協同調度,結合拓撲感知優化能,持異構集群的資源池化與任務智能編排,實現不同硬件態的效整合。4.關鍵創新點4.1EffectiveGPU 技術書算池化與調度提出了套持算細粒度劃分、節點內算調度、算跨節點協同調度的國產化深度學習計算框架,從A I應層、A I框架層、服務層、系統軟件層和硬件核層實現了異構國產A I算平臺的池化及調度。資源綁定與調度通過服務提供層為A I應綁定資源池中的資源,實現了國產化A I算的調度框
17、架。技術實現細節服務提供層和系統軟件層分別使云原調度具(kubernetes)與容器具(docker)實現。服務提供層實現異構算的任務分發和資源池的組建;系統軟件層利替換任務調鏈中的 cuda Driver 相關函數以及利設備提供商提供的設備復具來確保任務使的資源符合規定與限制。調度策略研究針對不同GPU算的調度策略研究,形成了套完善的調度機制,突破了 Kubernetes 集群中異構算獨占使的限制,提升了集群利率。算細粒度切分通過A PI攔截實現了算細粒度切分,使任務能按需使算資源,避免資源浪費。09創新點:針對多節點異構GPU的池化和調度實現4.2EffectiveGPU 技術書插件形式實
18、現資源復計算框架服務提供層以調度器插件(vGPU scheduler-plug in)以及定制化的異構算例設備插件(device-plug in)的形式,實現整個集群對于異構算資源的復請求。任務資源聲明與調度每個任務提交到 Kubernetes 集群中時需聲明其索要使的異構算類型及其規格,調度器插件查詢任務信息后負責調度作,普通任務交由kubernetes帶的默認調度器處理。調度策略與資源分配調度器插件中以狀態形式保存任務的異構算資源信息,持多種調度策略,根據策略將節點分配到合適節點,并將資源信息注任務。設備插件與任務啟動異構算設備插件識別任務備注信息,設置環境變量、映射驅動件和設備,交由容器
19、具啟動任務。資源限制層實現系統軟件層為容器內的資源限制層,能限制容器內對異構設備相關資源的使。通過研究不同商算接,構建基于異構算調度需求的統接標準,屏蔽商接差異,實現異構算調度的統。10創新點:抽象適配國產和海外GPU的統調度接創新點三:實現GPU的顯存和算切分保障機制4.3EffectiveGPU 技術書國產A I算持與適配計算框架持華為A scend、百度昆侖、算能智能卡等國產A I算,不依賴國外技術,同時適配主流A I框架和國產A I框架,如Pa ddle。細粒度雙端算切分提供細粒度的A I算切分式,解決云平臺中算資源浪費和法共享的問題,通過A PI攔截實現切分,具有由度、強靈活性和可擴
20、展性。解決技術難點解決了云原場景下異構設備復的諸多限制、業務中資源限制問題、GPU復中的兼容性問題、顯存統計問題以及不同商復機制沖突等問題??绻濣c算協同調度研究A I算協同調度法,充分利低算節點資源,緩解算節點資源競爭,實現跨節點算調度,提升云A I算平臺的效率、可性和降低資源競爭。適應國產化A I算調度針對國產化A I算資源,研究適配的調度算法,根據任務類別和資源親和性,通過預測算法確定分配的算種類及份額,實現精準調度??紤]節點間異構資源拓撲信息,執最沖突的資源分配案,持彈性調度策略。不同設備資源限制式針對不同設備,采相應的式進資源限制。如GPU任務通過預加載GPU控制庫實現資源審計;M L
21、U任務使寒武紀提供的容器復具;DCU任務與M LU類似;NPU任務通過設置中間層限制資源;算能智算卡和昆侖芯則分別利其提供的開發具包和運時環境實現資源限制。11創新點四:通過顯存超分和優先級保證多任務并運4.4EffectiveGPU 技術書顯存超分技術引顯存超分技術,在物理顯存不變的情況下,通過優化顯存分配策略和管理機制,使系統能夠持更多的任務同時運,有效解決多任務對顯存資源的需求問題,提顯存的利率和系統的并處理能。任務優先級劃分根據任務的緊急程度、資源需求和業務重要性等因素,對任務進優先級劃分。優先級任務在資源分配和調度中享有更的權重,確保關鍵任務能夠及時獲得夠的資源持,優先執和完成,提升
22、系統對重要業務的響應速度和服務質量。資源分配與調度機制設計了套靈活的資源分配與調度機制,根據任務的優先級和資源需求,動態地為其分配合適的顯存和其他計算資源。在資源緊張的情況下,優先保障優先級任務的資源供應,同時合理調整低優先級任務的資源使,確保系統資源得到最優利。資源搶占與回收策略制定了資源搶占與回收策略,允許優先級任務在需要時搶占低優先級任務的部分資源,以滿的需求。同時,當任務完成或資源使完畢后,及時回收資源,使其能夠被其他任務重新利,提資源的周轉效率。性能優化與負載均衡通過性能優化段,減少任務在等待資源時的延遲和阻塞,提任務的執效率。同時,考慮系統的整體負載情況,實現負載均衡,避免某些資源
23、被過度占導致系統性能下降,確保多任務并運時系統的穩定性和效性。125.實施部署與測試云原部署5.1EffectiveGPU 技術書設置部署 effective-scheduler 節點的 la bel。通過 Helm 部署 effective-g pu 組件。設置部署 effective-device-plug in 節點的 la bel。運 E2E 測試。kubectl label node nodename kubernetes.aiplat.resourcePool=aiplat-syshelm install-create-namespace effective-gpu-n effec
24、tive-gpu./charts/hamikubectl label node nodename kubernetes.io/gpu=egpuE2E_ TYPE=pullrequest KUBE_ CONF=/.kube/config make e2e-test13EffectiveGPU 技術書基于 Volcano 調度器部署5.2Volca no 配置調整。kubectl edit cm-n volcano-system volcano-scheduler-configmap?-?kind:ConfigMap?apiVersion:v1?metadata:?name:volcano-sch
25、eduler-configmap?namespace:volcano-system?data:?volcano-scheduler.conf:|?actions:enqueue,allocate,backfill?tiers:?-plugins:?-name:priority?-name:gang?-plugins:?-name:drf?-name:deviceshare?arguments:?deviceshare.VGPUEnable:true?-name:predicates?-name:proportion?-name:nodeorder?-name:binpack設置部署 effec
26、tive-device-plug in 節點的 la bel。部署 Volca no 組件。kubectl label node nodename kubernetes.io/gpu=egpukubectl apply-f./volcano-egpu-device-plugin.yml14EffectiveGPU 技術書部署功能測試5.35.3.1 使整卡 EG PU5.3.2 算和顯存切分指定使1張 eg pu,顯存和算為默認(即:100%顯存,100%算)。指定算例和顯存,使2張 eg pu,每張 GPU 卡顯存為 3000M B 和算為 30%。? pu:1? pu:2? pumem:3
27、000? pucores:30apiVersion:v1?kind:Pod?metadata:?name:gpu-pod?namespace:effective-gpu?spec:?containers:?-name:main?image:gpu-cuda-test:v1?command:bash,-c,sleep 24h?resources:?limits:? 15EffectiveGPU 技術書5.3.3 配置任務優先級配置 pod 任務優先級,0為優先級,1為低優先級,當出現算競爭時,優先將算分配給優先級任務。? 24h?resources:?limits:? 24h?resources
28、:?limits:? 技術書模型推理服務場景6.1 在 A I 產模型服務中,傳統的 GPU 資源分配式往往導致資源利率低和成本。通過采 EffectiveGPU 技術,可以顯著提升資源利率并降低運營成本。例如,已切換 EffectiveGPU 的 A I 產模型服務,使28張 GPU 卡部署65個服務,節省了37張卡。這種式不僅提了 GPU 的利率,還使得服務部署更加靈活,能夠根據實際需求動態調整資源分配,避免了資源的浪費。測試服務集群場景6.2 在集群測試服務中,資源的靈活調配和效利對于測試效率和成本控制關重要。EffectiveGPU 技術通過算和顯存的切分,使得測試服務能夠根據不同的測
29、試任務需求,靈活地分配 GPU 資源。例如,已切換 EffectiveGPU 的集群測試服務,使6張測試的 GPU 卡部署19個服務,節省了13張卡。這不僅提了測試效率,還降低了測試成本,使得資源能夠得到更合理的利。語識別場景6.3 語識別服務需要效的算持來保證實時性和準確性。EffectiveGPU 通過優先級調度和資源超配,為語識別提供了靈活的算持??梢愿鶕Z識別任務的緊急程度和資源需求,動態地分配 GPU 資源,確保優先級任務能夠及時獲得夠的資源持,提語識別的服務質量。適配國產算的推理場景6.4 EffectiveGPU 技術不僅持主流的 GPU 硬件,還適配了華為昇騰、百度昆侖等國產
30、A I 算平臺。這為國產A I 技術的應和推提供了有的持,使得在國產化背景下,也能 夠 實 現 效 的 算 管 理 和 資 源 利 。例 如,在 使 國 產 A I 芯 的 場 景 中,通 過 EffectiveGPU 的調度和管理,可以充分發揮國產 A I 算的優勢,推動國產 A I 技術的發展和應。17EffectiveGPU 技術書 GPU 池化技術針對云原環境下異構算的低利率、跨節點共享不以及調度靈活性受限等痛點,提供了完整的解決案。通過統調度接、細粒度算切分與跨節點資源協同,可幅提升集群算使效率、降低 TC O 并提升業務部署的靈活性。?本項將持續深化對 GPU 池化和虛擬化技術的研
31、究和實踐,該技術已在中國某頭部快遞物流企業的 A I 平臺等場景驗證,未來將持續推動異構算態融合,不斷完善云原 A I 基礎設施的技術體系與態,助數字經濟發展。7.結論18附錄:名詞解釋與參考資料EffectiveGPU 技術書?Ku b e rn e te s 官檔?https:/kubernetes.io/2.N v id ia G PU v G PU 與 M PS?vGPU:https:/ rid/?M PS:https:/ emory:https:/ inners/3.百度昆侖芯?https:/kunlun.a i/4.H A M i 開源項?https:/g M i/HA M i5.V o lc a n o 開源項?https:/g no-sh/volca no19致謝EffectiveGPU 技術書 在 EffectiveGPU 池化技術研發過程和落地中,我們得到了眾多合作團隊的慷慨持,他們為我們提供了項所需的硬件設備、專業的技術持以及穩定的測試環境,在此向他們致以誠摯的感謝。同時,也要對團隊研發員表感謝,他們在項中積極地探索創新,為項貢獻出了的智慧與量。?期待 EffectiveGPU 池化技術能夠在更泛的云原場景中得到應,為業帶來新的創新與價值,為產業數智化轉型添磚加,共同推動技術的進步與發展。