中移智庫:2023新型智算中心算力池化技術白皮書(31頁).pdf

編號:138468 PDF  DOCX 31頁 1.50MB 下載積分:VIP專享
下載報告請您先登錄!

中移智庫:2023新型智算中心算力池化技術白皮書(31頁).pdf

1、中國移動通信有限公司研究院新型智算中心算力池化技術白皮書(2023)I新型智算中心算力池化技術新型智算中心算力池化技術白皮書白皮書(2023 年)(2023 年)中移智庫中移智庫中國移動通信有限公司研究院中國移動通信有限公司研究院2023 年 8 月2023 年 8 月中國移動通信有限公司研究院新型智算中心算力池化技術白皮書(2023)I前言前言當前,數字經濟已成為國民經濟高質量發展的新動能,隨著人工智能在產業數字化進程中從“單點突破”邁向“泛在智能”,一個以數字化、網絡化、智能化為特征的智慧社會正加速到來。智能算力作為人工智能的基石,是算力網絡構建多要素融合新型信息基礎設施的關鍵領域,已成為

2、數字經濟高質量發展的核心引擎,智能算力基礎設施建設也迎來了高潮。智算中心作為集約化建設的算力基礎設施,它以 GPU、AI 芯片等智能算力為核心,提供軟硬件全棧環境,主要承載模型訓練、推理、多媒體渲染等業務,支撐千行百業數智化轉型升級。然而傳統智算中心的智算資源利用率較低,資源分布相對碎片化,不利于整體效能的提升,亟需一個可聚合各類型算力、實現敏捷化資源管理的平臺,使能資源可以被極致利用,算力池化技術應運而生。為凝聚產業共識,進一步推動算力池化技術成熟,中國移動發布本白皮書,分析了智能算力發展的趨勢及面臨的挑戰,系統性介紹了算力池化的定義與目標、總體架構、關鍵技術和當前業界的探索實踐,并呼吁業界

3、緊密合作、加快構建算力池化統一的標準體系。本白皮書由中國移動通信有限公司研究院中國移動通信有限公司研究院主編,北京趨動科技有北京趨動科技有限公司、華為技術有限公司限公司、華為技術有限公司、中興通訊股份有限公司中興通訊股份有限公司、威睿信息技術威睿信息技術(中國)有限公司(中國)有限公司聯合編撰,由中移智庫中移智庫發布。本白皮書的版權歸中國移動所有,未經授權,任何單位或個人不得復制或拷貝本白皮書之部分或全部內容。中國移動通信有限公司研究院新型智算中心算力池化技術白皮書(2023)II目錄目錄前言.I目錄.II1.算力池化技術背景.11.1傳統智算中心存在資源效率問題.21.1.1 GPU資源利用

4、率不足30%.21.1.2資源碎片化導致分配率低.31.2池化技術是提高資源效率的關鍵.42.算力池化定義與目標.62.1算力池化的定義.62.2算力池化的目標.63.算力池化架構與關鍵技術.83.1算力池化平臺技術架構.83.2算力池化技術能力層級.103.3算力池化關鍵技術.123.3.1軟件定義的資源分配方式.123.3.2算力資源高質量管理技術.143.3.3泛在化碎片的池化整合技術.164.算力池化產業實踐.194.1業界廠商池化技術實踐.194.2中國移動池化技術實踐.245.展望與倡議.26參考文獻.27縮略語列表.28中國移動通信有限公司研究院新型智算中心算力池化技術白皮書(2

5、023)11.算力池化技術背景1.算力池化技術背景數字經濟時代,隨著智慧城市、智慧交通、智慧家庭等智能場景的逐步落地,人工智能正深刻地改變我們的生產、生活方式。同時隨著 5G、邊緣計算等支撐技術的持續發展,數智業務轉型過程中所產生的數據量正在以更加難以計量的速度爆發,據 IDC 公布的數據時代 2025顯示,從 2016 年到 2025 年全球總數據量將會增長 10 倍,達到 163ZB,其中非結構化數據占 70%以上,計算模式將變得更加復雜,對智能算力的需求也在不斷提高,智能計算將成為主流的計算形態。隨著智能計算廣泛融合到生產、生活的各個方面,以 GPU、AI 芯片為主要算力資源的智算中心正

6、逐步取代通用數據中心成為算力發展的主流形態。在此背景下,各國政府已開始布局 AI 領域全棧能力,并出資引導智能算力基礎設施建設;我國也已進入智能化時代,“十四五”期間,相關部委積極推動智算中心建設發展,旨在面向人工智能場景提供公共算力服務。同時,隨著 ChatGPT 等基礎通用大模型業務引爆了對 GPU 的市場需求,產業各方紛紛加入對基礎大模型的訓練和培育,導致“一芯難求”,GPU 價格也隨之暴漲。以英偉達 A800 為例,據市場數據統計,近半年來的價格增幅高達 30%以上。如何在有限的資源供應內盡可能提高利用率,充分發揮算力效率的同時降低智算中心 TCO,目前已成為智算中心建設待解決的關鍵命

7、題之一。中國移動通信有限公司研究院新型智算中心算力池化技術白皮書(2023)21.1 傳統智算中心存在資源效率問題1.1 傳統智算中心存在資源效率問題1.1.1 GPU 資源利用率不足 30%1.1.1 GPU 資源利用率不足 30%當前智算中心主要以國家或當地政府總體牽頭建設為主,此外,AI 應用服務企業也在布局自有智算基礎設施建設。然而,據公開數據統計,傳統模式下的智算中心 GPU 利用率較低,平均數值低于 30%:AWS re:Invent 2018 公布數據:平均 GPU 利用率為 20%Facebook 2021 年機器學習負載分析報告:平均 GPU 利用率不足 30%英偉達 GTC

8、2022 公布數據:Google 云平均 GPU 利用率為 25%傳統智算中心的 GPU 資源利用率過低,主要來源于以下多個方面的原因:(一)資源分配較為粗放:資源分配以整卡分配為主,輔以一虛多的虛擬化分配方式,顆粒度較粗,無法適配不同 AI 任務對資源的差異化需求,導致部分資源閑置,影響算力資源的利用率;(二)算力沒有被充分激活:AI 任務模型設計缺陷、算力優化程度不足、模型框架與底層芯片適配不充分等原因,均可能導致算力資源的性能無法充分發揮,導致額外的資源損耗;(三)網絡帶寬瓶頸制約:智算中心設備和服務器之間的通信需要消耗網絡帶寬,網絡瓶頸會影響影響整體性能,算力資源空閑度高、利用率低。傳

9、統智算中心的 GPU 資源利用率問題是一個綜合性的問題,需要中國移動通信有限公司研究院新型智算中心算力池化技術白皮書(2023)3從資源管理策略、硬件架構設計、應用軟件算法優化等多方面共同優化解決,其中尤以資源管理策略方面的優化可控性強、生效快、投入產出比高,是新型智算中心算力池化的重要研究方向之一。1.1.2 資源碎片化導致分配率低1.1.2 資源碎片化導致分配率低資源碎片指體量較小,低于應用的需求而無法被分配出去的閑置資源,通常來說,應用所需資源的規格越高、種類越多,導致資源碎片的概率則越大。近幾年來,AI 業務迅速發展,從訓練到推動,從小模型到大模型,AI 任務的種類越來越多,對算力的需

10、求越來越高,算力資源碎片化趨勢較為明顯。碎片化的原因包括任務類型差異、任務規模差異、任務優先級差異以及任務調度能力等多方面因素。(一)任務類型差異:智算中心提供的算力資源可以用于不同種類的任務,包括機器學習、深度學習、圖像處理等。也包括大模型、小模型、分布式推理、集中式推動,由于不同類型的任務對硬件配置的要求不同,因此會導致不同類型的任務需要不同的算力資源,難以充分適配;(二)任務規模差異:任務規模不同,所需求的算力資源不同,并且不同任務規模對算力資源的分配也無實際標準,小規模任務可申請大規模的算力,雖然存在資源浪費,但卻可加速任務完成,相反,在資源總數限制下,大規模任務也可根據相對較少的算力

11、資源,雖然影響計算效率,但卻節約了投資。以上多方面的因素,導致任務需求中國移動通信有限公司研究院新型智算中心算力池化技術白皮書(2023)4規格與硬件配置無法對齊,從而導致算力資源碎片化;(三)任務優先級差異:不同的任務可能有不同的優先級,一些高優先級的任務可能會占用大量的計算資源,導致其他任務無法及時得到滿足,影響整體資源布局;(四)任務調度能力:任務調度也是影響計算資源碎片化的重要因素。如果任務調度不當,可能會導致計算資源得不到充分分配,從而造成資源浪費。綜上所述,根據多樣化 AI 任務對算力資源的差異化需求,靈活地調度、分配資源,是降低智算中心算力資源碎片的關鍵。1.2 池化技術是提高資

12、源效率的關鍵1.2 池化技術是提高資源效率的關鍵如何對稀缺、昂貴的算力資源充分利用,降低其不可分配的碎片概率,可以考慮借鑒云計算的思路,對 GPU、AI 芯片等進行聚合池化,再利用先進的資源管理技術進行切分、調度、分配,使能資源可按任務的實際需求進行有序供給。(一)物理成池:通過高性能智算中心網絡打通服務器間通路,使得分散在各服務器中的 CPU、GPU、AI 芯片等算力資源可以互聯互通、透明共享。這項技術允許跨用戶、用例、時間尺度共享物理算力資源,還可以為在集群的一個節點中執行的單個 AI 任務任意調用集群中算力,使 AI 任務獲得進一步加速。(二)邏輯成池:利用池化軟件對 CPU、GPU、A

13、I 芯片等資源在邏輯上聚合,AI 任務在創建時,不再是將零散的、孤島式的資源進行中國移動通信有限公司研究院新型智算中心算力池化技術白皮書(2023)5裸分配,而是根據調度流程,從聚合的池化資源中切分出所需數量進行分配。一方面,分配的資源數量可按 AI 任務實際所需執行,當 AI任務所需資源不明確,或因負載變化導致資源數量變動時,可實現動態供給、回收,實現多 AI 任務的峰谷互補,降低資源閑置率;另一方面,切分后的零散資源可以再度聚合、調度、分配,降低碎片率。中國移動通信有限公司研究院新型智算中心算力池化技術白皮書(2023)62.算力池化定義與目標2.算力池化定義與目標2.1 算力池化的定義2

14、.1 算力池化的定義智能算力池化指依托云計算技術,整合 GPU/AI 芯片等異構算力資源,構建集中管理的資源池,并按上層智算業務的需求,對池化的資源進行統一調度、分配,實現智算業務生命周期管理的全套技術。為解決智算中心所面臨的資源利用率問題,算力池化基于傳統云計算技術(如 Kubernetes、OpenStack,智算中心以 Kubernetes 為主)有針對性地增強 GPU/AI 芯片池化能力,采用軟件定義的方式,對 GPU/AI 芯片進行分時調度管理,實現按 GPU/AI 芯片的細粒度分配資源,并采用 GPU/AI 芯片 Runtime API 劫持、應用程序監視器等技術,實現資源跨節點遠

15、程調用、零散資源整合等,從而達到算力資源充分利用、碎片最小化效果,可有效提升資源效率,降低智算中心整體建設成本。2.2 算力池化的目標2.2 算力池化的目標智能算力池化的目標是利用軟件定義技術,對通過高速無損網絡互連互通的 CPU、GPU、AI 芯片等算力資源進行池化整合,實現資源的集中調度、按需分配,使能資源可被充分利用,降低碎片概率,提高總體有效算力、降低智算中心購置成本?;麨榱??;麨榱?。革新傳統的整卡分配、一虛多虛擬化分配的粗放式分配方式,使能精細化分配能力,根據 AI 任務的資源需求進行按需供中國移動通信有限公司研究院新型智算中心算力池化技術白皮書(2023)7給,契合多樣化業務的

16、差異需求。隔空取物。隔空取物?;诟咚贌o損網絡,跨節點調取 GPU、AI 芯片等智能算力資源,使能 CPU 傳統算力及 GPU、AI 芯片智能算力高度解耦,進一步降低碎片化比例?;銥檎??;銥檎?。整合分布在多機上的零散資源,匯聚碎片為可再分配的資源、匯聚小規格資源為更大模型業務可使用的資源,使能資源可高效分配。變靜為動。變靜為動。革新傳統的資源靜態分配、本地綁定的機制,使能資源可以根據負載變化動態分配、回收,多任務間可以峰谷互補,全局資源可以適度超分,促進資源效率提升。中國移動通信有限公司研究院新型智算中心算力池化技術白皮書(2023)83.算力池化架構與關鍵技術3.算力池化架構與關鍵技術3

17、.1 算力池化平臺技術架構3.1 算力池化平臺技術架構新型智算中心算力池化平臺依托云計算技術擴展池化能力,根據AI 任務特點,一般基于 K8S(Kubernetes)定制化實現。算力池化平臺的技術架構參考如下:圖圖1算力池化平臺技術架構算力池化平臺技術架構算力池化平臺邏輯上可分為池化資源管理、資源服務代理、池化運行時三類模塊組成:(1)池化資源管理(1)池化資源管理Kubernetes 管理組件:基于 Kubernetes 原生管理服務組件定制化增強,如支持分布式文件存儲、支持 POD 多網絡平面、支持RoCEv2/Infiniband 網絡等;Kubernetes 調度擴展:關聯 Kuber

18、netes 調度服務擴展專用的池化資源類型,對該類資源的請求轉遞智算資源池化控制器進行調度、分配,需配合 Kubernetes 設備插件使用;智算資源池化控制器:對 GPU、AI 芯片等智算進行統一管理、中國移動通信有限公司研究院新型智算中心算力池化技術白皮書(2023)9調度、分配;(2)資源服務代理(2)資源服務代理池化服務代理:根據智算資源池化控制器的調度結果,將池化運行時對資源的訪問請求重定向到實際物理位置執行,如涉及跨機訪問智算資源,則需相關服務器上的池化服務代理多次重定向,跨機重定向的流量需經由高速無損網絡(如參數面網絡);Kubernetes 服務代理:基于 Kubernetes

19、 原生服務代理組件定制化增強;Kubernetes 設備插件:配合 Kubernetes 調度擴展,為Kubernetes 服務代理注冊專用的池化資源類型;容器運行時:基于原生容器運行時(如 Dockerd、Containerd等)定制化增強;(3)池化運行時(3)池化運行時池化運行時:依托GPU、AI芯片的原生運行時(如CUDA Runtime)進行二次封裝,采用 API 劫持、應用程序監視等技術,將 AI 應用軟件/AI 開發框架對算力資源的訪問轉遞至池化服務代理執行。池化運行時位于容器 POD 內,在容器運行時由自動注入。根據上述技術架構,當 AI 應用編排器通過調用 Kubernete

20、s API創建應用時,可按新增的池化資源類型指定申請的資源數量(如pool.kubernetes.io/gpu:1),對該類型資源的申請會被 Kubernetes調度擴展攔截、轉遞至智算資源池化控制器進行調度,智算資源池化控制器按申請的資源數量、資源池內空閑資源分布情況進行調度后,中國移動通信有限公司研究院新型智算中心算力池化技術白皮書(2023)10將調度結果響應給 Kubernetes 管理組件,然后 Kubernetes 管理組件正常執行 AI 應用的創建流程,由 Kubernetes 服務代理創建最終 POD作為交付物,并通過池化服務代理配合在 POD 中自動注入池化運行時、通過 Ku

21、bernetes 設備插件配合在 POD 中插入虛擬 GPU。AI 應用的 POD 在運行的時候,通過池化運行時訪問虛擬 GPU、執行 AI 任務,池化運行時攔截對虛擬 GPU 的訪問請求、轉遞給池化服務代理執行,池化服務代理通過向智算池化控制器查詢虛擬 GPU 所對應的真實智算資源位置、規格,按查詢結果分配智算資源、執行 AI任務,如果真實的智算資源位于遠程計算節點,則由本地池化服務代理將訪問請求轉遞給遠程計算節點上的池化服務代理處理,相關通信經由參數面網絡。3.2 算力池化技術能力層級3.2 算力池化技術能力層級算力池化技術本質是通過軟件定義硬件加速的方式,更加高效靈活的聚合、調度以及釋放

22、海量 AI 加速算力,精準保障 AI 模型開發、訓練、部署、測試、發布全鏈條算力配給,降低智算中心算力服務提供成本,提升智算中心整體效能。從對異構算力使用的成熟度及靈活性角度出發,當前算力池化技術可劃分為以下三個能力層級:中國移動通信有限公司研究院新型智算中心算力池化技術白皮書(2023)11圖圖2算力池化技術能力層級算力池化技術能力層級階段 1,靜態管理。階段 1,靜態管理。將單物理 GPU/AI 芯片按固定比例切分成多個虛擬 GPU/虛擬 AI 芯片,比如 1/2 或 1/4,每個虛擬 GPU/AI 芯片的顯存相等,算力輪詢。最初是伴隨著服務器虛擬化的興起,解決虛擬機可以共享和使用 GPU

23、/AI 芯片資源的問題。對于靜態管理方案,2021年英偉達在部分Ampere系列GPU上提供了MIG技術,例如可以將A100切分成最多 7 份。階段2,動態管理。階段2,動態管理。以單物理GPU/AI芯片為目標,支持物理GPU/AI芯片從算力和顯存兩個維度靈活切分,實現自定義大?。ㄍǔK懔ψ钚☆w粒度 1%,顯存最小顆粒度 1MB),滿足 AI 應用差異化需求。同時,軟件定義 GPU/AI 芯片資源可充分適應當前應用云原生化趨勢,實時響應上層應用對資源需求的變化,實現 vGPU/AI 芯片資源基于Scale-Up/Scale-Down 的動態伸縮動態伸縮,并通過資源動態掛載動態釋放實現 GPU/

24、AI 芯片資源超分資源超分。階段 3,池化管理。階段 3,池化管理。池化技術的重大突破在于支持 CPU 通用算力及 GPU/AI 芯片等智能算力的獨立成池,兩種資源池內匯聚的資源獨立調度、分配,當調度的資源分屬不同節點時,可通過高速無損網絡中國移動通信有限公司研究院新型智算中心算力池化技術白皮書(2023)12跨節點調用、組裝成 AI 任務所需總算力。此管理方式下,AI 應用可以部署到智算中心的任意位置,不管所在節點上有沒有智算資源、智算資源夠不夠,所欠缺的部分從遠程抓取即可,從而實現在網絡范圍內充分共享閑置、甚至碎片化的多種類型資源,促進資源的有效利用。由于遠程調用的資源相比本地化資源的訪問

25、速度相對較低,因此,池化管理技術可引入服務質量管理服務質量管理技術,按任務優先級,優先分配本地資源,次選遠程調用,任務資源不足時將 AI 任務進行隊列化管理隊列化管理,等待釋放出充足資源時再運行。3.3 算力池化關鍵技術3.3 算力池化關鍵技術3.3.1 軟件定義的資源分配方式3.3.1 軟件定義的資源分配方式傳統的依賴于硬件支持的虛擬化技術下,AI 應用通過訪問GPU/AI 芯片的運行時所提供的接口,以獲得對智算資源的調用,資源的算力完全由卡硬件確定,軟件上難以介入,從而無法獲得更敏捷的管理。池化技術下,資源分配方式發生了根本性的變革,軟件介入了資源的算力供給,為開啟更敏捷的資源管理模式,比

26、如動態伸縮、資源超分等奠定了技術基礎,為持續優化智算資源利用率創造了無限可能。池化技術主要通過以下兩種實現了軟件定義的資源分配:(1)API 劫持技術(1)API 劫持技術API 劫持技術是目前比較普遍的、針對智能算力的池化技術,它通過劫持對 Runtime API(如 CUDA API)調用實現資源調度。中國移動通信有限公司研究院新型智算中心算力池化技術白皮書(2023)13如 3.1 章節技術架構的圖 1 所示,AI 應用的容器 POD 內運行的池化運行時并非 GPU/AI 芯片原生的運行時,而是基于原生運行時進行了一定定制化的版本,它對上層應用所提供的 API 接口完全等同于原生運行時,

27、因此對 AI 應用來說是透明的。當 AI 應用訪問池化運行時的 API 時,則被池化運行時轉遞至池化服務代理執行,池化服務代理則具備敏捷化的資源管理功能,比如按 1%算力、1MB 緩存的精度細粒度分配資源,實現跨節點遠程調用資源等。圖圖3API劫持技術圖解劫持技術圖解API 劫持技術的關鍵在于池化運行時仿真 GPU/AI 芯片的原生運行時,由于 GPU/AI 芯片種類、型號繁多,其原生運行時又相對活躍、升級頻繁,仿真工作較為復雜,開發量、維護難度較大。(2)應用程序監視器技術(2)應用程序監視器技術這是一種完全與 GPU/AI 芯片無關的設備虛擬化和遠程處理方法,允許在沒有顯式軟件支持的情況下

28、啟用新的硬件體系結構。該項技術通過應用程序監視器工作,該監視器與 Hypervisor 管理虛擬機的方式類似,分為前端、后端,前端監視指定應用程序的活動,攔截至后端處理,后端可以按應用程序申請的數量分配資源,或將應用程序拆分到多臺機器上運行,在保持代碼、數據和執行環境一致性的前提下中國移動通信有限公司研究院新型智算中心算力池化技術白皮書(2023)14使用這些機器上的智算資源,從而實現資源的細粒度管理、遠程調用等資源敏捷化管理功能。應用程序監視器負責維護應用程序狀態(內存、文件、應用程序庫的加載),以及虛擬化與系統的交互(例如系統調用和進程間通信),以確保在多個位置執行時的一致性。圖圖4應用程

29、序監視器技術圖解應用程序監視器技術圖解與 API 劫持技術直接介入到 AI 應用訪問資源的流程、需要仿真原生運行時的 API 接口的方式不同,應用程序監視器不介入到 AI 應用訪問資源的流程、而是通過更底層的系統調用隱含而廣泛的支持更多種類、型號的硬件和新的運行時功能,其實現方式與特定的運行時API(如 CUDA)無關,具備更加強大的通用性和兼容性。應用程序監視器技術是一種新型的池化方案,建議技術成熟后再考慮商用引入。3.3.2 算力資源高質量管理技術3.3.2 算力資源高質量管理技術基于軟件定義的資源分配方式,算力池化平臺可以實現更敏捷的資源管理方式,從而實現算力的高質量管理。(一)資源細粒

30、度分配(一)資源細粒度分配通過虛擬化手段,將物理資源按照算力與顯存兩個維度進行細粒度抽象,上層應用不再以物理硬件為單位進行資源申請及使用,而是中國移動通信有限公司研究院新型智算中心算力池化技術白皮書(2023)15以物理硬件算力 1%,顯存 1MB 為基本單位。(二)資源限額管理(二)資源限額管理通過時分等算力控制技術,對不同租戶之間、同租戶不同進程、不同租戶不同進程之間實現 GPU 算力及顯存的隔離與控制,減少資源爭搶帶來的性能擾動,避免程序惡意搶占算力資源。(三)資源無感動態伸縮(三)資源無感動態伸縮池化技術可通過資源動態分配,為容器動態的分配可用資源,上層應用可根據自身業務邏輯及負載情況

31、,實時向算力調度平臺申請算力、顯存資源,實現資源動態垂直擴展。(四)資源超分及峰谷互補(四)資源超分及峰谷互補智算中心對外提供業務時,為避免業務之間的競爭影響到服務質量,不同類型的業務通常分開部署在不同的資源池。但業務的運行往往存在高峰期和低谷期,業務獨占資源導致異構算力硬件普遍存在空閑周期,很多業務空閑期遠長于高峰期,導致總體資源利用率很低。與此同時,為保障服務質量,業界通用做法是采用資源過量供應的方式來對業務進行支撐,導致預留的資源量與實際的使用量之間存在較大的差距。如果能夠將業務的波谷時段利用起來,就能減少波谷時間,從時間維度提升效能;同理,將資源預留冗余縮小,就能從空間維度提升效能。因

32、此將不同優先級、不同波動周期的業務進行混合部署,為兩個維度提升利用率提供了可能性,即利用低優先級任務占用空閑資源,同時高優先級任務能及時搶占到資源,從而保證關鍵業務的服務質量。算力池化技術可以通過軟件定義,將底層物理硬件資源抽象后做適當的中國移動通信有限公司研究院新型智算中心算力池化技術白皮書(2023)16放大,利用算力硬件計算周期空閑時間,通過時分復用有效使用算力,同時,利用單一指針進行內存托管,將顯存、系統內存進行統一維護,在 CPU 與 GPU 之間形成內存池共享內存資源,由系統來自動地進行內存遷移,以實現 GPU 顯存擴展,如 CUDA unified memory。(五)智算任務隊

33、列化管理(五)智算任務隊列化管理單個 AI 任務的開展可簡單劃為為數據準備、任務執行、模型評估三個階段,從資源角度上分析,數據準備階段主要使用 CPU 資源,訓練開始后才開始使用 GPU 算力資源進行計算加速。相較于 CPU 通用算力資源,智算中心內智能算力資源更加容易達到瓶頸,為提高整體AI 訓練任務的執行效率,算力池化技術可提供智能算力資源排隊的能力,即 AI 任務的下發可根據 CPU、內存等資源的可用情況觸發,訓練任務進入執行階段后,如智能算力資源不足可進行排隊等待,按序執行。同時可根據訓練任務的重要程度,設置資源使用的優先級。3.3.3 泛在化碎片的池化整合技術3.3.3 泛在化碎片的

34、池化整合技術泛在化碎片至分布式在本地、遠程的傳統方式下無法再利用的資源。對這些泛在化碎片進行池化整合,合并為邏輯視圖上的一整片算力,有更高概率滿足 AI 任務的資源規格需求。(一)泛在化資源跨機整合技術(一)泛在化資源跨機整合技術論文Characterizing Deep Learning Training Workloads onAlibaba-PAI分析了阿里一個訓練集群上的負載特征(見圖 5):從任務數量上看,約 59%的任務是單卡小任務;從 GPU 資源消耗上看,中國移動通信有限公司研究院新型智算中心算力池化技術白皮書(2023)17雖然 81%的 GPU 是被分布式訓練任務占用(單機

35、多卡也算分布式),但是這其中有一半的資源是被小于 8 個 GPU 的任務所占用(1 臺物理服務器可滿足);只有 0.7%數量的任務是使用超過 128 個 GPU(需要16 臺或更多物理服務器)。圖圖5阿里某訓練集群的負載特征阿里某訓練集群的負載特征這個分析表明,訓練任務是多樣化的,其規模有大有小,從資源角度上看,意味著智算中心各類業務對 CPU 算力與 GPU 算力的配比需求是多樣化的,而GPU服務器硬件配置往往是單機4卡或者單機8卡,單機 CPU 算力與 GPU 算力的固定配比,在承載多樣化的訓練任務時,勢必帶來資源碎片現象的產生,進而引發大量多卡任務因為資源不足在隊列中排隊等待執行,容易帶

36、來資源整體流轉效率低下的問題。為解決資源碎片問題,池化技術可以實現對零散資源的整合,包括跨機整合。見第3.1章,智算資源池化控制器實現了對CPU及GPU/AI芯片分池、單獨調度,也即為 POD 調度的 CPU 與 GPU/AI 芯片資源可能不在同一臺服務器上,但對應用是透明的,當 AI 應用訪問虛擬 GPU時,由池化服務代理根據虛擬 GPU 所對應的真實 GPU 資源位置分配資中國移動通信有限公司研究院新型智算中心算力池化技術白皮書(2023)18源,如果有遠程調用需求,則由 POD 所在服務器上的池化服務代理轉發資源請求至目標服務器上的池化代理服務訪問。通過資源聚合,可以將 GPU 集群內的

37、資源碎片利用網絡快速整合,保障多卡任務快速啟動,提升資源流轉效率。(二)智算業務 SLA 分級及自動服務質量管理(二)智算業務 SLA 分級及自動服務質量管理智算中心作為承載海量智算業務的基礎設施,在資源優化方面應在兼顧訓練任務的整體吞吐率、GPU/AI 芯片資源的整體利用率的同時,提升多個訓練任務的整體性能,而非強調單個任務的性能。深度學習框架是很多訓練任務依賴的一類基礎軟件,其設計目標之一是提升單個訓練任務的性能,而池化技術的目標是通過充分利用數據中心內所有 GPU/AI 芯片資源,從而達到多任務的整體最優,兩者并不矛盾??蚣芎统鼗夹g可以互相配合,在達成多任務整體最優的情況下,盡量讓每個

38、任務的運行更加優化。池化技術可針對不同任務對于性能的要求進行分級,按優先級高到低采取使用指定硬件資源、只使用任務所在服務器上 GPU/AI 芯片資源、任意調用數據中心內可用算力資源等分配策略,可以確保任務性能要求的前提下,達到整體資源最優分配。中國移動通信有限公司研究院新型智算中心算力池化技術白皮書(2023)194.算力池化產業實踐4.算力池化產業實踐4.1 業界廠商池化技術實踐4.1 業界廠商池化技術實踐(1)趨動科技 OrionX 池化平臺(1)趨動科技 OrionX 池化平臺趨動科技的 OrionX(獵戶座)AI 算力資源池化解決方案可幫助智算中心運營方構建數據中心級 AI 算力資源池

39、,使用戶應用無需修改就能透明地共享和使用數據中心內任何服務器之上的 GPU/AI 芯片。OrionX 通過軟件定義 AI 算力,顛覆了原有的 AI 應用直接調用物理GPU/AI 芯片的架構。AI 應用調用邏輯的 vGPU,再由 OrionX 通過 API劫持技術將 vGPU 需求匹配到具體的物理 GPU/AI 芯片,包括 AI 應用本地或遠程的 GPU/AI 芯片。OrionX 架構實現了 GPU 資源池化,讓用戶高效、智能、靈活地使用智算,達到了降本增效的目的。圖圖6趨動科技趨動科技OrionX軟件架構軟件架構(2)VMware BitFusion 和 Radium 池化平臺(2)VMwar

40、e BitFusion 和 Radium 池化平臺中國移動通信有限公司研究院新型智算中心算力池化技術白皮書(2023)20VMware 利用自己強大的 vSphere 計算虛擬化平臺,并在其基礎上集成了 VMware Bitfusion 池化能力,可以虛擬化 GPU 以提供可通過網絡訪問的共享資源池,從而加速人工智能和機器學習的應用程序。vSphere Bitfusion 采用客戶端/服務器架構。該產品允許多個客戶端虛擬機或容器 POD 運行人工智能和機器學習應用程序,以便在運行vSphere Bitfusion 服務器軟件的虛擬機或容器 POD 上共享對遠程GPU 的訪問??梢栽?vSphe

41、re Bitfusion 客戶端計算機上運行應用程序,而提供加速的 GPU 則安裝在網絡中的 vSphere Bitfusion 服務器計算機上。圖圖7VMware BitFusion軟件架構軟件架構VMware Project Radium 正在研發通過監視器引入虛擬化服務的方式進行 GPU 池化。與 Bitfusion 技術不同,應用程序監視器在應用程序的上下文中運行,因此我們可以動態地將應用程序分成兩半,TOPHALF 也即應用程序監視服務負載攔截系統指令交由 BOTTOM HALF 執中國移動通信有限公司研究院新型智算中心算力池化技術白皮書(2023)21行,BOTTOM HALF 也

42、即資源管理監視器負責按 Radium 服務端程序的調度結果分配資源,以實現池化功能。圖圖8VMware Radium軟件架構軟件架構(3)中興 TECS OpenPalette 平臺(3)中興 TECS OpenPalette 平臺中興 TECS OpenPalette 產品以開源 Docker 和 kubernetes 技術為基礎,為用戶提供輕量級虛擬化容器云解決方案,并疊加池化能力。采用標準容器化技術,支持多容器共享宿主機 CPU 資源,同時支持容器 CPU 綁定;支持容器使用 GPU/AI 芯片功能,針對主流的 GPU/AI 芯片廠家(如英偉達、寒武紀),采用增強版的 Kubernete

43、s GPU DevicePlugin,配合增強版的 Kubernetes 調度器使一個 Kubernetes Pod 獨占一個或者多個 GPU、使多個 Kubernetes Pod 共享一個 GPU;針對AI 應用需要指定 GPU Index 的場景,開發了 Kubernetes Pod 指定 GPUIndex 的調度能力。中國移動通信有限公司研究院新型智算中心算力池化技術白皮書(2023)22圖圖9中興中興TECS OpenPalette GPU方案架構方案架構中興 TECS OpenPalette 產品通過提供 CPU 和 GPU 的池化能力,達到資源共享的目標,且在提高資源使用效率的同時

44、,也滿足客戶對池化資源服務質量的要求。(4)華為基于 Volcano 的 CCE 平臺(4)華為基于 Volcano 的 CCE 平臺華為基于 Volcano 的容器集群管理平臺 CCE,能夠支持 GPU/AI芯片混部能力,通過共享 GPU/AI 芯片算力、切分顯存的方式,提升K8S 集群 GPU/AI 芯片的資源利用率。Volcano 通過四項創新調度技術實現對資源利用率的優化。中國移動通信有限公司研究院新型智算中心算力池化技術白皮書(2023)23圖圖10華為基于華為基于Volcano的的CCE方案架構方案架構在線離線混合調度:CCE 可以將離線和在線業務在同一集群中混合部署,空閑資源用來

45、運行離線計算業務(如離線分析、模型訓練等),而當業務高峰來臨前,會自動釋放離線業務占用的資源,保障在線業務對資源的訴求;應用感知智能調度:為了進一步提升混合部署后的資源利用率,通過感知應用模型(如 Web 類應用、Tensorflow 的 PS 和 worker、Spark 的 Driver 和 executor 等),針對不同應用模型對資源的訴求、應用負載情況,通過資源按需搶占、分時復用等機制,減少集群資源的空閑比例;并通過感知任務間拓撲結構,將各任務調度到最佳節點上,減少因網絡瓶頸、數據跨節點傳輸等帶來的時間損耗,進而可以將資源利用率提升 2 倍;大規模分布式調度:為了保障業務混合部署后,

46、海量任務并中國移動通信有限公司研究院新型智算中心算力池化技術白皮書(2023)24發調度的難題,CCE 推出了分布式架構的任務調度器,提升吞吐能力,并通過調度算法剪枝,減少尋址深度和廣度,同時結合調度決策復用機制,可將調度尋址時間縮短 10 倍以上,實現每秒 1 萬容器的大規模并發調度;GPU虛擬化:基于HCE OS 2.0操作系統,CCE提供結合Volcano、GPU 虛擬化技術實現的 GPU 算力和顯存的細粒度調度、切分及隔離能力,可以更高效的利用 GPU 資源,提升智算資源利用率。4.2 中國移動池化技術實踐4.2 中國移動池化技術實踐中國移動智算中心基于移動云底座的 IaaS 能力,管

47、理算力基礎設施層的各類硬件資源,向上提供智算類業務所需任務式服務。圖圖8中國移動智算中心技術架構中國移動智算中心技術架構在整體方案上,我們將智算中心劃分為大模型訓練池、小模型訓練池及推理池。中國移動將率先嘗試在小模型訓練池中,采用自研的容器基礎設施EKI疊加相關池化模塊,通過基于API劫持的池化技術,中國移動通信有限公司研究院新型智算中心算力池化技術白皮書(2023)25實現 CPU、GPU/AI 芯片、塊存儲/文件存儲資源等基于高速無損網絡的統一管理與調度,實現對智能算力的化整為零、隔空取物、化零為整、變靜為動四大關鍵能力,為持續性的優化智算資源利用率,降低不可分配的資源碎片數量賦能。中國移

48、動通信有限公司研究院新型智算中心算力池化技術白皮書(2023)265.展望與倡議5.展望與倡議隨著 GPT、Stable Diffusion 等技術的成熟,AIGC 產業高速發展,對智能算力的需求也呈指數級的增長。算力池化技術相較與傳統的 GPU/AI 芯片直通技術來說,具備更高的算力利用效率、更便捷的使用方式及更低的使用成本,為產業發展提供奠定優質的算力基礎。當前,中國移動已經開展了算力池化關鍵技術的研究,為推動算力池化技術成熟,實現異構算力資源的高效管理和去碎片化,實現極致資源效率,中國移動呼吁產學研各界合作伙伴精誠合作、凝聚共識,共同推進算力池化技術成熟,繁榮產業生態,提出以下幾點倡議:

49、聯合展開算力池化關鍵技術攻關。聯合展開算力池化關鍵技術攻關。聯合攻關異構算力集中調度技術、池化運行時技術、算力敏捷化管理技術,基于中國移動算力網絡試驗示范網項目,開展算力池化平臺產品的試驗試點驗證工作。聯合推動算力池化標準體系建設。聯合推動算力池化標準體系建設。聯合制定池化運行時標準,實現對不同種類、型號的硬件及不同版本的原生運行時進行協同,拉通開發生態,實現一次開發、任意兼容,為推動構建面向全球的標準化統一算力池化平臺打下堅實基礎。聯合打造算力池化技術開源實現。聯合打造算力池化技術開源實現。聯合眾多 GPU/AI 芯片的制造商合作伙伴,發布具備標準化接口的池化運行時的開源實現,歡迎產業界積極

50、參與,共筑算力池化產業生態。中國移動通信有限公司研究院新型智算中心算力池化技術白皮書(2023)27參考參考文獻文獻1 算力網絡白皮書R,中國移動,20212 算力網絡技術白皮書R,中國移動,20223 中國算力發展指數白皮書R,中國信息通信研究院,20214 AI 框架發展白皮書R,中國信通院,20225 新型數據中心發展三年行動計劃(2021-2023 年),中國工業和信息化部,20216 Characterizing Deep Learning Training Workloads on Alibaba-PAI,Wang M,Meng C,Long G,et al.,2019中國移動通信

51、有限公司研究院新型智算中心算力池化技術白皮書(2023)28縮略語列表縮略語列表縮略語英文全程中文釋義縮略語英文全程中文釋義AIArtificial Intelligence人工智能CPUCentral Processing Unit中央處理器GPUGraphics Processing Unit圖形處理器CUDACompute Unified Device ArchitectureNVIDIA推出的GPU運行時APIApplication Program Interface應用程序接口TCOTotal Cost of Ownership總體擁有成本K8SKubernetesGoogle推出的容器編排器RoCERDMA over Converged Ethernet基于融合以太網的RDMASLAService Level Agreement服務等級協議GPTGenerative Pre-Trained Transformer生成式預訓練Transformer模型

友情提示

1、下載報告失敗解決辦法
2、PDF文件下載后,可能會被瀏覽器默認打開,此種情況可以點擊瀏覽器菜單,保存網頁到桌面,就可以正常下載了。
3、本站不支持迅雷下載,請使用電腦自帶的IE瀏覽器,或者360瀏覽器、谷歌瀏覽器下載即可。
4、本站報告下載后的文檔和圖紙-無水印,預覽文檔經過壓縮,下載后原文更清晰。

本文(中移智庫:2023新型智算中心算力池化技術白皮書(31頁).pdf)為本站 (科技新城) 主動上傳,三個皮匠報告文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對上載內容本身不做任何修改或編輯。 若此文所含內容侵犯了您的版權或隱私,請立即通知三個皮匠報告文庫(點擊聯系客服),我們立即給予刪除!

溫馨提示:如果因為網速或其他原因下載失敗請重新下載,重復下載不扣分。
客服
商務合作
小程序
服務號
折疊
午夜网日韩中文字幕,日韩Av中文字幕久久,亚洲中文字幕在线一区二区,最新中文字幕在线视频网站