中國移動研究院:對算力網絡新型智算和開放DPU發展的思考和實踐(2024)(23頁).pdf

編號:138664 PDF  PPTX 23頁 3.71MB 下載積分:VIP專享
下載報告請您先登錄!

中國移動研究院:對算力網絡新型智算和開放DPU發展的思考和實踐(2024)(23頁).pdf

1、對算力網絡新型智算和開放DPU發展的思考和實踐中國移動研究院 段曉東2023.082目錄01中國移動算力網絡總體進展02圍繞GPU,打造NICC新型智算中心03圍繞DPU,構建開放解耦產業生態3中國移動算力網絡的發展歷程中國移動充分發把握算力時代發展脈絡,以網強算提出“算力網絡”全新理念,兩年來持續開拓創新,全力推進算力網絡發展,在業界取得了廣泛共識,引起了巨大反響。中國移動算力網絡白皮書算力網絡是以算為中心、網為根基,網、云、數、智、安、邊、端、鏈(ABCDNETS)等深度融合、提供一體化服務的新型信息基礎設施。楊杰董事長提出“算力網絡”概念與愿景成為“5G+算力網絡+能力中臺”新型信息基礎

2、設施的關鍵一環發布算力網絡技術白皮書,提出十大技術方向提出新概念發布中國移動算力網絡白皮書和發展倡議發布新理念融入新戰略開創新方向算力網絡子鏈組建14支攻關戰隊聯合攻關產業問題組建新戰隊5G智慧中臺算力網絡發布算力網絡科技創新成果,CFITI試驗網與中國算力網、中科院信息高鐵聯合打造科學裝置構建新裝置啟動算力網絡試驗網CFITI 1.0,發布算網服務體系1.0打造新平臺4中國移動算力網絡體系架構算網一體的基礎設施融數注智的算網大腦融合統一的運營服務算網基礎設施層OTN/OXCOTN/OXC全光底座OTN/OXC統一IP算網底座分布式算力(端)分布式算力(邊)分布式算力(網)分布式算力(中心)分

3、布式算力(中心)分布式算力(邊)分布式算力(網)分布式算力(端)編排管理層 數據湖 算網統一編排 基礎算網管理 人工智能引擎 算網智能化運營服務層TaaS意圖感知統一運營能力開放算力并網MaaS綠色算網運營算網大腦算網底座數字孿生一體編排泛在調度意圖網絡算網自智算力解構安全5體系化推動算力網絡發展中國移動從算網基礎設施構建、業務融合創新、創新技術引領三條主線體系化推進算力網絡建設和發展,取得了一系列重大成果主線一面向算網基礎設施構建主線二面向業務融合創新主線三面向創新技術引領“4+N+31+X”布局,1000余邊緣節點構建E級超大規模單體智算中心打造20ms、5ms、1ms三級時延圈產品算力化

4、和算力產品化創新服務體系,發布算網服務1.0融數注智構筑算網大腦1.0三橫兩縱總體架構創新提出十大技術發展方向布局攻關三十二大核心技術6構建核心技術體系,打造技術策源高地中國移動持續推動算力網絡技術的創新突破,構建算力網絡核心技術體系,打造原創技術策源高地。算力網絡核心技術體系在網計算打破算網邊界全調度以太突破無損以太性能瓶頸移動算力5G、6G新增計算面算力路由突破互聯網架構協議存算一體突破馮氏架構算力原生實現應用跨架構遷移OIF牽頭成立全球首個CFN開源社區,IETF主導成立算力路由工作組并擔任主席廣域RDMA突破廣域傳輸性能瓶頸空芯光纖新型光纖介質與系統400G/800G超高速大容量全光網

5、絡SRv6/G-SRv6統一IP承載協議DPU多算力形態統一底座算力網絡創新技術突破新型智算打造算力高峰提出十大技術發展方向和核心技術體系加強關鍵核心技術攻關和原創技術突破7算力網絡發展推動新型算力不斷演進數據體量激增、結構多樣,對計算效率提出了更高要求,以數據為中心的多樣化新型計算架構迅速興起,中國移動圍繞CPU+GPU+DPU三大芯片全面發力,推動多樣性算力發展成熟數據中心計算架構由CPU向CPU+XPU異構化演進行業數字化轉型帶來多樣化的海量數據處理需求,傳統以CPU為中心的計算架構面臨瓶頸,以數據為中心的新型計算架構迅速興起,GPU、DPU相繼成為數據中心第二、第三顆大芯片CPU內存網

6、卡存儲總線CPU內存網卡存儲總線.DPUDPUDPUCPUCPUCPUCPU.GPUGPUGPUGPU.存儲存儲存儲存儲.加速器加速器加速器加速器.DPUNetwork FabricCPU為主的通用計算CPU+GPU+DPU等混合的異構計算面向x86、ARM、RISC-V三大CPU架構,系統性打造“芯巢”算力孵化平臺,從標準制定、芯片評估、行業賦能等多種途徑,促進多樣性算力成熟CPU圍繞GPU性能的極致利用,以新型智算為核心,打造智能算力高峰。構建新型智算技術體系,打造E級超大規模單體智算中心,支撐通用AI大模型的訓練與孵化GPUDPU通過DPU實現極致性能極低損耗,構建業內首套DPU軟硬解耦

7、系列標準,形成“1+5+4”標準化體系,成立“DPU創新開放實驗室”,推動DPU技術成熟和產業繁榮發展“3U”一體推動多樣性算力發展8目錄01中國移動算力網絡總體進展02圍繞GPU,打造NICC新型智算中心03圍繞DPU,構建開放解耦產業生態9打造新型智算中心,發展算力高峰智能算力將成為未來算力主流,中國移動加快發展智能算力,以新型智算中心為發力點,打造算力高峰,推動算力網絡實現智能躍遷新型智算中心NICC(New Intelligent Computing Center)以GPU、AI加速卡等智能集群算力為核心集約化建設的E級超大規模新型算力基礎設施,軟硬件全棧環境,支撐AI大模型的高效訓練

8、,支撐行業數智化轉型升級NICC新型智算中心技術體系智算設施智算原生ROCmCUDACANNTesnsorFlowPyTorchPaddlePaddleDeepspeed九天文件對象塊多元融合存儲GPU集群算力CPUGPU高速無損網絡高性能全以太RoCE液冷整機柜高效供電智算基建冷卻水系統智算框架AI 應用使能.跨架構編譯器算力抽象運行時“芯合”算力原生智算運營編排調度計量計費算力交易能力開放算力管理存儲管理網絡管理FCAPS管理日志管理資產管理裸金屬實例虛擬機實例容器實例異構算力池化算存網管效10近中期:五大核心技術特征全面升級面向大模型孵化,實現“算、存、網、管、效”五大核心技術全面升級,

9、構建標準統一、技術領先、兼容開放的智算底座傳統云數據中心算力以CPU為主,單機雙路GPU為主,單機8卡,扣卡互聯,最高帶寬600G風液結合,冷板或浸沒液冷,單機柜40KW普通以太網絡,10G/25GNFS、Posix、S3多協議融合,海量非結構化數據RoCE高速無損網絡,200G/400GGPU池化,算力原生跨架構遷移單一存儲協議,結構化數據為主CPU虛擬化、容器化傳統風冷,單機柜7KW新型智算中心算存網管效11中遠期:跨學科技術融合創新引領突破面向中遠期,中國移動提出具有中國特色的三大原創技術,推動新型智算中心在算、存、網、管、效五個方面融合創新,引領技術突破全調度以太網網新一代全調度以太網

10、技術生態,形成端網協同新型智算中心網絡算力原生打破異構算力技術生態豎井,實現應用跨架構遷移算 管 效算力路由改變互聯網基礎架構,協議上實現算力與距離向量疊加融合算 網 效12算力原生:智算應用跨架構遷移部署中國移動原創提出算力原生技術,著力打造“芯合”算力原生跨架構平臺,目標打破“框架+工具鏈+硬件”緊耦合的智算生態,屏蔽底層硬件差異,實現智算應用的跨架構遷移部署 發布面向智算的算力原生白皮書 提出“兩層架構”和“三大核心技術”統一編程模型及源源轉換基于SYCL的單源編程模型范式跨架構綜合編譯機制多級IR互轉,圖算融合編譯優化原生程序格式規范Host側、Deivce側指令元語及執行策略的一體承

11、載 OIF成立開源工作組,牽頭國內外多項標準立項 進行算力原生技術理念原型驗證探索“芯合”beta平臺,實現視頻分析、圖像識別兩類智算應用在GPU T4、MLU 370間的跨架構部署遷移牽頭在OIF成立算力原生子工作組牽頭在ITU、CCSA進行標準立項三大核心技術:算力抽象、跨架構編譯優化、原生運行時三階段發展路徑:異構算力資源池化、應用跨架構遷移、全局泛在融通原生運行時算力抽象跨廠商運行時接口/指令集的可變力度映射機制繁冗開發、復雜適配、各自為棧一次開發、一次封裝、跨芯遷移13全調度以太GSE:突破無損以太性能瓶頸全調度以太網突破智算中心網絡性能瓶頸,打造無阻塞、高帶寬及超低時延的新型智算中

12、心網絡,構建標準開放技術體系,助力產業發展 從“流”分發到“容器”分發 基于虛擬容器的邏輯轉發單元逐“容器”的動態負載均衡機制 從分布式管控到集中式管理集中式全局網絡信息維護及調度分布式管理面、控制面及數據面 從“推”流到“拉”流 VOQ調度,最大限度避免擁塞精細反壓機制,避免HOL等問題發布業界首個全調度以太網技術架構白皮書,展開芯片、協議、設備、管控及架構等關鍵技術攻關與傳統以太網相比,全調度以太網主要有分發粒度、發流模式及管控模式三大機制變化,實現高效、精確和可靠的網絡中國移動攜手中國信通院、騰訊、鵬城實驗室、清華大學、華為、中興、銳捷、新華三、中信科、思博倫、Intel、Marvell

13、、盛科等十余家合作伙伴,聯合發布全調度以太網技術架構(GSE)白皮書14算力路由:推動算網一體創新發展創新提出算力路由體系,將算力信息引入路由域,通過統一控制和調度進行算網資源全局優化,實現用戶體驗、資源利用率和網絡效率的最優組合14CA-BGP-LS:出口節點向算力控制節點通告算力狀態信息CA-BGP:采集算力信息,通過擴展BGP協議進行通告CA-OSPF:在域內泛洪算力信息為路由提供參考CA-Restful/json:通過restful協議接口收集Json消息算力信息CA-Netconf/yang:通過Netconf協議下發Yang模型算力配置算力路由協議簇算力路由組網架構歷時4年推動IE

14、TF成立算力路由工作組CATS,中國移動擔任主席2023年3月 CATS WG成立暨首次會議,是路由域最受歡迎的工作組之一算力路由的提出發現問題云邊以及邊邊調度之間出現“性能反轉”問題本質計算和網絡是獨立系統算的負載和網的擁塞信息沒有產生關聯解決思路在路由中引入計算信息,進行聯合調度工作組范疇和計劃15目錄01中國移動算力網絡總體進展02圍繞GPU,打造NICC新型智算中心03圍繞DPU,構建開放解耦產業生態16DPU是算力網絡算力基礎設施堅實底座DPU以數據為中心構建敏捷、靈活、高效的算力基礎設施底座,實現低損耗、高性能、高靈活、強安全,支撐算力網絡多樣化業務需求DPUCPU、GPU、AI芯

15、片管理運維系統虛擬機容器裸金屬業務網絡、存儲網絡算力節點算力服務形態算力服務管理編排智能計算AI訓練科學計算視頻渲染 云XR 全景視頻遠程控制遠程駕駛工業控制云游戲傳統云游戲云VR游戲低損耗CPU“零”損耗算力資源極致利用高性能線速轉發、極低時延無損網絡高靈活裸金屬彈性發放網絡可編程強安全防火墻等安全功能加速虛擬化安全能力增強業務場景17技術體系不完善、產業生態不健全是DPU行業面臨的核心挑戰當前各自為營、定向適配的集成模式不利于DPU產業的健康發展,亟需完善技術體系,構建統一軟硬件標準,加強產業合作,推動DPU產業生態繁榮產業生態技術體系DPU與云平臺、服務器三位一體共同構成端到端解決方案,

16、任一環節的缺失均會影響產業落地 技術架構不獨立:DPU本質是云化、虛擬化技術從純軟件實現向軟硬結合發展的結果,技術架構與云計算關系密切,耦合度高 技術路線不明晰:DPU在實現某一功能時,存在多種技術路線,無法收斂 技術標準不成熟:DPU功能與接口缺乏標準,硬件及服務器多為定制化實現,國內外相關標準組織剛剛起步DPU落地商用需要云平臺、DPU、服務器三方定向適配,導致適配時間長、成本高云計算的需求決定DPU技術體系,云計算新技術、新場景迭代頻繁,使得DPU的“易用性”成為落地關鍵服務器DPU云平臺18中國移動DPU標準和生態推進為應對DPU產業發展難題,基于中國移動三云DPU引入需求,中國移動持

17、續推動DPU軟硬解耦標準體系和開源生態構建,發布DPU技術白皮書,在業內首次提出DPU“1+5+4”標準化體系TC1WG4 DPU總體技術要求TC3WG3 智能網卡虛擬網絡加速技術標準TC606WG1 裸金屬服務器定制技術要求在OIF CFN社區成立算力卸載工作組中國移動三云DPU引入需求網絡云移動云IT云網絡加速彈性裸金屬彈性裸金屬云主機彈性裸金屬2022年7月,中國移動在全球數字經濟大會發布DPU技術白皮書一套總體架構、五大軟件模塊、四大硬件系統DPU“1+5+4”標準體系中國移動DPU標準開源進展19基于DPU的一套算力基礎設施總體架構DPU算力基礎設施由服務器硬件層、DPU軟硬融合層、

18、平臺應用層三層組成,包含管理、網絡、存儲、計算、安全五大軟件模塊和供電系統、散熱系統、帶外管理、運維策略四大硬件系統,可支持彈性裸金屬、無損網絡、高性能存儲等功能,支持虛機、容器、裸金屬的統一承載和管理 DPU管理系統虛擬機容器裸金屬計算系統安全系統 服務器 彈性裸金屬 統一管理運維 Hypervisor卸載 虛擬機零抖動 網絡數據加解密 虛擬化安全增強結構與供電系統帶外管理運維策略散熱系統服務器硬件層DPU軟硬融合層平臺應用層網絡系統存儲系統 虛擬交換網絡 RDMA高性能網絡 云盤靈活掛載 NVMe高性能存儲基于DPU的算力基礎設施架構五大軟件模塊四大硬件系統20DPU軟件“五大模塊”標準化

19、面向DPU與云平臺軟件定向開發適配成本高的問題,圍繞管理、網絡、存儲、計算、安全“五大模塊”定義功能要求和交互接口,形成DPU軟件標準化體系管理模塊01彈性裸金屬管理功能虛擬機、容器、裸金屬統一管理運維方案網絡模塊02vSwitch,RDMA控制面與轉發面解耦接口vDPA接口、RDMA兼容性編程接口存儲模塊03存儲網絡協議iSCSI、NVMe-oF存儲接口virtio-blk/NVMe計算模塊04Host OS裁剪,內核協議棧精簡優化Hypervisor前后端分離架構,libvirt標準安全模塊05網絡數據加解密虛擬化安全增強DPU裸金屬CPU硬件加速引擎PCIe總線Host OS虛擬機/容器

20、virtio-netvirtio-blk/NVMe管理模塊Cloud agentGuest OS計算模塊Front EndHypervisorBack EndHypervisorOpenStackSDN控制器存儲網絡業務網絡存儲網絡存儲模塊NVMe-oF(RDMA)virtio-backend/NVMe backend控制面iSCSI/Cephvirtio-netvirtio-blk/NVMe控制路徑數據路徑 網絡模塊網絡控制面網絡轉發面virtio-backend21DPU硬件“四大系統”標準化DPU對當前服務器硬件定制要求高,產業存在異廠家DPU卡與服務器設備不能適配的問題。針對DPU引入

21、,以四大硬件系統統一為方向推進服務器硬件標準化,突破新技術規模應用瓶頸統一整機結構及供電最大能力約束整機可支持卡的最大結構規格及最大功耗門限約束整機可支持卡在整機Standby狀態啟動統一散熱能力約束整機支持Standby狀態對卡進行散熱及調速處理策略01030402統一硬件邊帶信號定義及帶外管理功能邊界約束整機能夠提供給DPU的邊帶信號。逐步收斂帶外管理設備的交互框架,最終做到邊界清晰統一運維策略定義裸金屬場景上下電、復位、固件升級、異常下電、故障處理等情景的開關機流程及軟件22構建創新開放實驗室,推動DPU生態成熟中國移動于2022年11月成立DPU創新開放實驗室,希望以業務需求為引導,凝

22、聚產業合力、完善技術方案、制定行業標準,錨定業務場景孵化器、技術方案實驗床、產業聚合平臺三大定位,推進DPU產業穩步健康發展構建DPU創新開放實驗室已匯聚29家云平臺、服務器、DPU廠商23構建創新試驗網CFITI,打造科學裝置構建“1+9+9”節點布局、AB雙平面引擎的算力網絡試驗示范網(CFITI),并與“中國算力網”、“信息高鐵”等互聯,同步建設智算科學裝置,面向新型智算、DPU等基礎學科和前沿技術創新形成穩定實驗床“1+9+9”節點布局北方國際信息港廣東江蘇浙江山東河南山西甘肅內蒙古貴州9個集團級節點福建北京湖南四川新疆云南重慶河北寧夏9個省級節點1個中樞節點形成覆蓋廣泛、融通東西、多節點互聯的創新試驗科學裝置打造算力網絡科學裝置啟動科學裝置建設:2022年中國移動攜手鵬城實驗室、中國科學院計算技術研究所共同啟動“大規??萍佳邪l基礎設施算力網絡科學裝置合作”,以構筑公共基礎實驗平臺類國家重大科技基礎設施為目標,為算網基礎科學研究及應用提供關鍵實驗平臺和測試支撐

友情提示

1、下載報告失敗解決辦法
2、PDF文件下載后,可能會被瀏覽器默認打開,此種情況可以點擊瀏覽器菜單,保存網頁到桌面,就可以正常下載了。
3、本站不支持迅雷下載,請使用電腦自帶的IE瀏覽器,或者360瀏覽器、谷歌瀏覽器下載即可。
4、本站報告下載后的文檔和圖紙-無水印,預覽文檔經過壓縮,下載后原文更清晰。

本文(中國移動研究院:對算力網絡新型智算和開放DPU發展的思考和實踐(2024)(23頁).pdf)為本站 (學無止境) 主動上傳,三個皮匠報告文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對上載內容本身不做任何修改或編輯。 若此文所含內容侵犯了您的版權或隱私,請立即通知三個皮匠報告文庫(點擊聯系客服),我們立即給予刪除!

溫馨提示:如果因為網速或其他原因下載失敗請重新下載,重復下載不扣分。
客服
商務合作
小程序
服務號
折疊
午夜网日韩中文字幕,日韩Av中文字幕久久,亚洲中文字幕在线一区二区,最新中文字幕在线视频网站