《中移智庫:在網計算(NACA)技術白皮書解讀(2023)(21頁).pdf》由會員分享,可在線閱讀,更多相關《中移智庫:在網計算(NACA)技術白皮書解讀(2023)(21頁).pdf(21頁珍藏版)》請在三個皮匠報告上搜索。
1、在網計算(NACA)技術白皮書解讀中國移動 陸璐2023年8月中國移動提出“算力網絡”新理念中國移動充分發把握算力時代發展脈絡,以網強算提出“算力網絡”全新理念,兩年多來持續開拓創新,全力推進算力網絡發展,形成一系列創新成果,在業界取得了廣泛共識,引起了巨大反響“算網一體”是中國移動算力網絡發展的深化3算力網絡的發展經過三個階段的發展,逐漸深化2021-2023 2024-20252025 十四五階段 十五五階段及更長期起步階段:泛在協同發展階段:融合統一跨越階段:一體內生網隨算動智能編排算網一體一站服務:一站開通算網服務協同運營:云網運營雙入口拉通融合服務:產品融合、確定性服務統一運營:統一
2、入口、統一平臺一體服務:多層次智簡無感服務模式創新:多方算力可信交易運營服務編排管理基礎設施算網融合智慧內生協同編排算網一體架構及總體設計4極致互聯混合控制聯合感知算力信息網絡信息前提支撐作用ISP1ISP2CSP4CSP3CSP2CSP1拓撲信息擁塞狀態SLA指標CPU利用率異構算力算力規模集中式控制分布式控制任務分解與調配節點1節點2消費側節點3節點4算網一體通過“聯合感知”“混合控制”“極致互聯”構建面向智能化時代的數字基礎設施架構關鍵技術算力路由在網計算創新互聯網架構協議,基于算網資源聯合感知實現動態融合決策選路網絡內生算力,基于集中式控制,實現計算任務跨云、網、邊、端分布式協同ISP
3、:網絡服務提供者;CSP:算力服務提供者算網數字孿生基于網絡大模型的算網數字孿生構建可視、可管、可控的算網基礎設施廣域RDMA突破RDMA長距傳輸瓶頸,實現廣域高性能互聯分布式系統面臨通信開銷瓶頸問題5 分布式應用場景 采用8個workers和8個PSs的網絡訓練AlexNet模型,網絡通信時間占比可高達80%以上 面向AI場景的網絡優化需要更細粒度的通信算子優化方案在網計算主要面向分布式應用,隨著分布式系統規模不斷擴大,計算節點間的通信量激增,通信模式更加復雜,通信開銷已成為AI、大數據、HPC等分布式應用的性能瓶頸,嚴重制約系統規模擴展模型訓練時長分布11 Parameter Hub:a
4、Rack-Scale Parameter Server for Distributed Deep Neural Network Training,https:/dl.acm.org/doi/10.1145/3267809.3267840需要盡可能壓縮通信的時延占比,同時結合不同類型的通信過程優化分布式系統通信性能計算時間每輪迭代總時間分布式訓練管道中模型訓練時間分解1不同模型在進行分布式訓練時,各階段的時間分布不同ResNet 269的通信時間最長,且還有較長的Aggregator,AlexNet還具有較長的Synchronization,等等問題主要來源6衡量分布式應用通信性能的重要指標是任
5、務完成時間,負載均衡策略、計算節點多打一現象以及物理與邏輯通信模式不匹配等因素引發通信瓶頸問題,導致任務完成時間過長發送發送接收接收接收交換機網絡負載嚴重不均衡接收100%0%接收發送發送網絡側ECMP實現AI訓練流量調度,AI訓練以巨型流為主,HPC業務以高并發小流為主,傳統網絡調度方式難以滿足AI、HPC等計算密集型業務場景流量調優目標。多對多邏輯通信需求與點對點物理通信實現:進程間MPI接口設計包含多對一、一對多及多對多的通信需求,計算節點間目前以單播實現MPI接口,物理網絡存在大量冗余信息通信模式不匹配大數據流式計算多對一的數據處理模式:訓練最后一級交換機和接收方之間Incast擁塞,
6、造成計算流長尾時延,計算任務完成時間過長。Incast交換機發送發送發送發送接收流量需求不對等通過網絡與分布式應用各通信階段緊耦合的設計方式優化分布式處理是重要發展方向在網計算有望攻克分布式系統通信瓶頸問題7在網計算突破現有計算模式,重構應用處理邏輯,為系統算效提升帶來質變主要優勢流量壓縮在網聚合,數據消冗與求和網內處理,實現Sub-RTT通信縮短傳輸路徑交換機Tbps處理能力線速處理處理模式在網計算設備在網計算將計算卸載至網絡,實現數據隨轉隨算,實現系統加速,提升算網資源利用率。性能躍升與傳統軟件實現消息同步相比,IB SHARP方案性能提升近9倍與傳統軟件實現聚合操作相比,IB SHARP
7、方案性能提升近5倍單次聚合時延單次同步時延在網計算發展現狀產業已逐步布局在網計算的研究和實踐,中國移動積極推進試驗驗證和標準制定產業與學術進展在網計算方向已有一定共識,但仍面臨多方面發展挑戰,需要產學研協同攻關訓練提速:相比參數服務器架構BytePS,通信密集型任務最高可提升60%以上帶寬優化:相比RAR架構Horovod,降低智算集群網絡帶寬占用約1倍左右中國移動CFITI試驗網創新驗證架構AlexNetVGG19VGG16VGG11ResNet152ResNet101ResNet50BytePS330110120130110155250Horovod50013015021010014823
8、5在網計算540155175215115165265測試基準:GPU型號:2080 單位:圖片數/秒標準推進:在CCSA TC3 WG3牽頭完成業界首個在網計算行標立項基于多級可編程交換機參與參數聚合,基于IP協議設計 ATP 報文頭在網聚合ATPSHARPIB based MPI-Bcast基于IB智能網卡和IB交換機,基于IB傳輸層QP,實現參數聚合基于IB交換機的硬件組播能力,實現MPI廣播在網組播在網聚合NSDI 21IPDPS 04COMHPC 16基于NP交換機實現參數聚合,基于UDP協議設計Trio-ML 報文頭Trio基于FPGA和商用交換機實現傳輸層透明的參數聚合NetRed
9、uceASPLOS 23SIGCOMM 22在網計算發展挑戰在網計算發展面臨應用場景豎井式、協議實現封閉化、以及編程范式不友好等挑戰基于IB協議棧及專用硬件的在網計算,性能優勢明顯,但成本高,協議棧封閉不兼容現有在網計算方案面向單一場景豎井式設計,在協議設計和硬件實現等方面缺乏通用性開發模式有差異:應用程序開發模式和網絡開發模式不匹配,開發者學習門檻高運行框架不支持:Tensorflow、Spark等分布式開發框架不支持在網計算能力調用需要從產業、生態等方面破除技術壁壘,構建統一通用的在網計算能力訓練專用網元大數據處理專用網元RDMA軟件棧應用IB傳輸層IB網絡層IB鏈路層InfiniBand
10、服務器應用程序編程網絡設備在網計算程序編程訓練HPC參數向量計算消息數據類型多元應用大數據鍵值流高性能計算專用網元IB物理設備封閉化豎井式編程不友好在網計算NACA10編程范式統一邏輯物理統一通信原語統一網內資源統一 在網計算NACANetwork Assisted Computing AccelerationNACA以提升在網計算通用性為目標,重構應用處理模式,構建全新的在網計算通信庫,圍繞拓撲映射、編程范式、計算實現、資源管理形成”四個統一”,實現網絡輔助計算加速,提升分布式系統算能算效異構網元高性能互聯分布式應用DC交換機端側適配器邊緣匯聚交換機園區網關編排管理資源管理拓撲管理任務管理跨
11、架構統一編譯管理運行時管理在網計算通信庫可靠傳輸InfinibandOmni-PathSlingshot同步/異步控制多對一通信一對多通信多對多通信AI訓練/推理大數據MVAPICHHPC標識轉發拓撲感知RoCE在網計算NACA技術架構NACA架構核心在“一橫一縱”,橫向在網計算通信庫承上啟下,以異構網內算力實現統一在網計算服務,縱向編排管理全棧貫通,優化應用開發模式、協同端網任務部署、統籌網內資源管理編排管理編程范式統一網內資源統一通信原語統一邏輯物理統一核心特征1:邏輯物理統一交換機/路由器物理鏈路主機計算節點邏輯鏈路參數服務器傳統計算在網計算NACA在網計算物理實現比傳統計算實現方式更加
12、親和業務邏輯拓撲,網絡與業務緊密耦合在網計算相較傳統計算與邏輯拓撲映射更親和統一邏輯拓撲物理拓撲核心特征2:通信原語統一579123456a:1b:2a:3a:2c:4a:6b:2c:4NACA面向差異化應用定義統一在網計算通信庫,以統一的設備原語實現通信庫,提升在網計算的通用性類型數據結構統一原語 數值聚合 Array Map.get,Map.add,Map.clear 鍵值對聚合 Map Map.get,Map.add 廣播同步聚合散播AI應用參數向量聚合(數據類型:數值)大數據處理鍵值聚合(數據類型:鍵值對)在網計算通信庫聚合算子物理實現統一調用相同的聚合算子核心特征3:編程范式統一NA
13、CA面向不同應用程序設計,提供統一編程語言及通用開發模式,簡化異構設備開發入口AI訓練/推理大數據HPC軟件框架TensorFlowPyTorch Spark Flink MVAPICH應用開發網絡運維語言LyraP4all領域專用語言P4NPLMicro-C網絡設備開發統一在網計算編程框架分布式應用前端編譯中間轉譯及程序綜合網絡設備1多種在網計算程序統一編譯應用1應用2網絡設備2轉譯至異構在網計算網元核心特征4:網內資源統一NACA基于RDMA、CXL等高性能互聯協議構建統一在網計算資源池,優化網絡資源管理,提升網內資源利用率高性能互聯協議(RDMA、CXL等.)CPU在網計算節點GPUDD
14、RDDRNIC,交換芯片CPU在網計算節點GPUDDRDDRNIC,交換芯片CPU在網計算節點GPUDDRDDRNIC,交換芯片關鍵技術1:計算語義映射16消息是分布式應用進程間通信的傳遞內容。傳統網絡設備基于數據包轉發,在網計算設備基于消息處理,因此需要把消息和數據包的語義映射起來鏈路層協議頭 路由層協議頭 傳輸層協議頭攜帶消息相關信息負載 自定義協議棧優勢:設計靈活、高效劣勢:開發復雜度高,技術封閉 基于現有協議棧(如RDMA)優勢:兼容性高,可復用現有成熟加速技術劣勢:方案不靈活,傳輸效率相對較低鏈路層協議頭 路由層協議頭自定義頭負載兩種封裝機制PacketMessage數據包轉發消息處
15、理主機傳統網絡設備在網計算設備主機數據包轉發應用傳輸層網絡層IB、TCP/IP鏈路層IB Link、Eth應用傳輸層網絡層IB、TCP/IP鏈路層IB Link、Eth關鍵技術2:計算正確性保障17在網計算要保證與端側計算的結果等價,即保證計算正確性。計算正確性還受丟包影響,網絡擁塞和亂序則會加劇丟包,因此網絡擁塞控制、可靠性傳輸是在網計算正確性和計算效率的保障a1a2a3?a1+a2+?發送端接收端問題:丟包、重復包影響計算正確性聚合時發生丟包方案:依靠擁塞控制和可靠性傳輸降低丟包 利用bitmap高效記錄已收到和已處理包的序號;基于現有可靠性傳輸協議如Go-Back-N、選擇性重傳等,針對
16、在網計算進行改進。優化網絡負載均衡方案,避免負載不均導致的擁堵;基于現有PFC、ECN、DCQCN等流量控制機制針對在網計算進行改進接收數據包(MID=1,PSN=2)PSN范圍0-2已經接收的 PSN丟棄聚合第一次接收重復數據包所有數據包聚合完畢后轉發01a1a2a3?a1+a2+a3+a3發送端接收端聚合時收到重復數據包a3構造IR塊,解耦硬件、拓撲和指令依賴動態規劃算法,實現程序段高效放置程序段DAG表示法,合并DAG指令除冗異構適配程序段連接和加載 關鍵技術3:計算程序網內編排18 在網計算多級編譯編排部署架構實現程序、元素、執行一致性保證INC 程序1.INC 設備 1INC 程序2
17、INC 程序 MINC 設備 2INC 設備 N.硬件、拓撲、指令、能力多級依賴多任務共享設備,程序段集成困難 分布式分段部署,編譯加載難異構設備多、組合多、指令冗余 多級編譯編排部署在網計算程序1在網計算程序2前端編譯器IR程序1IR程序2程序分割與編排指令塊1指令塊2指令塊3指令塊4轉發程序轉發程序程序綜合可執行文件1可執行文件2可編程交換機可編程交換機FPGA智能網卡 關鍵技術4:網內資源池化 虛擬化和池化管理技術,統一北向接口,屏蔽異構硬件差異計算、傳輸周期交替,內存利用率待提高設備內存虛擬化多租戶、多實例、細粒度、動態分配作業1作業2網絡設備計算資源分區服務器 1.作業1服務器 n.
18、服務器 1.作業2服務器 n 異構網絡設備對接,端網資源一致性跨設備資源統一池化北向統一對接調度、南向注冊異構網絡、南向通知計算服務器、一致性更新協議調度器 調度策略 作業-資源建模服務器計算資源管理計算服務器 1北向資源分配接口計算服務器 2計算服務器3在網計算統一資源管理網絡設備3網絡設備2網絡設備1網內資源上報和分配網內資源請求和通告總結與展望20 深化在網計算技術攻關 圍繞在網計算關鍵技術挑戰進行聯合攻堅,共同探索解決方案,推進在網計算成為網絡內生的普適能力。推動在網計算技術開源及標準化 逐步開展在網計算標準制定及開源工作,突破行業技術壁壘,共同構筑開放共享的在網計算發展局面。開展在網計算聯合試驗驗證 基于中國移動CFITI試驗平臺,聯合開展在網計算創新技術驗證,不斷推進產業成熟。中國移動研究院公眾號中國移動研究院公眾號中移智庫公眾號中移智庫公眾號希望攜手產業界推進在網計算NACA技術的開拓和研究!