《中國移動研究院:網絡賦能AI的思考和實踐(29023)(23頁).pdf》由會員分享,可在線閱讀,更多相關《中國移動研究院:網絡賦能AI的思考和實踐(29023)(23頁).pdf(23頁珍藏版)》請在三個皮匠報告上搜索。
1、網絡賦能AI的思考和實踐中國移動研究院 陸璐2023年10月目錄201網絡與AI的融合發展趨勢02網絡賦能AI的思考與實踐 數字經濟社會步入高質量發展新階段,通用智能技術加速發展,促進網絡從傳統通信網絡向新型信息通信網絡加速轉變數字經濟和AI發展對網絡提出了新的需求3數字經濟步入發展新階段由高速增長階段轉向高質量發展階段,成為全面建設社會主義現代化國家的首要任務通用智能加速發展通用智能成為推動科技跨越發展、產業優化升級、生產力整體躍升的驅動力量 提供通信、感知、計算、智能、大數據、安全等一體融合的新一代信息服務提供語音、短信、移動寬帶等各類傳統通信服務 網絡實現智能的普惠泛在,AI賦能未來網絡
2、的。智能自治。,二者“雙向驅動”網絡與AI的融合包括“AI賦能網絡”和“網絡賦能AI”兩個方面新型信息通信網絡是實現AI泛在普惠的基礎平臺,使能AI成為泛在化的社會級服務網絡與AI相互驅動發展4AI賦能網絡網絡賦能AIAI是滿足移動通信網絡新指標的關鍵路徑,賦能網絡提升網絡運行效率、降低運維成本、增強用戶體驗網絡網絡性能指標要求更全更高網絡復雜度逐代遞增網絡需快速適配多樣化場景定制化需求AI已成為社會級服務通用智能時代需要隨時隨地的AI接入需要泛在算力需要泛在連接由場景驅動,重點解決網絡泛在算力和平臺化服務網絡的構建問題,支撐數據/AI模型流動和一體化AI服務供給,助推AI成為社會級服務6G和
3、算網一體賦能AI的思考56G網絡支持網絡能力聚合、AI數據和模型流轉及AI任務調度執行等,提供按需匹配的、質量可保障的平臺化服務網絡構建1、算力+能力2、平臺賦能場景AI調用服務算網一體6G算網一體通過計算和網絡的深層次融合,為AI提供新型智算基礎設施、高效智算中心網絡和高性能廣域互聯網絡目錄601網絡與AI的融合發展趨勢02網絡賦能AI的思考與實踐016G架構賦能AI02算網一體賦能AI7 數據面:構建統一數據服務框架,以服務化功能的形式支持數據的采集、預處理、分析、存儲、轉發,為AI提供高質量數據 計算面:以任務為中心進行算網聯合編排,為AI的訓練和推理提供按需、個性化、可保障的算力資源
4、服務使能層:對AI服務需求進行分解,對數據、計算、連接資源進行編排調度 數字孿生體:為AI賦能網絡提供真實的訓練環境和可靠的預驗證平臺提出三體、四層、五面的6G總體架構,其中數據面、計算面、服務使能層、數字孿生體共同實現6G AI內生的信息服務全流程支撐服務化功能層服務使能層控制面用戶面數據面計算面安全面連接與路由層(空天地多接入,可信連接,異構互聯,算力路由,確定性轉發)通信與算力層(無線通信,光通信,計算,存儲)網絡本體數字孿生體管理編排體孿生大模型閉環預驗證統一數據與控制接口自治運維管理資源智能調度編排數據管理能力開放管理網內AI服務第三方AI服務通感服務場景模型庫任務分解能力+服務編排
5、能力計算服務“三體四層五面”6G總體架構 功能異構:聚焦狀態、AI模型等數據采集、預處理、存儲、共享等;聚焦AI計算等任務的分解、調度、執行等 指標各異:數據存儲要求高可靠,數據共享要求高同步,AI計算要求高性能 演進不同:可用可靠存儲、高速數據訪問等數據技術,以及高性能計算等技術新增數據面,計算面l 為什么需要新增數據功能和計算功能?l 為什么新增的數據功能和計算功能需要設計新的獨立面?網絡需新增兩類功能:以數據為中心的新的存儲和交換機制,以計算為主的新的處理邏輯功能、指標、演進優化路線和傳統控制面、用戶面差異較大能力問題:l面向機器和智能的業務與傳統業務特征不同,控制手段不同l面向新型感知
6、數據的傳輸、處理沒有相應功能設計性能問題:l現有網絡采集的數據在數量、質量、性能不足lAI的算法、數據、算力不能高效集成,與網絡對象不能有機融合現有架構的不足業務需求躍遷服務于人與物 +服務于機器和智能服務于連接管道 +服務于信息的全流程服務于業務報文轉發 服務于感知+AI數據綜合處理+規則式信息“生產”智能化信息“生產”+86G架構新增數據面和計算面的必要性分析l數據采集:以服務化功能的方式支持6G新型網絡數據的采集l數據預處理:對采集的網絡數據進行去重、過濾、校正等預處理,為網絡AI數據分析提供其所需的高質量數據l數據分析:通過AI模型對采集和預處理的6G新型數據進行分析處理;建立數據管道
7、,實現數據的隨路分析l數據存儲:用戶基礎數據和個性化策略數據分級分類存儲,實現6G新型數據的統一存儲l數據轉發:擴展5G用戶面的數據轉發功能,支持6G網絡新型數據的多設備數據傳輸l數據按需提供:對網絡數據進行采集、處理和存儲,為網絡AI提供高質量數據;l數據高效傳輸:為AI模型和參數的傳輸,提供滿足其QoS需求數據通道數據面基本功能數據面對AI內生的支持服務使能層連接與路由層通信與算力層數據面控制面用戶面計算面數據采集安全面數據預處理數據分析數據存儲數據轉發數據去重數據過濾數據校正非結構數據存儲統一數據存儲分析數據存儲其他存儲數據統計相關分析聚類分析數據匯聚數據分發任意拓撲轉發非per UE轉
8、發感知數據采集AI數據采集網絡狀態采集用戶數據采集匿名化處理趨勢分析管理編排體/數字孿生體數據面通過構建統一可信的數據服務框架,提供數據采集、預處理、分析、存儲、轉發服務,為網絡AI提供高質量數據,為AI模型和參數的傳輸構建數據通道96G架構數據面設計計算面以任務為中心進行AI在內的計算任務編排,基于服務化設計提供計算即服務,實現算網一體內生設計目標106G架構計算面設計服務使能層管理編排體/數字孿生體連接與路由層l計算資源管理:l資源統一建模:對計算資源的度量和歸類l資源注冊:將計算節點的相關信息注冊在計算面中,從而完成一個對計算節點的整體拓撲l資源感知:計算節點狀態感知,對算力節點狀態、資
9、源等信息的動態感知能力l計算任務編排:識別應用計算任務需求,按需進行計算任務分解和匯總,根據應用部署需求和算網資源情況,能夠將應用動態部署到算力節點上l計算策略控制:根據初始算網業務需求,能夠生成算網融合調度策略,并進行合理的算網路徑規劃l計算會話管理:增強會話模型,在會話QoS參數中攜帶計算相關需求l多要素按需智能編排:實現AI服務的多樣化供給l任務式的AI計算服務提供:構建端到端的AI學習和推理環境l資源與業務深度融合:實現面向AI業務高QoS的全生命周期保障計算面基本功能計算面對AI內生的支持計算面控制面用戶面安全面數據面計算任務編排計算任務分解計算任務需求識別計算任務映射部署計算任務匯
10、總計算資源管理計算資源拓撲試圖計算資源統一建模計算資源注冊管理計算策略控制算網路徑規劃計算任務移動性調整計算會話管理計算會話模型算網QoS保障計算資源狀態感知 在控制面的全局控制下,基于統一的數據面、計算面,五面協同,共同完成AI計算任務的分解、調度和執行,形成跨網絡功能面的AI能力體系,共同構成AI內生的網絡架構11五面協同,使能AI內生網絡架構用戶面業務報文計算面數據面業務報文計算結果數據、AI模型控制面內生AI網絡安全安全面全網統一控制用戶接入錨點,業務數據收發,提煉用戶、網元等的特征數據,提供給數據面面向AI計算任務,進行計算任務的分解、調度,協同各面共同計算從各面采集數據、預處理、可
11、靠存儲、各面共享,為計算面提供算法數據、模型管理、孿生數據AI執行AI計算AI執行計算結果AI執行控制控制控制為AI賦能網絡提供真實的訓練環境和可靠的預驗證平臺孿生體AI執行目錄1201網絡與AI的融合發展趨勢02網絡賦能AI的思考與實踐016G架構賦能AI02算網一體賦能AI13算網一體創新技術筑牢高性能AI基礎底座算力卸載算力原生存算一體算力度量云原生多樣性算力全程可信算力路由在網計算PON高速全光接入算力交易數據流通安全編排隱私計算算網多要素融合編排芯片節能數據中心節能服務器節能綠色安全400G/800G全光高速互聯OTN靈活光電聯動算網SPN承載泛在調度應用感知確定性網絡新一代SD-W
12、ANSRv6/G-SRv6低碳能源算網數據感知智算中心融合服務技術算力提升技術以網強算技術星云算力運營服務層編排管理層算網基礎設施層算網智能化智能網絡調度中國移動持續推動算力網絡技術創新突破,構建算力網絡核心技術體系,已形成一批標志性算網一體創新技術,目標打造標準統一、技術領先、兼容開放的高性能智算底座,為AI應用強實筑基算力網絡核心技術體系提出十大技術發展方向和32大核心技術算網一體創新技術入算算間算內算力路由算力路由突破互聯網架構協議廣域廣域高通量網絡高通量網絡突破廣域傳輸性能瓶頸算力原生算力原生實現應用跨架構遷移在網計算在網計算打破算網邊界全調度以太網全調度以太網突破無損以太性能瓶頸G-
13、SRv6G-SRv6統一承載協議400G/800G400G/800G超高速大容量全光網絡新一代新一代SD-WANSD-WANundelay與overlay協同全光全光接入接入新型接入網架構入算-算力路由CATS(1/2)創新提出算力路由體系,將算力信息引入路由域,通過統一控制和調度實現算網資源的全局優化當前進展:實現國際標準突破,推進樣機研發和性能驗證歷時4年推動IETF成立算力路由工作組CATS,中國移動擔任主席完成首個立項:CATS問題分析、場景及需求研發算力路由樣機,初步驗證了在負載較重的場景下,全局時延優化和系統處理容量上約30%的性能提升(1)感知:路由系統感知計算資源(2)路由:綜
14、合網絡和計算信息尋址選路解決思路在路由中引入計算信息,進行聯合調度,邊緣節點邊緣節點中心云問題本質計算和網絡是獨立系統,算的負載和網的擁塞信息沒有產生關聯算:降低負載、計算資源預留.網:增加帶寬、配置專線.增加網絡建設、運維成本 造成大量計算資源的閑置-計算負載高及網絡隊列深的條件下,邊緣響應平均時延及尾時延遠大于中心云-算的負載狀態以及網的擁塞情況均是問題來源發現問題 云邊以及邊邊調度之間出現“性能反轉”形成算力感知網絡CAN的核心方向-算力路由15入算-算力路由CATS(2/2)探索underlay和overlay技術路線需同步探索不同路線,一方面研究新型算力路由架構和協議;另一方面研究面
15、向AI的應用層和網絡層跨層協議、算法優化明確廣域和局域場景適用范圍需分析驗證不同方案的協議開銷和性能優化,研究量化各個方案的適用范圍,重點探索面向AI大模型調度的算力路由方案算力路由的不同技術路線需要面向多種場景、不同范圍等進一步深入研究,同時探索與AI結合的性能優化方案驗證基于隨機森林算法預測的算力路由優化方案算力收集頻率設置為15s,在兩次收集之間通過預測反饋機制實現90%的平穩性提升,并進一步提升性能推動面向AI大模型的算力路由場景寫入CATS WG標準 基于CATS的分布式推理 基于CATS+AI的內容獲取阿里巴巴:draft-an-cats-usecase-ai基于預測的調度分布 無
16、預測的調度分布 AI-based Media Distribution and Traffic SteeringBBC:ai4me.surrey.ac.uk進一步攻關算力路由核心技術難點,構建國內外標準體系,推動實現算網一體豐富產業生態豐富產業生態依托CFITI驗證核心技術,推進共建算網一體孵化和評測環境深化技術攻關攻關算力指標定義、通告頻率優化、多維選路等關鍵技術推進標準體系推動CATS架構等系列標準,擴展CATS工作組范疇從單域擴展至多域16算內-算力原生CAMA源源轉換工具跨架構編譯器“芯合”算力原生平臺統一編程套件(IDE環境、編程模型、計算庫)自適應運行時CANNCUDAVastio
17、neAPIROCmCIM RT/Driver.硬件層1體適配1次開發應用層框架層.模型訓練領域應用圖像識別視頻分析.典型推理類應用4大組件提供跨架構一站式解決方案 統一編程套件:統一編程模型+標準IDE+計算庫 源源轉換工具:CUDASYCL轉譯 跨架構編譯器:圖算融合編譯+原生流轉文件 自適應運行時:異構設備統一抽象+動態映射執行智算應用在3家智算芯片跨架構部署遷移 平臺實現視頻分析、圖像識別等典型智算應用在英偉達、華為、瀚博等3家智算芯片上的跨架構部署遷移 遷 移 時 間 90%當前:“芯合”算力原生平臺1.0未來:“芯合”2.0升級為融通智算生態豎井,中國移動聯合產業提出算力原生CAMA
18、原創技術,目標實現“應用一次開發、跨芯部署遷移”,研發“芯合”算力原生平臺,開辟以軟件為核心的智算產業鏈牽引全新路徑未來將融通更多異構芯片、擴展更多計算庫、支撐更多業務場景2023年中國移動合作伙伴大會上,中國移動聯合13家合作伙伴發布國內首個支持智算應用一鍵式跨架構遷移的平臺算力原生“芯合”,有望破解AI應用跨架構部署遷移的全球智算生態發展難題,可實現“應用一次開發、跨芯部署遷移”,顯著降低了AI應用向國產化芯片的遷移成本和復雜度,是我國在基礎軟件領域破解國產智算生態發展的突破17算內-全調度以太GSE(1/2)網絡性能決定GPU集群算力加速比網絡可用性決定GPU集群穩定性丟包敏感,2%丟包
19、RDMA吞吐率下降為0GPU集群性能 單GPU性能*N網絡設備容量決定GPU集群組網規模17當前:網絡性能和成本無法兼得未來:革新以太技術、升級高速互聯革新以太網底層轉發及調度機制,以開放破壟斷,突破傳統以太性能瓶頸,以網強算,助力AI大模型訓練InfiniBand專用網絡、超高性能、成本昂貴傳統無損以太生態開放、性價比高、性能受限網絡規模=K2/4(K=單臺設備端口數量)AI大模型以GPU集群分布式訓練為基礎,集群節點間頻繁地參數同步帶來大量通信開銷,網絡技術和設備能力成為提升GPU集群算力水平的關鍵集群有效算力GPU單卡算力*總卡數*線性加速比*有效運行時18算內-全調度以太GSE(2/2
20、)全調度以太網(GSE)技術架構,最大限度兼容以太網生態,創新基于報文的轉發及調度機制,構建無阻塞、高帶寬、低時延的新型智算中心網絡,形成標準開放的技術體系,助力AI產業發展創新以太網轉發機制,實現三大核心機制轉變盲發+被動擁塞控制“局部”決策轉發逐流分發感知+主動流量控制“全局”最優調度逐“報文容器”分發分發粒度發流模式轉發策略當前未來云網智聯大會發布云網智聯大會發布全調度以太網技術架構白皮書全調度以太網技術架構白皮書中國算力大會正式啟動中國算力大會正式啟動全調度以太網(全調度以太網(GSEGSE)推進計劃)推進計劃中國網絡大會發布中國網絡大會發布業界首款業界首款GSEGSE原型系統原型系統
21、CCSACCSA成功立項成功立項全調度以太網總體技術要求全調度以太網總體技術要求2023.2023.6 62023.2023.8 82023.2023.9 92023.52023.5 原型系統初步驗證結果表明,在多種主流場景下,基于GSE互聯的任務完成時間相較傳統RoCE網絡性能可提升23倍,且參數量越大,提升越明顯期待更多產學研合作伙伴加入GSE推進計劃,共同開展四層(物理層、鏈路層、網絡層、傳輸層)+一體(管理和運維體系)攻關19算內-在網計算NACA(1/2)衡量分布式應用通信性能的重要指標是任務完成時間,通信瓶頸問題導致任務完成時間過長,在網計算突破現有計算模式,重構應用處理邏輯,降低
22、節點間通信開銷,為系統算效提升帶來質變分布式AI系統面臨通信瓶頸問題在網計算實現分布式AI性能躍升單單次次聚聚合合時時延延單單次次同同步步時時延延與傳統軟件實現特定集合通信操作相比,Infiniband 在網計算SHArP方案性能提升近5-9倍在網計算主要優勢流量壓縮縮短傳輸路徑線速處理網絡負載不均衡流量需求不對等通信模式不匹配分布式AI訓練以巨型流為主,ECMP等方式造成流量分布嚴重不均多打一問題造成訓練最后一跳和接收方之間Incast擁塞,長尾時延過大進程間多對一、一對多及多對多的通信需求在計算節點間目前以單播實現20算內-在網計算NACA(2/2)產業發展挑戰在網計算NACA架構高性能互
23、聯分布式應用DC交換機端側適配器邊緣匯聚交換機園區網關編排管理資源管理拓撲管理任務管理跨架構統一編譯管理運行時管理在網計算通信庫可靠傳輸InfinibandOmni-PathSlingshot同步/異步控制 多對一通信一對多通信多對多通信AI訓練/推理大數據MVAPICHHPC標識轉發拓撲感知RoCE編排管理異構網元核心特征編程范式統一通信原語統一邏輯物理統一NACA物理實現比傳統計算實現方式更加親和業務邏輯拓撲以統一的網絡設備原語實現在網計算通信庫,提升通用性為應用程序開發提供統一編程語言及編譯部署模式基于RDMA、CXL等高性能互聯協議構建統一網內資源池網內資源統一編程方式不友好設計實現封
24、閉化應用場景豎井式面向分布式AI/HPC/大數據等應用需要設計專用系統,數據結構、數據類型實現有差異目前只有Infiniband體系架構支持在網計算,但IB軟硬件生態封閉,使用成本高昂應用程序開發和網絡設備編程有差異,應用開發者學習使用在網計算門檻高標準推進產業實踐聯合產業共同發布在網計算(NACA)技術白皮書CCSA牽頭完成業界首個在網計算應用場景和技術需求標準立項試驗驗證基于中國移動CFITI算力網絡試驗網完成分布式AI模型訓練場景性能測試在網計算NACA技術架構圍繞拓撲映射、編程范式、計算實現、資源管理形成”四個統一”,全面提升在網計算通用性,為分布式應用加速賦能21算間-廣域高通量網絡
25、(1/2)隨著智算、超算業務的迅猛發展,東數西訓、東數西訓等多智算/超算中心間數據交互需求逐漸增多,亟需廣域高通量網絡技術,實現海量數據的高效傳輸超算、智算數據量在TB/PB級別天文觀測:TBPB/次基因測序:TB100TB/次影視素材渲染:10TB100TB/節目屬于長肥網絡(LFN)跨省遠距離傳輸,高帶寬高時延網絡傳輸帶寬:10Gbps傳輸時延:20ms50ms網絡多樣,無法做到鏈路完全無損鏈路層誤碼率不可避免大象流負載不均,存在擁塞丟包多流競爭,存在微突發丟包傳統TCP協議在廣域數據傳輸中吞吐受限,有效吞吐與鏈路時延、丟包率成反比多流傳輸時單流吞吐下降,受主機CPU性能限制,同樣存在吞吐
26、瓶頸TCP網絡吞吐=發送窗口大小RTT*丟包率單流傳輸時,時延由1ms增加到10ms時,吞吐下降10倍智算、超算業務對廣域數據傳輸提出新的要求22算間-廣域高通量網絡(2/2)針對東數西訓、東數西渲等AI場景中海量數據廣域高質量傳輸需求,提出廣域高通量技術體系,在廣域網復雜多變的網絡環境中,實現高通量算間互聯網絡廣域高通量網絡云PE云PE 超算中心數據源(私有云/公有云)廣域RDMA技術新型擁塞控制快速丟包恢復 智算中心 數據源(存儲卡/磁盤)精確丟包重傳端網協同的廣域高通量網絡技術體系貴州天眼國家天文臺傳輸距離遠:大于2200km鏈路時延長:約45ms鏈路帶寬大:10Gbps網絡類型復雜:云
27、專網、傳輸網、城域網、DC網絡傳統TCP協議單流單流435Mbps廣域RDMA協議單流單流7.36Gbps廣域RDMA協議是傳統TCP協議吞吐的16倍貴州到北京數據快遞測試廣域網核心特征數據傳輸測試結果在高丟包率環境中,始終保持高通量在流量頻繁突變中,始終保持高通量在長肥網絡傳輸時,始終保持高通量23總結 數字經濟步入發展新階段,人工智能的發展迎來新一波浪潮,AI與6G、算力網絡的融合成為新的趨勢,對網絡也提出了更高的要求 6G網絡基于三體、四層、五面的總體架構,通過數據面、計算面、服務使能層、數字孿生體共同實現6G AI內生的信息服務全流程支撐,如何更好地賦能AI發展,還需要繼續研究 基于新型智算中心和泛在智能,算網一體賦能AI加速從單點突破邁向泛在智能;另一方面,跨學科技術交叉融合成為新的趨勢,以算力路由、在網計算、全調度以太、廣域高通量網絡等為代表的關鍵原創技術亟待突破