《中國互聯網協會:2023國家新型互聯網交換中心算網融合發展白皮書(32頁).pdf》由會員分享,可在線閱讀,更多相關《中國互聯網協會:2023國家新型互聯網交換中心算網融合發展白皮書(32頁).pdf(32頁珍藏版)》請在三個皮匠報告上搜索。
1、國家新型互聯網交換中心算網融合發展白皮書中國互聯網協會互聯網互聯互通工作委員會2023年7月 版權聲明 本報告版權屬于中國互聯網協會互聯網互聯互通工作委員會,并受法律保護。轉載、摘編或利用其它方式使用本報告文字或者觀點的,應注明“來源:中國互聯網協會互聯網互聯互通工作委員會”。違反上述聲明者,編者將追究其相關法律責任。編寫組成員:編寫組成員:國家(杭州)新型互聯網交換中心:葉朝陽、張士聰、顧晨輝、劉伊莎、郁文飛、孫中良、詹智勇 國家(深圳前海)新型互聯網交換中心:陳磊、譚帥帥、馬龍、徐磊 國家(中衛)新型互聯網交換中心:宋吉飛、謝蔚東、袁海亮、張佳年 國家(上海)新型互聯網交換中心:鄭榮良、張
2、茜、紀容、戚金超、黎建偉 中國信息通信研究院產業與規劃研究所:李原、湯子健、蘇嘉、王一雯、李向群、李曼 國家新型互聯網交換中心算網融合發展白皮書 1 目錄目錄 前前 言言 .1 1 一、概述一、概述 .3 3 1.1 宏觀政策環境.3 1.2 地方行動落地.5 1.3 產業加速變革.6 二、國家新型互聯網交換中心算網融合演進方向二、國家新型互聯網交換中心算網融合演進方向 .9 9 三、關鍵技術三、關鍵技術 .1212 3.1 國家新型互聯網交換中心算網融合架構.12 3.2 異構資源池化技術.13 3.3 算網融合通信技術.14 3.4 異構資源調度技術.17 3.5 算網融合編排技術.19
3、3.6 算力一體化服務技術.20 四、應用實踐四、應用實踐 .2323 4.1 國家(杭州)新型互聯網交換中心.23 4.2 國家(上海)新型互聯網交換中心.26 五、總結與展望五、總結與展望 .2828 國家新型互聯網交換中心算網融合發展白皮書 1 前前 言言 以ChatGPT為代表的人工智能應用熱潮催生了算力需求爆發,單一數據中心算力已難以滿足業務需求,亟需以網強算,通過網絡集群優勢突破單點算力性能極限,發揮算力規模效應,推動算網融合發展。國家新型互聯網交換中心作為工信部設立的國家級網絡基礎設施,旨在優化我國網間互聯頂層架構,基于“中立、開放”原則,實現跨主體、跨區域、跨層級的扁平化網絡互
4、聯互通。在布局方面,國家新型互聯網交換中心重點面向國家算力樞紐地區,服務樞紐內算力集群匯聚和樞紐間高效協同。在產業方面,國家新型互聯網交換中心生態企業涵蓋運營商、云服務商、數據中心、互聯網企業和中小企業等,撮合產業上下游供需。在技術方面,國家新型互聯網交換中心依托扁平化網絡架構,開展算力感知、算力路由、算力調度等算網融合系列技術探索與創新,融合多元異構泛在算力。在安全方面,國家新型互聯網交換中心的管理體制和運營性質為跨主體的業務資源數據與商業秘密數據提供可信防護,保障算力調度安全可控。本白皮書首先闡述了國家政策環境,歸納了各地方政府、產業界在算網融合領域的行動和進展,分析了國家新型互聯網交換中
5、心在算網融合領域的角色定位;其次提出了國家新型互聯網交換中心面向算網融合演進的架構和關鍵技術,介紹了國家新型互聯網交換中心的相關應用實踐和創新成果;最后總結了算網融合目前面臨的國家新型互聯網交換中心算網融合發展白皮書 2 挑戰并展望未來方向。由于算網融合仍處于快速發展階段,我們對算網融合的認識還有待持續深化,白皮書中存在的不足之處,歡迎大家批評指正。國家新型互聯網交換中心算網融合發展白皮書 3 一、一、概述概述 1.1 宏觀政策環境宏觀政策環境 當前,科技競爭和產業革命大潮澎湃,經濟社會的數字化發展加當前,科技競爭和產業革命大潮澎湃,經濟社會的數字化發展加速前進。為推動數字經濟發展速前進。為推
6、動數字經濟發展,我國陸續出臺多項政策我國陸續出臺多項政策,正加快構建以正加快構建以算力和網絡為核心的新型基礎設施體系。算力和網絡為核心的新型基礎設施體系。2020 年 12 月和 2021 年 5月,國家發展改革委、中央網信辦、國家工業信息化部、國家能源局4 部門聯合印發關于加快構建全國一體化大數據中心協同創新體系關于加快構建全國一體化大數據中心協同創新體系的指導意見(發改高技的指導意見(發改高技2020192220201922 號)號)、全國一體化大數據中心全國一體化大數據中心協同創新體系算力樞紐實施方案(發改高技協同創新體系算力樞紐實施方案(發改高技20217092021709 號)號),
7、圍繞“數網、數紐、數鏈、數腦、數盾”五大體系構建全國一體化大數據全國一體化大數據中心協同創新體系中心協同創新體系,明確在京津冀、長三角、粵港澳大灣區、成渝等重點區域以及部分能源豐富、氣候適宜的地區布局大數據中心國家樞大數據中心國家樞紐節點紐節點,并提出圍繞數據中心集群,穩妥有序推進國家新型互聯網交國家新型互聯網交換中心換中心、國家互聯網骨干直聯點建設,促進互聯網企業、云服務商、電信運營商等多方流量互聯互通。算力基礎設施方面算力基礎設施方面,2022 年初,國家發改委聯合中央網信辦、工業和信息化部、國家能源局批復同意在京津冀、長三角、粵港澳大灣區、成渝、內蒙古、貴州、甘肅、寧夏 8 地啟動建設國
8、家算力樞紐,8 個節點各有側重,又互為補充,以此支撐推動算力資源有序向西轉移,加快解決東西部算力供需失衡問題,圍繞 8 個國家樞紐節點,共布局了 10 個國家數據中心集群。網絡基礎設施方面網絡基礎設施方面,基礎電信運營商積極投入東西部直連網絡通道建設;工信部持續批復新增國家互聯網骨干直聯點,提升基礎電信運營商之間的互聯互通網絡性能。同時,為進一步優化我國網間互聯架構,2019 年工信部啟動新型互聯網交換中心試點工作,至今已陸續國家新型互聯網交換中心算網融合發展白皮書 4 批復杭州、深圳前海、中衛、上海四個國家新型互聯網交換中心。隨著國家相關政策的出臺,我國算網融合產業正迅速發展。隨著國家相關政
9、策的出臺,我國算網融合產業正迅速發展。根據工業和信息化部公布數據,截至 2022 年底,我國算力總規模達到180EFLOPS,存力總規模超過 1000EB,國家樞紐節點間的網絡單向時延降低到 20 毫秒以內,算力核心產業規模達到 1.8 萬億元,近年來,我國算力產業年增長率近 30%,算力總規模位居全球第二。數據中心方面,工業和信息化部公布數據,截至 2022 年底,我國在用數據中心機架總規模超過 650 萬標準機架,存力規模超過 1000EB,PUE 最優水平已降至 1.08。智算中心方面,根據 ICPA 智算聯盟統計,截至 2022年 3 月,全國已投運的人工智能計算中心接近 20 個,在
10、建的人工智能計算中心超過 20 個。超算中心方面,目前由科技部批準建立的國家超算中心共有 10 所。國際上也在加大對數字經濟的戰略布局和對新型數字化基礎設國際上也在加大對數字經濟的戰略布局和對新型數字化基礎設施的規劃建設,施的規劃建設,算力和網絡融合發展的新型基礎設施已成為多國的重算力和網絡融合發展的新型基礎設施已成為多國的重點關注方向。點關注方向。美國于 2020 年 11 月發布引領未來先進計算生態系統戰略計劃,計劃構建覆蓋政產學研的國家級算力體系,鞏固本國算力優勢,2021 年 4 月提出 2 萬億美元“新基建計劃”,其中投入 500億美元資金用于新型芯片研發,1000億美元用于鋪設覆蓋
11、美國全境的高速寬帶網絡。歐盟于 2021 年 3 月發布“2030 數字指南針”計劃,擬到 2030 年累計部署 1 萬個邊緣計算節點,為 75%的歐盟企業提供云計算、大數據和人工智能服務,讓所有歐盟家庭實現千兆連接。此外,日本和澳大利亞等國的人工智能應用和云計算發展迅猛,南非、巴西、俄羅斯作為新起步者也紛紛加大算力建設投入。國家新型互聯網交換中心算網融合發展白皮書 5 1.2 地方行動落地地方行動落地(一)上海出臺“算力浦江”行動計劃(一)上海出臺“算力浦江”行動計劃 20222022 年年 6 6 月至今,上海市通信管理局相繼發布了新型數據中月至今,上海市通信管理局相繼發布了新型數據中心“
12、算力浦江”行動計劃(心“算力浦江”行動計劃(20222022-20242024 年)和“算力浦江”行動計年)和“算力浦江”行動計劃劃 20232023 年重點任務。年重點任務。目標到 2024 年,上海市總算力超過 15EFLOPS,高性能算力占比達到 35%,上海市新建大型及以上數據中心 PUE 降低到 1.3 以下,起步區內降低到 1.25 以下,數據中心平均利用率力爭提升到 75%以上,初步建成算力交換平臺,形成算力網絡一體化調度和結算體系,網絡質量明顯提升,數據中心端到端單向網絡時延小于15 毫秒,人均可用智能算力超過 220GFLOPS。目前上海已初步構建了“3+1+N”的算力網絡調
13、度體系,在“算力浦江”首屆數字經濟發展論壇發布了基于國家(上海)新型互聯網交換中心的算力交易平臺,并在實施“智算、惠企、普惠”賦能方案、探索“試點+改造”綠色算力模式、構建全生命周期算力監管體系等方面取得顯著成效,上海電信、上海移動、上海聯通等公司與多家算力龍頭企業簽署算力基礎設施重點項目累計簽約資金已近 30 億元。下一步將圍繞算力、存力、運力等全方位指標進行設定,對核心元器件自主可控,國產芯片軟硬件適配,以及算力路由、算力感知、算力互聯互通等技術和政策堵點進行研究部署。同時,在工業和信息化部指導下,計劃啟動算力網絡監測平臺建設,分析和挖掘算網性能,賦能算力資源精準規劃,大幅提高企業算力網絡
14、利用效率,協助企業制定更加合理的資源配置方案。(二)寧夏成立產業聯盟,發布算力交易平臺(二)寧夏成立產業聯盟,發布算力交易平臺 20222022 年年 8 8 月,國家西部算力產業聯盟在寧夏銀川成立。月,國家西部算力產業聯盟在寧夏銀川成立。作為全國唯一“交換中心+樞紐節點”雙中心省區,在寧夏建立西部算力產業聯盟,將優化東西部算力資源協同發展格局,打通“數”動脈和“算”國家新型互聯網交換中心算網融合發展白皮書 6 循環。聯盟成立后,形成寧夏與京津冀地區、長三角地區、粵港澳大灣區及成渝地區四大核心區域,圍繞“數據中心算力提升工程”、“數字制造壯大工程”、“網絡聯通加速工程”等八大任務,為寧夏數字經
15、濟高質量發展提供有力支撐。20232023 年年 2 2 月,寧夏發布國內首個一體化算力交易調度平臺。月,寧夏發布國內首個一體化算力交易調度平臺。平臺定位整合寧夏地區零散算力資源,解決算力輸出、應用、交易等難題,并立足寧夏經濟與社會發展,賦能寧夏“六新六特”等產業數字轉型升級,是寧夏服務于全國各行業算力流通調度交易的載體。該平臺作為國內首個可以支持算力交易調度的應用系統,為智算、超算、通用算力等各類算力產品提供算力發現、供需撮合、交易購買、調度使用等綜合服務,將有效結合東西部算力發展需求,助力形成自由流通、按需配置、有效共享的數據要素市場,賦能東西部數字化發展。1.3 產業加速變革產業加速變革
16、 人工智能產業發展加速算力服務供給側改革。人工智能產業發展加速算力服務供給側改革。以 ChatGPT 為代表的機器學習、計算機視覺、自然語義處理等大模型架構設計趨向大規模并行,參數量達萬億級,數據量達 T 級;以自動駕駛、XR、元宇宙等為代表的新興人工智能應用對傳輸處理、快速分析、推理、決策能力提出了更高要求。隨著摩爾定律趨近于極限,傳統的以 CPU 為中心的計算架構難以高效應對復雜的數據處理場景,以 GPU、FPGA、AI 芯片為代表的異構算力需求增長迅猛,多樣化新型計算架構和跨架構開放編譯平臺已成趨勢,屏蔽底層硬件架構差異、以數據流驅動計算的開放、高效、異構的算力服務架構正在推動人工智能從
17、“單點突破”邁向“泛在智能”。三大基礎電信運營商作為數字信息基礎設施建設的中堅力量,三大基礎電信運營商作為數字信息基礎設施建設的中堅力量,正加快算力基礎設施建設投資和核心技術攻關。正加快算力基礎設施建設投資和核心技術攻關。中國電信統籌云、國家新型互聯網交換中心算網融合發展白皮書 7 網、數、智、安及平臺等多要素算力需求,持續優化“2+4+31+X+O”的泛在算力基礎設施布局,規模建設京津冀、長三角、粵港澳、成渝等區域中心節點,發布算力分發網絡平臺“息壤”。中國移動持續優化“4+N+31+X”數據中心布局,匹配國家樞紐節點,算力規模達到 8EFLOPS,可對外服務數據中心投產達 46.7萬架,實
18、現全國一級算力資源池互聯互通,云專網覆蓋超 300 個地市,發布 COCA 異構算力平臺。中國聯通積極落實東數西算戰略,完善“5+4+31+X”多級架構,加強骨干網時延領先及多云聯接優勢,全年算力投資達到 124 億元。IDC 機架規模達到 36.3 萬架,千架數據中心覆蓋 23 個省,發布算網一體化編排調度平臺。國內華為、國內華為、BATBAT 等互聯網企業等互聯網企業紛紛在各自紛紛在各自的優勢業務領域做了的優勢業務領域做了相關布局。相關布局。算力資源投資建設方面,阿里云已在全球 25 個地域部署了上百個云數據中心,包括規劃建設了 5 座超級數據中心,2022 年在河北張北、內蒙古烏蘭察布啟
19、用了兩座智算中心,為小鵬汽車等客戶提供智能計算服務;華為面向多樣性計算,基于“鯤鵬+昇騰”算力底座,推出一體化集群計算解決方案;騰訊云計劃未來 5 年圍繞貴州、京津冀、成渝等樞紐新增多個超大型數據中心集群,加碼綠色數據中心建設;百度在山西陽泉、江蘇鹽城、湖北宜昌建成了三座智算中心。關鍵環節自研芯片方面,華為的鯤鵬 920/昇騰 910以及國資背景的海光、龍芯、飛騰均已對外出售服務器芯片,滿足國產化市場需求;阿里、騰訊、百度等公司都有自主設計的CPU/GPU/NPU 芯片,如阿里的倚天 710、百度的昆侖芯二代、騰訊的紫霄推理芯片,可替代一部分英特爾、英偉達芯片,降低算力綜合成本。國家新型互聯網
20、交換中心算網融合發展白皮書 8 高??蒲袡C構積極探索算力相關技術與平臺,賦能前沿學科研究。上海交通大學構建了 AI 計算平臺,峰值算力 16PFLOPS,面向上海交通大學各院系和科研機構提供高效的算力支撐;復旦大學聯合阿里云上線了云上科研智算平臺,以先進的公共云模式提供超千卡并行智能計算,支持千億參數的大模型訓練;之江實驗室研發了“瑤光”智能計算操作系統,基于集群插件技術實現非侵入式適配算力接入,針對科學計算、模型開發訓練等算力利用場景,整合算法、算力、數據,構建一體化平臺,已集成 50 余種開源計算框架、商業計算軟件和自研智能計算軟件。國家新型互聯網交換中心算網融合發展白皮書 9 二、二、國
21、家新型互聯網交換中心算網融合演進方向國家新型互聯網交換中心算網融合演進方向 當前我國當前我國算網融合算網融合處于處于發展階段,仍然面臨發展階段,仍然面臨四大關鍵四大關鍵挑戰。一是挑戰。一是跨主體的資源匯聚挑戰跨主體的資源匯聚挑戰。目前業界已上線各類算力調度平臺,調度范圍是各算力服務商內部的計算資源,屬于煙囪式縱向調度模式,雖然業界已有相關平臺解決了特定平臺間的相互調用問題,但是尚未統籌形成更大范圍內的跨主體算力資源池一體化服務模式;二是二是區域性區域性一一體化布局體化布局挑戰挑戰。各地存在數據中心上架率不均衡、計算資源類型不均衡等問題,服務地方的算力平臺的缺失,不利于推進地方政府的雙碳目標和一
22、體化布局戰略;三是三是調度效率和成本挑戰調度效率和成本挑戰。目前跨主體之間存在網絡繞轉和跨層級網絡互通問題,調度效率有待提高,此外,專用線路成本高,中小企業使用門檻高;四是政策合規性風險。四是政策合規性風險。算網融合業務涉及互聯網數據傳送服務,屬于基礎電信業務,存在準入門檻,需考慮合規管理和安全發展的問題。國家新型互聯網國家新型互聯網交換中心作為交換中心作為國家級國家級網絡基礎設施,是全國互聯網絡基礎設施,是全國互聯互通架構的關鍵組成部分,也是全國算力網絡的樞紐性設施,發揮的互通架構的關鍵組成部分,也是全國算力網絡的樞紐性設施,發揮的作用在于實現區域范圍內的流量交換與算力調度,在作用在于實現區
23、域范圍內的流量交換與算力調度,在突破上述挑戰方突破上述挑戰方面具備天然優勢,在算網融合產業中承擔重要角色面具備天然優勢,在算網融合產業中承擔重要角色和定位。和定位。1 1、“中立中立、開放”、開放”定位定位助力助力跨主體跨主體算力資源匯聚算力資源匯聚,推進推進地方一地方一體化布局。體化布局。交換中心定位中立、開放,自身不提供算力資源,專注供需撮合與資源匯聚,能夠更好地拉通算力服務商,形成產業合力,通過建設算力平臺開展跨主體的橫向調度,促進產業和區域性的算力資源融合。2 2、扁平化網絡架構扁平化網絡架構減少流量繞轉,提升算力互聯互通效率。減少流量繞轉,提升算力互聯互通效率。國家新型互聯網交換中心
24、采用大二層扁平化網絡架構,解決目前跨主體之間存在的網絡繞轉和跨層級網絡互通問題,有效提升算力基礎國家新型互聯網交換中心算網融合發展白皮書 10 設施的網絡能級和算力互聯互通效率。3 3、“一點接入一點接入、算力貫通”、算力貫通”,實現算力網絡普惠化。,實現算力網絡普惠化。國家新型互聯網交換中心網絡兼顧專用和共享的雙重特點,有效提升網絡利用率,減少重復建設投資,降低算力網絡使用門檻,以面向中小企業的普惠化方式助力算網融合產業發展。4 4、國家級國家級互聯互通基礎設施,具備合規經營保障?;ヂ摶ネɑA設施,具備合規經營保障。國家新型互聯網交換中心業務參照基礎電信業務管理,按照主管部門要求建成電信級安
25、全保障體系,在行業主管部門的監管下確保算力調度場景的網絡安全、信息安全及數據安全。國家新型互聯網交換中心通過國家新型互聯網交換中心通過“三位一體”“三位一體”架構創新,積極融架構創新,積極融入國家算網融合產業發展大格局。入國家算網融合產業發展大格局?!叭灰惑w”具體指區域內匯聚、樞紐內和樞紐間協同的架構。各地交換中心在省內各個地市開展匯聚點建設,滿足省內一體化大數據中心、省內重點數據中心、智算中心、超算中心、第三方中小型數據中心等算力基礎設施的就近便利接入,并將匯聚點與核心節點打通,實現區域內算力資源一張網匯聚;同一樞紐內各地交換中心完成各自省內算力資源匯聚后,實現樞紐內和樞紐間的算力資源協同
26、,匯聚全國算力資源。國際互聯網交換中心國際互聯網交換中心正在積極正在積極探索,推出算網融合產品服務。探索,推出算網融合產品服務。Equinix 作為老牌國際互聯網交換中心,已在多云互聯的基礎上,開展 Equinix Metal 裸金屬服務器租賃服務,企業可以靈活使用Equinix 在世界各地部署的分布式計算資源,實現單租戶計算,同時通過 Equinix Fabric 豐富的云連接實現按需多云訪問,使企業能夠快速、高效、經濟地在多云之間實現數據和工作負載的遷移。DE-CIX 和 AMS 也均推出了 IaaS 一站式服務產品,為客戶提供算力和網絡融合一體化供給服務。國家新型互聯網交換中心算網融合發
27、展白皮書 11 圖 1 Equinix 算網融合架構圖 國家新型互聯網交換中心算網融合發展白皮書 12 三、三、關鍵技術關鍵技術 3.1 國家新型互聯網交換中心算網融合架構國家新型互聯網交換中心算網融合架構 圖 2 國家新型互聯網交換中心算網融合系統架構 按照業務功能劃分為:資源層、網絡層、控制層和應用層共四個層次,其中:1、資源層:負責匯聚接入服務商的計算、存儲等資源,資源類型包括裸金屬資源,同時也包括虛擬機、容器等云化資源;資源主體包括通用算力、智能算力和超算算力。涉及下文的異構資源池化技術。2、網絡層:負責算力信息與數據報文的感知、選路和轉發。采用兼容算網融合關鍵網絡技術的算力網關設備,
28、控制面實現算力實時感知與動態聯動更新,轉發面支撐大規模多跨數據的高效流通與靈活調度。涉及下文的算網融合通信技術。3、控制層:融合調度算法和軟件定義交換中心控制技術,通過交換中心算網調度編排控制器實現不同算網場景的差異化融合編排國家新型互聯網交換中心算網融合發展白皮書 13 需求,以及根據用戶偏好下實現豐富、靈活、智能的多維度異構資源調度和網絡一體化融合編排。涉及下文的異構資源調度技術和算網融合編排技術。4、應用層:通過構建開放的算力服務平臺,為用戶提供資源上架、供需撮合服務,并進一步具備資源調度、計算任務服務能力,提供場景化解決方案,實現從用戶需求到資源分配、資源交易、資源使用的一體化算力資源
29、服務。涉及下文的算力一體化服務技術。3.2 異構資源池化技術異構資源池化技術 算力可以由不同的硬件架構組成,一般包括 CPU、GPU、FPGA 和AISC 等類型,在不同的應用場景中,異構算力發揮不同的計算效力。通過交換中心操作系統(IXOS)將底層設施與上層應用解耦,實現多元異構資源的池化管理,通過交換中心操作系統控制器(IXOS Controller)實現對抽象算力資源的全生命周期管理。異構資源池化技術實現了將底層的異構算力作為統一資源進行有效的管理,用戶不必再關心底層資源狀況,可專注于更有價值的業務層面。圖 3 異構資源池化技術架構 交換中心操作系統在現有操作系統的基礎上通過增加軟件層將
30、交換中心操作系統在現有操作系統的基礎上通過增加軟件層將應用與物理算力解耦。應用與物理算力解耦。交換中心操作系統部署在每一個物理算力資源的底層操作系統之上,發現并管理物理節點上的算力資源,同時把算力資源的計算能力通過內部網絡提供給各個物理節點上的虛擬機、容國家新型互聯網交換中心算網融合發展白皮書 14 器,將物理算力資源抽象成彈性的邏輯算力資源。應用調用邏輯算力,再由交換中心操作系統將邏輯算力需求匹配到具體的物理算力,實現算力資源池化,具備高利用率和高性能特點。高利用率 支持將算力硬件資源切片為任意大小的邏輯資源,從而允許多算力負載并行運行。高性能 交換中心操作系統部署后幾乎不產生性能損耗,邏輯
31、算力資源隔離,并行用戶無資源互擾。交換中心操作系統控制器通過開放服務接口實現對交換中心操交換中心操作系統控制器通過開放服務接口實現對交換中心操作系統納管抽象算力資源的全生命周期管理。作系統納管抽象算力資源的全生命周期管理。所有部署交換中心操作系統的物理算力節點都直接或者間接通過網絡連接到交換中心操作系統控制器,并與其保持信息同步。交換中心操作系統控制器具備服務注冊、服務發現功能,可基于 DNS SRP 技術匯聚集群內各個物理節點 IP 地址、物理算力資源信息、邏輯算力資源信息以及應用任務信息,通過各種 Rest API 支撐各類算力資源的開通、關閉、掛起等全生命周期管理操作,實現面向異構資源池
32、的最小抽象算力單元管理。3.3 算網融合通信技術算網融合通信技術 在控制層面和轉發層面采用不同的網絡通信技術??刂茖用娌捎枚嗄B通信技術,設計算網融合協議,使能算力信息在網絡報文上承載,實現算力動態感知與全局聯動更新;轉發層面采用 EVPN 和SRv6 構建大二層扁平化網絡,實現網絡靈活可編程;設備層面采用兼容上述協議的算力網關設備,實現分布式組網,支撐大規模算力網絡構建。國家新型互聯網交換中心算網融合發展白皮書 15 控制層面采用多模態通信技術,設計控制層面采用多模態通信技術,設計支撐大規模異構算力資源支撐大規模異構算力資源動態感知的網絡協議動態感知的網絡協議,形成計算、網絡、存儲一體化形成
33、計算、網絡、存儲一體化封裝封裝成型的成型的算算網融合網融合協議協議。立足現有路由協議進行拓展和改造,將算力信息承載于網絡報文之上,實現網絡鄰居的建立、維護、中斷,并基于網絡鄰居關系,將算網存信息在鄰居之間相互通告與傳播,實現大規模的數據實時動態感知與全局聯動更新,支持全量更新和增量更新機制,具備算網存團體屬性控制能力,實現算網存數據的靈活管控、按需流轉。使現有存、算、網串行處理機制升級為高并發處理機制,提升算力感知敏捷度。以 BGP 為例,通過定義一種新的 TLV(Type-Length-Value)或者定義新的 BGP 地址族來承載所有的算力字段信息。圖4 算力路由屬性格式 轉發層面采用新型
34、網絡通信技術。一是采用轉發層面采用新型網絡通信技術。一是采用 EVPNEVPN 構建大二層扁構建大二層扁平化網絡。平化網絡。減少樹狀網絡帶來的流量繞轉,支持多活保護,網絡利用率高,網絡邏輯資源可擴展能力強;二是采用;二是采用 SRv6SRv6 技術支持網絡技術支持網絡可編程、靈活可擴展可編程、靈活可擴展?;?SRv6 強大的網絡路徑、業務、轉發行為三層可編程空間,可通過網絡、計算聯合路徑計算,按需、動態生成業務調度策略,在入口網關處完成業務需求和轉發路徑的匹配與映射,實現基于 SRv6 的顯式路徑轉發,支持將應用請求沿最優路徑調度至最優節點,支持基于“路徑+節點”聯合計算和優化,實現可以感知
35、業務需求的、綜合考慮“路徑+節點”狀態的新型路徑調度,01234567890123456789012345678901Length of Computing&Network informationComputing&Network information(variable)Computing Service ID(4 octets or 16 octets)Computing Node TypeAttr.Flags=(O,T,E)Attr.Type Code=64Attr.LengthComputing-aware Routing Node router IDComputing Node IP
36、 address(4 octets or 16 octets)國家新型互聯網交換中心算網融合發展白皮書 16 支撐算網融合業務的不同細分訴求。設備層面,兼容算網融合協議,具備多模態實時感知與動態更設備層面,兼容算網融合協議,具備多模態實時感知與動態更新技術的分布式算力網關設備。新技術的分布式算力網關設備。通過設計設備軟硬件架構、關鍵算法和軟件應用,采用控制面和轉發面解耦的多層次分布式承載模型,支持 SRv6、APN6 和確定性網絡等 IPv6+高階技術,兼容算網融合協議。硬件層面,采用智能網卡、多核 CPU 和外掛大緩存芯片等定制硬件,滿足算力網絡對網絡和計算提出的新要求。軟件層面,研發設備操
37、作系統,以容器化封裝各類功能模塊,算力網絡部分需具備以下功能。網絡信息交互功能:支持對網絡狀態的獲取,網絡狀態參數包括但不限于網絡時延、轉發路徑等;支持獲取算力網絡節點之間的網絡連通性和時延等信息,探測算力服務是否可達。算力信息交互功能:支持動態獲取可用資源池內的相關算力資源信息(空閑算力、服務能力等)并在網絡內通告;獲取方式包括通過 UI 直接配置,通過算力探針、開放 API 對接獲取等多種方式。網絡連接功能:支持對可用的資源池算力資源以及關聯的網絡資源進行調度管理;轉發面支持 SRv6 協議和 BGP-LS 協議,支持根據算力路由表生成算力轉發表,按照算力轉發表項進行轉發;支持接收控制面下
38、發的其他網絡連接指令,包括采用 VXLAN、SR MPLS 等多種方式建立指定用戶與資源池的網絡連接;平臺接口適配:支持與算力服務平臺以及主流云管平臺、網管平臺的接口適配,以支持實現算力網關的全部功能;接口支持包括但不限于 HTTP RESTfulAPI、Netconf、SNMP 等。國家新型互聯網交換中心算網融合發展白皮書 17 3.4 異構資源調度技術異構資源調度技術 基于底層抽象化的算網資源,通過采用主從分布式控制架構并集成多維調度算法的交換中心操作系統控制器,實現異構算力資源的個性化策略調度、任意擴展和彈性伸縮,滿足綠色雙碳、提效降本的調度目標。采用以采用以主從式控制為基礎的多站點分布
39、式架構,提高異構資源調主從式控制為基礎的多站點分布式架構,提高異構資源調度的靈活性和擴展性,支持任意伸縮的算力網絡部署。度的靈活性和擴展性,支持任意伸縮的算力網絡部署。其中主控制器負責核心邏輯處理,銜接上層運營服務意圖提供運營接口,并統一管控編排底層的物理和軟件資源,各區域間的主控制器可通過有狀態DNS 的推送機制實現跨區域可用資源的動態感知;從控制器對接下層多維算力資源,并通過資源適配器調配泛在資源編排。二者通過專門設計的算力網絡動態描述模型作為各操作的數據媒介和橋梁,當上層管理和操作算網拓撲時,控制框架會以動態模型作為數據支持來執行相應的動作,并按照動作的執行結果進行相應的模型更新。靈活性
40、和靈活性和擴展性方面擴展性方面,主控制器支持通過 HTTP 協議與外部插件交互,用戶可以自行編寫并部署定制化的調度邏輯,滿足接入其它系統進行調度等需求。內置的插件實現較為通用的能力,與外部插件相輔相成,用戶可以以最小成本、不需要改動聯邦控制面的方式實現調度邏輯的拓展,并依賴強大的多集群分發能力將調度結果生效;任意擴展和彈性伸縮任意擴展和彈性伸縮方面方面,通過主從分布式控制架構,可管控的底層算力資源量任意擴展,依托于池化算力打破資源對算力網絡規模的限制,支撐上萬節點的算力網絡。支持基于集群水位的動態權重調度,通過收集每個集群的資源總量與使用量計算出可用量,并將可用資源量作為副本調度的權重,最終達
41、到各個集群負載均衡,所有集群的利用率均可維持在95%以上?;趦戎玫恼{度算法支持多維度調度模型構建?;趦戎玫恼{度算法支持多維度調度模型構建。支持更豐富的調國家新型互聯網交換中心算網融合發展白皮書 18 度語義,通過標簽、污點等更靈活的方式選擇集群,提供有狀態、作業類資源調度能力,同時引入依賴跟隨調度等優化,對于調度到不同集群中的資源,支持基于集群名或標簽進行差異化,提供多樣化的調度模型,包括但不限于以下幾種:隊列資源公平調度 基于不同資源池、不同資源類型的使用優先級,劃分不同的作業資源請求隊列,依據使用資源情況,對作業進行優先級排序,保證隊列資源使用的公平性。用戶資源配額調度 基于集群多用戶
42、場景,以樹狀形式描述不同組織、用戶的資源使用策略,根據使用資源情況,對作業進行優先級排序,保證多用戶間資源使用的公平性。作業優先級調度 依據用戶作業遞交時指定的作業優先級、遞交時間、資源請求量、用戶資源使用量等維度綜合考慮進行排序,優先級更高的作業優先進行調度。節點資源排序 不同的場景需要采取不同的節點資源排序策略,如在集群負載均衡場景下,優先選擇資源使用量最少的節點;在集群節能場景下,優先選擇未休眠的節點,避免不必要的喚醒操作和能源消耗。算力親和性調度 不同作業負載存在多樣化的算力需求,通過算力親和調度,實現多樣化算力需求任務的最優資源匹配分發,可實現算力資源的最大化利用。資源搶占調度 國家
43、新型互聯網交換中心算網融合發展白皮書 19 統一調度支持用戶、隊列間的資源借用,用以提高集群資源利用率,同時涉及高優先級作業針對被借用資源的緊急回收問題。資源預留調度 通過資源預留的方式,解決大作業和小作業混合負載的場景下,小作業資源頻繁,導致大作業資源需求持續無法被滿足的問題。3.5 算網融合編排技術算網融合編排技術 算網融合編排在繼承軟件定義交換中心的云網融合編排基礎上,通過進一步新增算力原子能力、算網業務模型和開放服務接口,打造交換中心算網調度編排控制器,實現與算力供給方平臺的深度協同。計算層面聯動算力資源池 API 進行產品全生命周期管理,網絡層面聯動算力網關設備實現一鍵編排,秒級打通
44、,服務算力網絡時代各種新業態。算力原子能力方面算力原子能力方面,通過對接算力服務商 API 和算力網關,抽象不同的計算與存儲能力形成通用的算力調用接口,實現對算網資源的多種原子能力抽象、封裝;算網業務模型方面算網業務模型方面,通過按需、靈活的組合方式及編排規則,實現基于不同模型的算網融合業務一鍵開通;開放服務接口方面開放服務接口方面,北向可提供被調用的產品化和模塊化服務,南向通過統一開放的 API 接口,協同控制算力網絡控制器、公有云控制器、數據中心控制器等多元控制器,實現深度的算網一體化融合。算網融合編排需具備兩大關鍵能力:算力任務場景編排能力算力任務場景編排能力。用于編排作業的所有子任務,
45、提供多種典型拓撲模板,在任務編排界面將任務放置到畫布中,通過拖拽錨點建立連接,在任務流詳情進行依賴關系的配置與確認即可實現算網拓撲的一鍵部署。其任務詳情信息包括任務訂購的軟硬件國家新型互聯網交換中心算網融合發展白皮書 20 資源配置信息,還需涉及網絡開通和數據流向映射策略等信息。在算網拓撲運行過程中可持續對其進行增、刪等修改操作以應對業務要求的變化,當算力作業完成后支持一鍵將算網資源銷毀,快速釋放占用的算力資源,最終實現任務 Workflow 自定義+DGA+任務并行化改造。圖5 算力任務場景編排模型 算網業務算網業務服務保障服務保障能力能力。綜合考慮計算、存儲和 I/O 等多種 IT資源,對
46、異構算力基礎設施進行綜合的資源供給能力建模,并測量不同算網業務場景得出分類的資源需求模型,通過資源監控模塊主動采集底層算力資源的數據流吞吐率、數據包時延、丟包率等指標,掌握業務運行情況和性能表現開銷情況,更新實時的資源視圖。在上述資源供需模型和實時資源感知的基礎上對算網絡拓撲進行資源預估,并基于多維資源約束(計算、存儲、鏈路等)條件設計有性能保證的算網拓撲部署映射算法,從而在實現算力網絡服務分布式部署的前提要求下,高效利用底層算力資源且給予有效性能承諾。3.6 算力一體化服務技術算力一體化服務技術 算力服務平臺是面向算力服務提供方、算力服務需求方、算力平臺運營方的一站式算力服務平臺,具備基本算
47、力交易能力,提供資源上架、供需撮合服務。同時進一步面向算力應用,基于“化零國家新型互聯網交換中心算網融合發展白皮書 21 為整”及“化整為零”的理念,提供動態靈活的資源調度服務,通過集成的編程框架和內生鏡像倉庫提供計算任務服務。采用微服務架構使能算力服務平臺基本算力交易能力。采用微服務架構使能算力服務平臺基本算力交易能力。算力服務平臺面向算力供給方面向算力供給方提供資源上架、資費發布、需求確認、合同確認、資源下架等功能,進一步基于開放的 API 接口打通業務對接流程,保障業務系統數據同步;面向算力需求方面向算力需求方提供資源視圖、資源推薦、供需撮合、業務訂購、在線支付、電子合同、質量可視等功能
48、,保障電商式交易體驗;面向平臺運營方面向平臺運營方提供管理駕駛艙功能,展示調度平臺全貌、算力服務平臺全貌及新型算力調度網絡全貌,包括資源分布、網絡拓撲、資源容量、業務態勢、性能分析、告警監控等功能,保障監管與決策工作的客觀數據支撐。采用虛擬化技術實現資源聚合及細粒度切分兩種維度的資源調采用虛擬化技術實現資源聚合及細粒度切分兩種維度的資源調度。一是化零為整。度。一是化零為整。支持將多臺服務器上的算力資源提供給一個虛擬機或者容器使用,該虛擬機或者容器內的基于分布式訓練框架的應用無需修改代碼。通過這個功能,用戶可以將多臺服務器的算力資源聚合后提供給單一虛擬機或者容器使用,支持訓練等大模型場景,為用戶
49、的 AI 應用提供數據中心級的海量算力。二是化整為零。二是化整為零。支持將物理算力資源細粒度切分成多塊邏輯算力資源,然后分配給多個虛擬機或者容器,每一塊邏輯算力都能被獨立設置和限制。通過這個功能,用戶可以高效地共享物理算力資源,提高物理算力利用率,降低成本。算力切分的最小顆粒度為原物理算力的 1%;顯存切分的最小顆粒度為 1MB。國家新型互聯網交換中心算網融合發展白皮書 22 圖 6 資源調度技術示意 基于內置的編程框架和內生鏡像倉庫支撐多行業場景應用下基于內置的編程框架和內生鏡像倉庫支撐多行業場景應用下面面向編程與開發框架的向編程與開發框架的計算任務服務。計算任務服務。通過積累行業級通用計算
50、需求和解決方案,將行業應用軟件及編程開發框架進行模板化預置和系統鏡像封裝,并統一上傳至內生鏡像倉庫。倉庫中包含集成各類行業解決方案常用軟件和依賴環境的容器化鏡像,同時支持新應用封裝打包上傳,實現用戶自主可定義的計算任務服務單元,滿足特定SaaS 服務需求。國家新型互聯網交換中心算網融合發展白皮書 23 四、四、應用實踐應用實踐 4.1 國家(杭州)新型互聯網交換中心國家(杭州)新型互聯網交換中心 國家(杭州)新型互聯網交換中心作為工信部批復成立的全國首個新型互聯網交換中心,在算網融合領域深根布局,積極探索。創新聯合方面,與浙江大學共建算力網絡聯合創新實驗室,錨定“國際一流、國內領先”;標準研制
51、方面,已在中國通信標準化協會牽頭制定算力路由協議和算網資源發布訂閱 2 個行業標準;成果產出方面,已在算力平臺建設、算力網關研制、算力應用實踐等方面取得突破。(一)算力平臺建設(一)算力平臺建設 研發上線“浙江省算力一體化服務平臺”,具備云服務和裸金屬兩類算力資源的納管與調度能力。算力方面,已納管省內云數據中心140.4PFlops 算力資源(智能算力 135.7PFlops、通用算力 4.7PFlops),接入阿里、華為、騰訊分布在全國 13 個區域的公有云算力資源;運力方面,已在全省建設 28 個節點,覆蓋 11 個城市,網絡架構升級至算力調度專網,接入 20 余個數據中心,峰值流量超 3
52、T。國家新型互聯網交換中心算網融合發展白皮書 24 圖 7 浙江省算力一體化服務平臺首頁(二)(二)算力網關研制算力網關研制 研制交換中心算力網關設備,硬件架構層面融合 CPUFPGAP4 等多元異構芯片,提升硬件計算、轉發和可編程能力;操作系統層面搭載自研交換中心算網融合操作系統 IXOS,兼容算網融合協議,擴展算網融合需求下對網絡和計算提出的新功能特性。支撐海量算網信息實時感知、智能選路和高效調度,助力交換中心算網融合發展。圖 8 算力網關實物和算網融合操作系統界面 國家新型互聯網交換中心算網融合發展白皮書 25(三)(三)服務案例服務案例 基于“浙江省算力一體化服務平臺”的計算任務,打造
53、“元宇宙社區”和“文旅數字孿生”兩個跨主體的算力調度典型應用。元宇宙社區方面,依托浙江省科技廳“尖兵”研發攻關項目開展元社區 3D 渲染和高清建模等需求的算力調度網絡建設與研究。將某大學超算一體機集群、某大學超算中心以及某企業數字孿生集群接入交換中心算力試驗網絡,通過“浙江省算力一體化服務平臺”的實景 3D 建模、實時數據采集與分發、虛實融合渲染 3 個計算任務,將采集的場景靜態數據調度到超算一體機集群進行 3D 建模,建模結果調度至超算中心進行空間分析、AI 計算和定向,并將結果調度至數字孿生集群,AIoT 終端實時采集場景動態數據并調度至數字孿生集群,基于空間底座和動態采集結果實現虛實融合
54、效果呈現。圖 9 元宇宙社區虛實融合效果 文旅數字孿生方面,通過“浙江省算力一體化服務平臺”的ContextCapture、Unreal Engine 5、三維 Maya 計算任務,支撐某客戶構建了某景區的數字孿生模型。ContextCapture 渲染拼接整理輸出傾斜攝影模型,調度至 Unreal Engine 5 引擎進行二次編輯,配合三維 Maya 軟件建模調優,輸出可視化數字孿生場景并進行效果呈現。國家新型互聯網交換中心算網融合發展白皮書 26 圖 10 某景區文旅數字孿生應用效果 4.2 國家(上海)新型互聯網交換中心國家(上海)新型互聯網交換中心 國家(上海)新型互聯網交換中心研發
55、了基于新型互聯網交換中心的算力交易平臺,積極探索一體化算力算網創新工作成果?;趪遥ㄉ虾#┬滦突ヂ摼W交換中心高速全光算力網絡整合多云算力資源,可實現大帶寬、低時延、降成本的算力交易管理,為企業用戶提供以GPU 為核心的多云算力資源服務,實現算力按需交易,平衡云商算力峰谷差。圖 11 上海算力調度交易平臺總體功能架構圖 上海新型互聯網交換中心基礎業務IXPIXPBOSSBOSSPPPEPEPEPE算商設備企業設備云商設備企業設備云商B云商A云商C多云互聯服務多云互聯服務算力交易平臺算力交易平臺客戶客戶云商云商企業企業互聯業務專網業務生態業務算力資源算力資源APIAPI算力資源算力資源APIAP
56、I算力資源池(自有+多云算力接入)算力資源管理算力監測度量算力信息發布訂單結算管理服務運營管理算商算商算商國家新型互聯網交換中心算網融合發展白皮書 27 算力交易平臺包含算力信息發布、訂單結算管理、算力資源管理、算力監測、算力度量等功能模塊,提供算力資源供需雙方信息匹配平臺。通過資源匹配和中介服務,對交易主體及需求規模進行細分,建立平臺交易規則和交易模式,幫助需求方快速找到合適的算力資源,幫助算力供應方更好地展示自己的算力資源、獲取潛在客戶;通過構建算力服務托管服務模式,為算力廠商的閑置資源提供托管服務,利用創新的交易模式和架構,提高算力資源使用效率,提升算力能耗指標;通過“流量換差價,資源交
57、易服務”模式經營,提供大客戶直銷和服務商(云商或虛擬運營商)代理管理模式,形成以算力資源托管、算力交易、算力托管等為特征的輕資產增值服務生態。圖 12 上海算力交易平臺首頁 國家新型互聯網交換中心算網融合發展白皮書 28 五、五、總結與展望總結與展望 算網融合是網絡強國建設的重要內容,是國家數字經濟戰略新型數字底座,是 ICT 技術的前進方向。自提出以來,各方均積極響應,推動算網融合產業發展。目前,算網融合仍處于發展初級階段,在標準制定、生態建設和運營模式等方面還有諸多問題有待探索和研究。國家新型互聯網交換中心作為算網融合網絡基礎設施的國家新型互聯網交換中心作為算網融合網絡基礎設施的重要重要載
58、載體,積極體,積極開展開展算網融合算網融合技術技術創新,助推產業發展。創新,助推產業發展。已實現區域內算力資源匯聚,并重點參與到標準制定、系統開發、硬件研制、平臺建設等關鍵核心環節,取得了一定的創新成果。未來各地交換中心將繼續把算網融合發展列為重點工作方向,未來各地交換中心將繼續把算網融合發展列為重點工作方向,進一步發揮各自區位和技術優勢推動算網融合演進。網絡層面進一步發揮各自區位和技術優勢推動算網融合演進。網絡層面合力建設國家級算力網絡底座,實現更多社會泛在算力的接入;服務層服務層面面進一步優化和開放平臺外部接口,面向社會輸出服務和調度能力,實現全國范圍內規?;瘧?,助力國家東數西算戰略落地,賦能數字經濟高質量發展。