《北京金融科技產業聯盟:2025金融業AI大模型智算網絡研究報告(33頁).pdf》由會員分享,可在線閱讀,更多相關《北京金融科技產業聯盟:2025金融業AI大模型智算網絡研究報告(33頁).pdf(33頁珍藏版)》請在三個皮匠報告上搜索。
1、金融業 AI 大模型智算網絡研究報告北京金融科技產業聯盟2025 年 5 月I版權聲明本報告版權屬于北京金融科技產業聯盟,并受法律保護。轉載、編摘或利用其他方式使用本報告文字或觀點的,應注明來源。違反上述聲明者,將被追究相關法律責任。II編制委員會主任:聶麗琴編委會成員:吳仲陽張勇張志鵬李建高成曉強編寫組成員:陳鵬余學山黃海張治鏵王世媛葉鑫張杰常東劉佳編審:黃本濤周豫齊參編單位:北京金融科技產業聯盟秘書處中國工商銀行股份有限公司中國郵政儲蓄銀行股份有限公司華為技術有限公司III摘要摘要2023年10月,中國人民銀行等六部門聯合印發算力基礎設施高質量發展行動計劃,指出“算力是集信息計算力、網絡運
2、載力、數據存儲力于一體的新型生產力”,針對網絡運載力提出“優化算力高效運載質量、強化算力接入網絡能力、提升樞紐網絡傳輸效率、探索算力協同調度機制”的重點任務,明確通過“算力+金融”加快算力在金融領域的創新應用,為金融業務發展提供更為精準、高效的算力支持。AI大模型智算網絡技術是算力集群的重要基礎底座,是新型算力中的網絡運載力,是助力大模型實現跨節點分布式訓練,提升大規模訓練效率的重要支撐。本文深入分析 AI 大模型技術在模型能力、結構、算力、效率等方面的技術發展趨勢,提出作為底座的智算網絡所面臨的新問題和新挑戰。圍繞 AI 大模型智算網絡“高性能連接、高效率傳輸、高可維網絡、高安全保障”等關鍵
3、技術進行研究,提供一套適應金融特征的覆蓋數據中心、骨干及分支的 AI 智算網絡技術方案。結合行業業務及技術發展方向,將金融業 AI 智算網建設演進劃分為打造底座、構建系統、完善生態 3 個階段,并給出了新技術發展及創新方向,為金融機構開展 AI 大模型智算網絡規劃及建設提供參考。關鍵詞:關鍵詞:大模型訓練、智算網絡、負載均衡、流控技術、擁塞管理IV目錄目錄一、研究背景.1(一)AI 大模型發展趨勢及挑戰.1(二)金融領域應用規劃.4二、智算網絡方案綜述.5(一)智算網絡技術需求.5(二)業界智算網絡方案.6三、智算網絡整體架構及關鍵技術.10(一)高性能網絡拓展算力規模.11(二)高可用網絡提
4、升算力效率.12(三)高可維網絡增強算力可用性.17(四)高安全網絡保障算力安全.19四、智算網絡發展趨勢.21(一)主要發展階段.21(二)新技術創新方向.22五、案例實踐.23(一)工商銀行 AI 大模型算網融合創新實踐.23(二)郵儲銀行 AI 大模型算力網絡創新實踐.24術語與縮略詞表.27參考文獻.281一、研究背景(一)AI 大模型發展趨勢及挑戰(一)AI 大模型發展趨勢及挑戰隨著新一輪科技革命和產業變革加速推進,AI 大模型浪潮席卷全球,成為最具影響力的創新科技,大模型被認為是未來人工智能領域的關鍵基礎設施。AI 大模型正加速定義及形成新服務、新制造、新業態,成為數字時代的新質生
5、產力。隨著技術演進,AI 大模型技術呈現以下顯著發展趨勢:一是模型能力持續提升。一是模型能力持續提升。隨著深度學習技術不斷發展,AI大模型的參數規模和計算能力不斷增加,使得模型能夠處理更加復雜的任務和數據。2022 年發布的自然語言模型 GPT-3,能生成高質量的自然語言文本,能進行翻譯、問答、文本生成等任務;在 2024 年誕生的 Sora 模型,不僅演進到視頻生成的能力,還具備理解和應用現實世界物理規律的強大能力。AI 大模型逐漸從能說會道過渡到了突破多模態,形成了人機混合、自主理解、規劃決策、執行復雜任務的智能體 AI Agent。二是模型結構持續演進。二是模型結構持續演進。稠密模型由于
6、其結構簡單及易于實現,在早期成為大模型的主流。但是隨著 AI 模型規模不斷擴大,計算和存儲資源的需求不斷增加,成為新的挑戰。稀疏模型因其支持參數剪枝,在保持模型性能的同時極大降低了計算成本,因而受到更多關注并逐步成為演進方向。三是模型算力持續增長。三是模型算力持續增長。從 2016 年到 2024 年,GPU 單卡算力增長了 1000 倍;以英偉達 GPU 為例,其單卡算力增長速度達2到每 6 個月翻一番,超過了摩爾定律。新出現的 Super pod 超節點技術可將多個 GPU 集成在一個較大的服務器中,通過高速總線互聯,實現高帶寬、低延遲的數據交換和通信,以持續提升單節點算力(例如英偉達 G
7、B200)。另一方面,大模型的參數量從 GPT-1的 0.1B 增長到 ChatGPT 的 175B,模型所需算力在四年間也從GPT-1 的 1PFlops 增長到 ChatGPT 的 3000+PFlops,如表 1 所示。表1 AI大模型算力變化趨勢四是模型效率持續優化。四是模型效率持續優化。隨著AI大模型的規模和復雜性增加,訓練效率面臨嚴峻挑戰。業界通過并行通信算法優化、模型算法優化、混合精度訓練優化等技術在訓練框架層、通信算法層持續提升AI模型訓練的效率。隨著技術的不斷進步,未來必定會有更多高效訓練AI模型的方法出現。AI大模型持續加速演進,其龐大的訓練任務需要大量服務器節點通過高速網
8、絡互聯組成AI算力集群協同完成。但AI算力集群并非通過簡單算力堆疊即可實現完美線性擴展,而是取決于節點間網絡通信及集群系統資源調度能力。網絡系統的性能及可用性3成為AI算力集群的線性度和穩定性的關鍵,也面臨新的挑戰:一是高性能傳輸挑戰一是高性能傳輸挑戰。大模型需要大量的數據進行訓練和推理,千億模型單次計算迭代內,梯度同步需要的通信量達百GB量級;MoE稀疏模型下張量并行的卡間互聯流量帶寬需求達到數百至上千GBps量級。服務器節點間互聯網絡會承載數據并行和流水線并行流量,千億參數模型如GPT-3并行訓練節點間帶寬需求達到13.5GB(108Gbps),如表2所示。萬億模型參數面帶寬需求增加到20
9、0Gbps至400Gbps。AI智算網絡需提供更高的帶寬來支持數據快速傳輸,并且支持算力的橫向擴展能力。表2 千億稠密模型GPT3千卡PTD訓練通信量注:PDT,P 指 Pipeline 并行,D 指 Date 數據并行,T 指 Tensor 并行參數:模型 GPT3-175B,h=12288,S=2048,Ndecoder=96,B=1536,D=16,T=8,P=8二是高可用互聯挑戰。二是高可用互聯挑戰。由于AI并行訓練通信具備不規整的特征,即單流通信量大,ECMP選路不均衡,極易導致網絡出現局部堵點,從而導致訓練效率下降。以GPT3-175B大模型千卡并行訓練為例,訓練期間網絡中同時存在
10、的流數目千條以內,ECMP選路方式下,高負載鏈路利用率:低負載鏈路利用率達7:1,即流量無法有效hash,高負載鏈路堵點概率極大。因此對網絡負載均衡4調優、無損傳輸等提出了更高要求。同時大模型的訓練和推理也對網絡的可靠性提出了更高要求,任何網絡中斷都可能導致訓練失敗或推理錯誤,降低集群算力的效率。三是高可維網絡挑戰。三是高可維網絡挑戰。大模型單次訓練時間在數天-月級。訓練期間如果出現網絡不穩定的問題,會影響整個訓練任務的進度。且大模型訓練環境涉及各軟硬件組件配合,運維復雜。例如Meta OPT-175B訓練,故障定位平均時長約11小時,復雜應用故障定位長達80小時。因此需要一套具備精細化監控、
11、端網一體化的,且可一鍵故障定界、定位及自愈的技術手段,來提升智算網絡易用性。四是高安全模型保障。四是高安全模型保障。在推理和訓練的各個階段,大模型都可能成為網絡攻擊的對象,因此需要采取額外的安全措施來保護模型不受侵害,保障數據的保密性和完整性,防止數據泄露和濫用。此外,大模型基礎設施在端到端供應鏈的安全性、穩定性和堅韌性也存在巨大挑戰,需加強AI大模型與自主可控芯片適配,建設基于自主可控人工智能芯片、訓練框架、交互網絡的智算中心。(二)金融領域應用規劃(二)金融領域應用規劃2023年10月,中國人民銀行等六部門聯合印發算力基礎設施高質量發展行動計劃,明確算力是集信息計算力、網絡運載力、數據存儲
12、力于一體的新型生產力。并提出“提升算力高效運載能力”的重點任務,要求針對智能計算、超級計算和邊緣計算5等場景,開展數據處理器(DPU)、無損網絡等技術升級與試點應用,實現算力中心網絡高性能傳輸。并提出“算力+金融”賦能金融行業應用的發展計劃。中央金融工作會議強調要“做好數字金融大文章”,金融業要全面適應數字經濟時代的經濟社會發展變化,深化數字技術的金融應用,以大模型為重要抓手推進產業創新和解鎖新質生產力。北京金融科技產業聯盟依托人工智能專業委員會,加快金融業人工智能的發展和落地。2022年10月,發布人工智能金融應用發展報告,分析人工智能技術發展與金融創新應用情況,以加快人工智能與金融應用深度
13、融合。2023年8月,發布金融數據中心人工智能算力建設指引,給出了算力與網絡協同的指導意見。二、智算網絡方案綜述(一)智算網絡技術需求(一)智算網絡技術需求根據業界論文的推論,AI 大模型訓練端到端理論時間計算公式如下:XNPTt8_E其中 T 為訓練數據的 token 數量,P 為模型參數量,N 為 AI硬件卡數,X 為每塊卡的有效算力,NX 則為集群算力。在 T 和 P 一定的情況下,提升 AI 集群算力 NX 是降低整體時間,節省訓練成本的關鍵。而 AI 集群算力能力很大程度上依賴于高性能和高可用的網絡。在分布式計算環境中,多個計算節點需要頻繁地交換數據和模型參數,這一過程的流暢與否直接
14、關6乎集群計算效率。高性能的網絡能夠確保數據快速傳輸,減少節點間的等待時間,從而加速訓練或推理過程;高可用的網絡使得AI 任務并行處理更加穩定高效,從而優化網絡通信瓶頸。因此,高性能、高可用,且具備高效運維的網絡是 AI 大模型訓練的重要條件。(二)業界智算網絡方案(二)業界智算網絡方案圍繞著智算網絡提升 AI 大模型訓練效率,AI 芯片提供商、互聯網廠商、運營商網絡團隊及網絡設備廠商,分別從不同角度進行技術探索和實現。一是以英偉達、華為為代表的AI芯片提供商通過網絡和計算聯合調優,有效避免通信擁塞一是以英偉達、華為為代表的AI芯片提供商通過網絡和計算聯合調優,有效避免通信擁塞。英偉達在AI以
15、太互聯解決方案中,通過Spectrum交換機和BlueField網卡的協同,完成逐包均衡以緩解流量擁塞。華為提出網絡級逐流負載均衡,通過網絡控制器的全局視角獲取全網拓撲,與端側配合獲得計算任務信息,通過對流量的主動干預、主動調度,從而達到近乎滿吞吐的目標。此外,英偉達在超節點組網中引入了超高速互聯通信機制。以英偉達為例,如圖1所示,節點間在高速InfiniBand/RoCE連接基礎上,基于NVLink形成GPU ALL-to-ALL的超高速網絡,并在NVLINK網絡中引入SHARP協議實現在網計算,將端側(服務器)計算任務的部分處理操作卸載到互聯網絡中,由分布式交換機協同端側應用完成集群的集合
16、通信(Reduce、Multi-Cast等),降低網絡流量負載。7圖1 英偉達NVLink超高速網絡架構分析1二是以Google為代表的互聯網廠商,主要通過端側技術優化來解決關鍵負載不均的問題,盡量減少對網絡設備的能力依賴。二是以Google為代表的互聯網廠商,主要通過端側技術優化來解決關鍵負載不均的問題,盡量減少對網絡設備的能力依賴。Google提出Timely/Swift,基于端側精準測量RTT的擁塞控制機制;Google/SRD/UEC通過逐報文對IPv6 Flowlabel/Entropy等字段修改,結合現有網絡設備已具備的ECMP技術,對大規模單流進行逐報文的多路徑噴灑,以提升網絡流
17、量負載。從近期發展看,該技術路線也慢慢從端側延展到網絡側,如Google提出的CSIG,以及阿里巴巴提出的HPCC,均希望充分利用網絡設備的實時測量信息,為端側調速、選路提供更優參考。三是以博通、中國移動為代表的網絡設備廠商或運營商,主要通過推動網絡側進行方案優化。三是以博通、中國移動為代表的網絡設備廠商或運營商,主要通過推動網絡側進行方案優化。博通在DDC采用信元為粒度的網絡調度方案。與以太網逐流ECMP對比,信元交換網絡的負載均1來源:參考 SHARP 論文:https:/ieeexplore.ieee.org/abstract/document/7830486/Graham,R.L.,B
18、ureddy,D.,Lui,P.,Rosenstock,H.,Shainer,G.,Bloch,G.,.&Zahavi,E.(2016,November).Scalable hierarchical aggregation protocol(SHArP):Ahardware architecture for efficient data reduction.In 2016 First International Workshop on CommunicationOptimizations in HPC(COMHPC)(pp.1-10).IEEE.參考 GTC 2025 官方信息公開數據,NVL
19、 的網絡拓撲推測,NV576/NV288 的 4 個子框之間電纜連接,2 級 CLOS架構,每個 NVLink switch 是 288L448G8衡粒度更優,但DDC依賴大緩存交換設備以及嚴格可靠的VoQ調度機制,給網絡帶來壓力。中國移動提出全調度以太網,在網絡中通過虛擬的報文容器機制,將流量均衡打散并利用出口設備的重排能力完成流量恢復。從近期發展看,該類技術路線有網絡下延至端側趨勢,如博通發展端側EQDS擁塞控制能力,中國移動推出端網協同負載均衡,即端和網聯合參與全局流量調度。四是以UEC、Google、AWS為代表的產業聯盟及公有云廠商,持續推動對端側及傳輸層協議進行優化四是以UEC、G
20、oogle、AWS為代表的產業聯盟及公有云廠商,持續推動對端側及傳輸層協議進行優化。超以太網聯盟(UEC),致力于開發物理層、鏈路層、傳輸層和軟件層以太網技術以滿足規?;斯ぶ悄艿雀咝阅苡嬎阈枨?。2023年10月,谷歌宣布開放其硬件傳輸協議Falcon,基于以太網基礎實現高帶寬、低延時、大規模工作負載的性能和效率提升。AWS推出SRD數據報文協議,即基于Nitro芯片,為實現高性能計算而開發的一種高性能、低延時的網絡傳輸協議,以解決AWS的云性能挑戰。整體上各新型網絡協議總體思路類似,即在以太網完善的生態和兼容性基礎上,為應對大規模高性能、低延時的計算負載訴求,優化乃至重構傳輸協議,例如多路徑
21、和報文散傳、支持靈活傳遞順序、端到端遙測等。詳細對比如表3所示:表 3 業界主流傳輸協議對比對比項對比項TCPTCPRoCERoCEFalconFalconUETUETSRD主導方SRD主導方IETFBTA谷歌UEC 聯盟AWS負載均衡包級負載均衡包級流級流級9對比項對比項TCPTCPRoCERoCEFalconFalconUETUETSRD擁塞管理鏈路層反壓SRD擁塞管理鏈路層反壓基于端口反壓 PFC:基隊列反壓CBFC,基于信用調度傳輸擁塞控制(檢測機制)傳輸擁塞控制(檢測機制)丟包ECNRTTEQDS:端側檢測SMarTTrack:ECN+RTT+BDP+丟包RTT算法算法TCP 基礎D
22、CQCN、AI-ECN、零隊列擁塞管理SWIFTEQDS、SMarTTrack類 BRR 算法實現實現端側端側+網絡側端側EQDS:端側SMarTTrack:端側+網絡側端側五是以 OTT 廠商為代表打造可運維網絡,減輕運維成本。五是以 OTT 廠商為代表打造可運維網絡,減輕運維成本。OTT廠商通過采用交換機雙歸方法來緩解光電端口閃斷等常見故障問題,探索光模塊故障快速定位定界、快速自恢復等全新方法,嘗試建立有效的網絡性能觀測和風險預警機制。整體上,業界對網絡運維能力提升對保障算力運營效率的重要性已形成共識,但目前仍然缺乏成熟有效的運維手段,常規的流量采集方案在智算場景下效果不佳。此外,業界還在
23、嘗試創新和研究在AI智算網絡中部署CLOS架構外的Dragonfly+、Torus等新型拓撲,以及多軌網絡架構來滿足特定大模型應用,并逐漸衍生出混合拓撲架構。此類新型拓撲易構造出非對稱路徑網絡及擁塞,對流量均衡機制的優化要求更高,因此仍需進一步研究和驗證才能使方案成熟、得到推廣。10綜上,針對 AI 大模型智算網場景,產業各芯片廠商、互聯網公司及運營商和網絡廠商,通過大帶寬及網絡架構優化構建高性能,基于芯片及網絡機制優化構建高可用,且探索構建適用于智算場景的最優網絡運維。高性能、高可用、高效運維同樣也是金融行業構建智算網所必需,同時兼顧金融行業業務連續性、數據隱私保護等特征需求,AI 大模型智
24、算網還需關注可靠性及安全性方面的能力。三、智算網絡整體架構及關鍵技術金融機構普遍采用多地多中心、多分支網絡互聯架構。在AI 大模型訓練初期,集群規模較小,單數據中心即可集中部署訓練資源池;后續隨著算力規模增長,如萬卡集群,可能會涉及同城多數據中心甚至跨城市數據中心的 AI 集群融合承載。另外,邊緣數據中心可部署靠近用戶的推理任務,以實現業務的快速決策與處理能力,提升客戶體驗。金融 AI 智算網絡在基礎設施之上,以網絡運載力支撐 AI 算力充分釋放,不僅涉及數據中心網絡,還涉及高吞吐的骨干網絡和敏捷低時延的分支網絡,AI 算力網絡如圖 2 所示。都需要在性能、可用性、可靠性和安全性多方面保障,以
25、提升算力網絡的智能化水平和算力能效。11圖 2 AI 智算網絡架構(一)高性能網絡拓展算力規模(一)高性能網絡拓展算力規模金融 AI 大模型具有更高的泛化能力,提升了智能化程度,也帶來了模型參數量增大,數據規模增大,集群算力急劇提升的需求。網絡性能 10%的提升,能夠撬動整體性能、投入產出和能耗效能數倍的提升,因此高算力集群的構建,依賴高性能互聯的網絡。一是使用高帶寬網絡設備釋放算力性能。一是使用高帶寬網絡設備釋放算力性能。千億參數大模型訓練過程中通信占比最大達 50%,且模型越大、通信占比越高。以GPT3.5為例,當接入帶寬提升16倍,通信占比從35%降低至3.7%,All-Reduce 訓
26、練周期縮短 14 倍。由此可見網絡帶寬是構建高集群算力的基礎。當前業界 AI 服務器的單端口帶寬已普遍具備100G/200G 能力,未來網絡設備應具備單端口 400G/800G 能力,以滿足 AI 集群訓練的高性能數據傳輸。二是使用 CLOS 架構支撐大集群規模。二是使用 CLOS 架構支撐大集群規模。大規模訓練集群場景12網絡通常采用 CLOS 組網架構,其優點是全互聯組網支持大算力集群,網絡帶寬上限更高,配合負載均衡技術可使鏈路達到近滿帶寬傳輸數據,同時通用性和擴展性也更好。三是使用數據消冗提升跨中心傳輸帶寬。三是使用數據消冗提升跨中心傳輸帶寬。AI 大模型智算網范圍不僅包含在數據中心內,
27、例如生產中心和智算中心部署在不同數據中心,需要將生產數據以批量或實時方式傳輸到訓練區域,此時會涉及跨骨干網傳輸,而骨干網租用運營商專線費用高昂。廣域網絡數據消冗技術,采用路由器設備插板方案,能有效減小跨 DC 的傳輸數據量,大幅減少專線租用費用。(二)高可用網絡提升算力效率(二)高可用網絡提升算力效率算力效率的充分發揮依賴高可用網絡基礎,需構建快速故障恢復能力的高可用網絡,減少因網絡故障中斷、網絡擁塞低效等問題帶來的算力資源浪費,保障分布式計算任務的穩定進行。1.高可靠傳輸網絡1.高可靠傳輸網絡相較于傳統網絡,大模型訓練網絡對丟包中斷等異常情況的容忍度更低,對故障敏感度更高,收斂時間要求更嚴,
28、有更高的可靠性要求。傳統網絡依賴控制面協議探測協商,故障中斷時可能產生百毫秒左右的短暫中斷,但是這百毫秒中斷若發生在數據讀取或模型更新等關鍵階段,系統會丟棄這批數據或在恢復后重新計算,從而浪費計算資源,延長訓練時間,因此網絡異常的收斂時間越短,對 AI 訓練網可用性的提升越大。使用數據面快速故障恢復技術,實現 AI 算力網故障快速恢使用數據面快速故障恢復技術,實現 AI 算力網故障快速恢13復。復。以 CLOS 架構遠端設備故障場景下為例,如圖 3 所示,技術整體實現包括三個步驟:圖 3 故障快速恢復技術1故障快速感知:轉發芯片快速感知鏈路故障,路由選路聯動故障狀態,感知故障影響的業務流。2故
29、障遠程通告:硬件生成故障遠程通告報文,攜帶故障路由/流,通告上游設備,解決本地設備無法保護切換。3故障快速自愈:遠端設備基于遠程故障通告,快切流量轉發路徑,實現業務自愈。使用數據面快速故障恢復技術網絡收斂性能,相比傳統網絡百毫秒的故障收斂時長,最快可提升至亞毫秒級,顯著減少故障場景對訓練任務的影響。2.高效率傳輸網絡2.高效率傳輸網絡在 AI 大模型訓練環境中,算力服務器間需頻繁通信做模型參數交換,網絡傳輸效率優劣直接影響分布式集群訓練效率。因此為了最大限度提升傳輸效率,AI 大模型智算網按照 1:1 無收斂網絡架構設計,實現均衡無損傳輸,從而使整網利用率達到14100%。而在實際應用中,網絡
30、高效利用遇到兩個重大難題,如圖4 所示:圖 4 網絡高效利用難題一是流量負載不均衡一是流量負載不均衡。AI 大模型訓練是同步模式的集群訓練,即一個訓練迭代周期取決于處理最慢的流。網絡擁塞概率越大,通信時延越大,則 AI 大模型訓練周期越長。負載均衡是避免網絡擁塞的關鍵手段,而傳統 ECMP 技術無法解決大模型訓練場景訴求。有測試數據表明,即使在不產生擁塞情況下,ECMP 流級負載均衡會導致約 10%的應用流完成時間指標是理想狀態下的 1.5 倍以上,應用性能劣化明顯。因此大模型業務負載不均,需要更優技術手段來解決。二是擁塞影響范圍大二是擁塞影響范圍大。高性能網絡 go-back-N 的丟包重傳
31、機制,以及 PFC 隊列擁塞反壓機制決定了 AI 訓練網絡擁塞時的影響遠比傳統網絡大。傳統 TCP 網絡采用丟包選擇性重傳及滑動窗口機制實現擁塞控制,而高性能 RoCE 網絡傳輸層是基于無連接15UDP 實現,需要依賴上層 go-back-N 重傳機制,從丟包處到最新的所有數據包進行傳輸,重傳數據量大。據調研數據顯示,當丟包率超過 10-5,RoCE 網絡吞吐出現急劇下降。此外,傳統擁塞控制采用基于隊列的 PFC 反壓機制,以保證業務無損,但 PFC 是基于端口進行反壓,即使能 PFC 隊列的端口流量都會受影響。針對這些問題,業界均在探索有效的擁塞管理技術手段來解決。針對流量負載不均衡問題,流
32、級負載均衡逐步向包級負載均衡演進,細化顆粒度提升網絡吞吐率。針對流量負載不均衡問題,流級負載均衡逐步向包級負載均衡演進,細化顆粒度提升網絡吞吐率。流級負載均衡通過轉控分離的方式實現,訓練前先基于控制面規劃好流量路徑,訓練時根據規劃好的路徑進行流量轉發;控制面實時感知大模型訓練業務情況,自動調整、優化流量路徑,相比傳統 ECMP 流負載均衡技術,網絡有效吞吐 40%提升。此外,隨著算網協同技術完善,負載均衡技術未來將從流級進一步向包級技術演進。包級負載均衡是端側(即服務器)將業務流量分割成多個大小相當的小包后發出,以數據包的顆粒度在網絡中均衡轉發,有望將網絡負載提升90%以上。轉發過程如圖 5
33、所示:圖 5 包級負載分擔值得一提的是,使用包級負載均衡技術,需要解決報文在網絡中亂序的問題。當接收方接收到的報文順序與發送方發送的報16文順序不一致,會造成業務中斷。目前解決報文亂序問題有兩種方案,一種是在端側進行報文排序,此方案對交換機的要求比較低,僅需支持報文分片和流控機制;另外一種是在網絡側進行報文排序,此方案需要交換機支持報文分片和流控,以及支持報文重組。報文重組目前受網絡側實現及應用側限制,還未規模應用。針對擁塞影響范圍大問題,使用端網協同的擁塞控制技術,精準控制避免擁塞。針對擁塞影響范圍大問題,使用端網協同的擁塞控制技術,精準控制避免擁塞。在大模型智算網訓練過程中,當多節點向單節
34、點傳輸數據時,瞬態擁塞不可避免。針對此問題,需為訓練業務流量規劃優先等級隊列,并使能網絡流控 PFC 反壓進行擁塞控制。同時,要避免 PFC 反壓導致源端網絡設備擁塞問題,防止相關隊列中后續數據包無法轉發,導致業務中斷。使用端網協同的擁塞控制技術,可將網絡擁塞情況向源端通告,端側提前降速以避免擁塞發生,此技術關鍵是控制算法。一是基于 DCQCN 的靜態控制算法:一是基于 DCQCN 的靜態控制算法:使用 ECN 靜態水線(靜態配置),當大模型訓練流量經過設備隊列超過 ECN 水線時,即會觸發擁塞通知給源端進行降速,由此進行擁塞避免。該技術是RoCEv2 網絡標準的擁塞控制技術。二是基于 ECN
35、 的動態控制算法:二是基于 ECN 的動態控制算法:使用動態算法如 AI ECN 技術自動調整 ECN 閾值和參數,可簡化控制算法部署難度。動態ECN 技術需要作為“擁塞點”的網絡設備支持,目前國內主流廠商已普遍滿足。17三是基于零隊列擁塞控制技術的擁塞控制算法:三是基于零隊列擁塞控制技術的擁塞控制算法:零隊列擁塞控制技術,主動計算網絡空閑帶寬。各端側發送數據窗口請求,網絡設備根據端口空閑情況分配增量窗口返回給端側,從而提高無阻塞網絡的吞吐,進一步提升大模型訓練效率。該技術需要交換機、網卡配合實現,目前還未規模應用。(三)高可維網絡增強算力可用性(三)高可維網絡增強算力可用性使用 AI 大模型
36、訓練體系化網絡運維架構,可有效支撐 AI 訓練任務開展,運維體系如圖 6 所示。AI 訓練系統規模大,上下游系統龐雜,保持任務長時間不中斷對于大模型訓練十分重要。大模型智算網絡作為算力運轉的關鍵環節,其穩定性提升及訓練性能劣化后能及時故障處置、有效自證是重要的業務訴求。因此,網絡運維需與 AI 集群層協同,且網絡自身亦需具備智能化的能力。圖 6 AI 大模型網絡運維體系一是網絡風險預測能力:一是網絡風險預測能力:大模型智算網光纖、光模塊使用量大。例如構建萬卡集群訓練網,需 2.5 萬個光模塊、1 萬條光鏈路,管理對象繁多、故障風險高。因此網絡需具備光模塊訓前風險預測能力,以提前排除風險隱患,提
37、升訓練系統的穩定性。18二是網絡可觀測能力二是網絡可觀測能力:大模型訓練流量具有突發性,易出現流量采集不準。網絡需通過 Telemetry 技術獲取細粒度的業務指標,包括流吞吐、丟包、PFC 反壓幀、PFC 反壓時長、ECN 標記、隊列緩存使用率、關鍵告警等信息,建立有效可視的大模型智算網運維可視系統。三是網絡故障自動修復能力三是網絡故障自動修復能力:大模型智算網規模大、故障排查面廣,人工處理及業務恢復困難。網絡硬件需具備原生自修復能力,例如光模塊多 lane 自動降速,芯片故障感知、快切恢復等功能;并通過提前搭建容錯服務器及網絡設備,進行故障設備快速替換,實現故障快速處置和一鍵修復能力。四是
38、故障跨層診斷能力四是故障跨層診斷能力:大模型集群通信類故障主要包括訓練任務無法拉起、訓練任務異常中斷和訓練任務性能下降。訓練平臺、集合通信算子、端(服務器&AI 芯片)、網(路由交換)串行分析排查周期長、定位效率低。因此需構建面向訓練任務的一體化故障診斷平臺,可跨層獲取本層故障定位及有效自證所需數據,實現快速定界定障。五是 AI 智能運維能力五是 AI 智能運維能力:學術界提出將 AI 技術應用在網絡運維新模式,即網絡大模型。其核心方向是通過建立分布式網絡性能框架,為每個監控對象建立豐富的注釋與指標,再結合端到端的檢測值,通過模型算法來推斷故障組件。該技術為未來構建高精度檢測分析,高效率故障閉
39、環,以及風險預測、提前規避的運維系統建立奠定基礎。19(四)高安全網絡保障算力安全(四)高安全網絡保障算力安全金融行業智算應用關乎金融數字資產安全、生產系統安全。在大模型建設中,需網絡與安全建設并舉,以確保智算中心安全合規性。AI 大模型訓練應用場景日益多元化,將面臨算力和數據開放,同時也面臨核心資產安全風險加大,如表 4 所示:表 4 AI 大模型智算網絡安全挑戰典型場景典型場景關鍵業務關鍵業務安全挑戰安全挑戰大模型智算網接入場景管理接入:管理接入:本地或遠程登錄智算網(內網)進行開發、訓練、測試。數據導入:數據導入:數據從外部導入,數據外發操作等。安全合規:安全合規:滿足等保、AI 安全國
40、標/行標規范要求。數據資產安全:數據資產安全:數據來源可追溯,數據資產不泄露。模型資產安全:模型資產安全:模型內容符合價值觀要求。算力開放出租場景算力共用:算力共用:算力出租方(如集團總部)提供租戶級算力、存儲資源,多租戶(如三方、子公司)在同一平臺下訓練。數據私有:數據私有:租戶從私有網絡把數據導入到算力平臺訓練。算力資產安全:算力資產安全:算力提供者需避免算力被濫用,保障租戶利益。數據資產安全:數據資產安全:租戶私有數據,需保障在共用平臺訓練的隱私性、不濫用,不竊取。模型及樣本傳輸場景模型導入:模型導入:AI 模型訓練方(如集團總部,及各租戶三方子公司),需將模型導入訓練資源池,以及將訓練
41、好的模型推理到邊,涉及模型傳輸。數據資產安全:數據資產安全:數據提供者如何控制數據資產不被濫用。模型資產安全:模型資產安全:面向模型訓練方,是否能追溯模型訓練過程,AI 全生命周期的責任追溯。20樣本傳輸:樣本傳輸:AI 大模型訓練需要大量數據樣本(包括集團總部及租戶數據),送到算力平臺訓練,涉及數據傳輸。通過對如上典型場景及業務流分析,訓練場景中模型樣本即數據,以及算力均屬于高價值核心資產,數據被泄露、算力被盜用或破壞,將是 AI 大模型場景面臨的兩大關鍵威脅。因此,構建零信任連接、網存聯動防數據泄漏、網算聯動防入侵的體系化安全架構,是打造高安全 AI 大模型智算網的關鍵。一是基于零信任連接
42、,為模型擁有者及使用者提供安全接入。一是基于零信任連接,為模型擁有者及使用者提供安全接入。通過采用零信任終端接入,基于 xSEC 抗量子加密網絡連接,結合零信任管理平臺和態勢感知平臺進行威脅識別、分析、阻斷,以構建零信任安全連接,保障 AI 大模型平臺的用戶接入安全。二是基于網存聯動數據標識及加密,防止數據泄漏及竊取。二是基于網存聯動數據標識及加密,防止數據泄漏及竊取。通過存儲為敏感數據打標簽,聯動安全火墻基于標簽進行安全策略控制,防止核心數據泄露;以及通過對數據進行租戶級加密,保障多租戶的訓練數據在上傳-存儲-讀取過程端到端防泄漏、防竊取。三是基于網算聯動檢測、隔離及阻斷,防止安全入侵。三是
43、基于網算聯動檢測、隔離及阻斷,防止安全入侵。通過端側(計算)內生硬件輔助檢測識別惡意軟件、未知威脅等,聯動網絡進行安全隔離、邊界防護及阻斷、橫向擴散阻斷等措施;以及通過端側(計算)內生算力異常檢測,結合外網防火墻入口流量檢測,實現精準安全檢測及聯動處置閉環。21四、智算網絡發展趨勢(一)主要發展階段(一)主要發展階段AI 大模型智算網的建設演進需適配企業戰略及業務發展,業務需求驅動技術發展,同時新技術革新反哺業務,有效驅動金融行業加速數字化、智能化轉型,整體來看會經歷 3 個主要發展階段。一是打造 AI 網絡底座,支撐行業千億模型訓練,優化智能場景服務一是打造 AI 網絡底座,支撐行業千億模型
44、訓練,優化智能場景服務,如提升風險投顧精準度,人工客服及個性化推薦滿意度等。智算網絡需支持 200G/400G 速率連接百卡至千卡規模,并通過負載均衡、流量控制等技術,打造高性能、高可用的智算網絡基礎能力;同時圍繞智算網絡,構建簡化運管復雜性的自動化運維網絡能力。二是構建 AI 網絡系統二是構建 AI 網絡系統,支撐行業萬億模型訓練及推廣推理應用,多元化智能場景服務支撐行業萬億模型訓練及推廣推理應用,多元化智能場景服務,如數字柜員與無人銀行,基于音/視頻/文復雜業務流程一體化自助辦理。智算網絡需具備400G/800G 速率實現高性能萬卡連接,并基于端網協同,與 AI計算平臺聯合調度,構建高速無
45、阻塞高可用智算網絡系統;同時以 AI 技術反哺網絡運維,構建網絡大模型以構建智能化運維網絡能力。三是完善 AI 網絡生態,支撐模型能力延展,完善生態化服務場景三是完善 AI 網絡生態,支撐模型能力延展,完善生態化服務場景。支撐企業 AI Agent 系統構建,從自挖掘價值業務場景,到自優化服務對象;從業務需求到網絡能力,最終構建一個可自22檢、自治、自愈、自閉環的 AI 網絡智能體。AI大模型智算網是金融科技數字化轉型的關鍵技術之一,各金融機構正積極探索、試點及推動建設。目前部分大型金融機構已完成階段一構建基礎能力智算網,并論證試點階段二能力,其他機構也在階段一的探索和籌備構建中。(二)新技術
46、創新方向(二)新技術創新方向從技術研究角度看,AI 大模型智算網技術,未來主要面臨 3個新技術研究及創新方向。一是重構協議棧,優化網絡能力。一是重構協議棧,優化網絡能力。以 UEC 全棧協議技術為典型代表,重定義網絡分層、協議能力以優化網絡,聚焦提升帶寬利用率,精準控制擁塞,優化反壓機制。通過模型分層重構,物理層、鏈路層、傳輸層和軟件層,并基于每一層圍繞大規模、高性能為優化目標,構建端到端全棧增強系統。網絡向下與端芯協同,向上與集合通信、AI 應用聯合,縱觀全產業,各技術流派方向趨同、技術不一,但最終效果如何、能否達到提升 AI 性能,同時此上下協同模式是否會因單領域限制產生木板效應,還需在后
47、續課題繼續研究。二是突破單機卡限制,構建超萬卡集群。二是突破單機卡限制,構建超萬卡集群。傳統的單機 8 卡配置,可滿足中等規模任務訓練的需求,但面對未來數萬卡乃至十萬卡規模訓練任務,其算力和擴展性將面臨挑戰,產業已開始研究在 AI 集群中引入了超節點技術。超節點設計能有效整合和調度集群中的資源,突破單機 8 卡硬件限制,實現 AI 超萬卡集群23的構建。該技術的成熟度、是否具備可推廣使用能力,兼顧金融業務對構建超萬卡 AI 集群的緊迫性和必要性,還待繼續考察。三是構建網絡智能體,支撐 AI agent 基礎設施生態構建。三是構建網絡智能體,支撐 AI agent 基礎設施生態構建。隨著 AI
48、大模型在行業的推廣,以及基于 LLM 驅動的 Agents 自動化逐步落地,金融各機構會擁有越來越多的 AI Agents 處理任務。網絡也將具備 AI Agent(網絡智能體)能力,支撐 AI Agent基礎設施生態構建。當前金融行業已在金融分析、金融風控、貸后處置三類場景進行 AI agent 研究創新,但各場景涌現的準度不高,網絡智能體及 AI Agent 基礎設施生態構建,還待繼續考察。五、案例實踐(一)工商銀行 AI 大模型算網融合創新實踐(一)工商銀行 AI 大模型算網融合創新實踐隨著業界算力規模持續擴大,底層網絡如何支撐算力規模、算力效率、持續運行能力提升成為很大的挑戰。工商銀行
49、圍繞算內網絡、算間網絡和入算網絡等 3 個方面積極開展實踐。1.在算內網絡方面1.在算內網絡方面,工商銀行選定 RoCE 作為高性能網絡的技術路線并推進建設,在新型集中存儲網絡和 AI 算力集群等場景落地。一是基于 RoCE 高性能網絡實現對 FC 存儲交換網絡的自主替代,率先建成支持全棧國產化的新型 RoCE-SAN 存儲體系并推廣應用。二是先后建設多地多中心千億 AI 算力集群,支撐工商銀行智慧金融業務創新發展。在網絡技術創新方面,AI 算力集群流量模型不同于傳統的聯機業務流量,存在流量大流數少的24特點,傳統的 ECMP 算法不適用于 AI 訓練集群,極易形成局部的堵點影響 AI 整體訓
50、練效率。工商銀行以技術創新賦能負載均衡能力提升,采用負載均衡優化算法,網絡級聯端口負載均衡差異從 5%33%降低到 12%16%以內,提升 AI 集合通信帶寬吞吐約24%,更好地支撐 AI 算力效率提升。2.在算間網絡方面2.在算間網絡方面,工商銀行在全行一級骨干網部署 SRv6網絡實現廣域網靈活調度基礎上,率先完成廣域網流量壓縮技術生產落地。目前已有數據中心、開發中心、業務研發中心 3 張廣域網,在核心系統異地災備、研發測試等多個場景落地發揮作用。設計全生命周期字典壓縮方案提升壓縮率,提出壓縮池化實現壓縮持續在線等,多項技術均為首次探索。壓縮流量帶寬節約率達45%,以新技術創新踐行“勤儉辦行
51、”理念。3.在入算網絡方面3.在入算網絡方面,工商銀行推廣 SD-WAN 技術至多家分行網點,SD-WAN 技術的應用實現了 MSTP、MPLSVPN、4/5G 多類線路的統一管理。工商銀行還自研集中運管工具實現對異構廠商控制器的屏蔽,支撐工商銀行智慧網點建設。未來,工商銀行將在網絡支撐計算實踐基礎上,進一步探索網絡感知計算能力提升。(二)郵儲銀行 AI 大模型算力網絡創新實踐(二)郵儲銀行 AI 大模型算力網絡創新實踐中國郵政儲蓄銀行在服務“三農”、小微金融、主動授信、財富管理和金融市場等領域,憑借差異化的競爭優勢,為實體經濟注入了源源不斷的金融“活水”,致力于建設成為客戶信賴、25特色鮮明
52、、穩健安全、創新驅動、價值卓越的一流大型零售銀行。以數字化轉型為中心,郵儲銀行提出了“SPEEDS”科技戰略,即智慧(Smart)、平臺(Platform)、體驗(Experience)、生態(Ecosystem)、數字化(Digital)和協調(synergism)。其中人工智能 AI 技術的發展和應用處于該戰略的核心位置。郵儲銀行制定人工智能 AI 技術發展的整體藍圖,縱向分成 3 層并行建設,以數字化基礎服務建設作為資源層底座,以企業 AI 技術中臺建設作為平臺層,在應用層不斷進行場景挖掘及建設。今年年內達到百億模型投產上線、并具備千億模型二次訓練能力,以及實現 AI 感知、洞察向創作轉
53、型升級。大模型訓練由于模型參數和數據量的規模不斷增加,單機很難滿足訓練業務訴求,需要利用分布式并行計算將成千上萬個節點高效調度起來,并通過將訓練任務的數據或模型參數分片,部署到多個 NPU(神經處理單元)或其他類型的加速器進行并行計算,同時每次計算結束需要進行交叉參數協同。所以 AI 大模型訓練是一個并行+串行的過程,千卡規模的算力基礎設施包含了參數面、樣本面、業務面、管理面和存儲面網絡。其中最重要的是參數面網絡,因其承載著訓練過程中每次迭代的參數同步和交互,這對網絡的要求最為嚴苛,直接決定了 AI 集群的實際算力。其與傳統網絡的區別顯而易見:高帶寬、低延遲、高可靠性、擴展性、容錯能力、安全性
54、、高效的數據分發與訓練調度軟件協同。26郵儲銀行圍繞大模型的需求開展了智能無損網絡的探索建設,包括:1.采用 200G ROCE 網絡,匹配了昇騰的 HCCL 集合通訊庫,規模上具備了萬卡的擴展能力??梢栽诙鄼C多卡之間建立直通無收斂組網,通過集合通訊能力支持大模型的高線性度并行訓練。2.為了實現高效的負載均衡,采用了控制器網絡調優算法,實現網絡動態路由,計算調度協同保障訓練過程實際帶寬,避免訓練過程局部擁塞,確保大模型訓練穩定、快速完成。3.AI 集群是算網存高度協同的集群,其規模和復雜度增長導致故障發生概率增加,集群故障直接導致訓練中斷影響訓練效率。郵儲銀行搭建了面向 AI 算力集群的運維系
55、統,實現 AI 網絡關鍵指標實時監控和預檢查,故障時能快速定界定位,并輔助斷點續訓,全面提升 AI 集群的訓練效率。2024 年,中國郵政儲蓄銀行在人工智能(AI)領域取得了顯著成果。推出了多項創新應用,如“星辰平臺”“郵儲大腦”“看未來”模型、RPA(機器人流程自動化)技術等,展望未來,郵儲將繼續深化 AI 數據中心網絡的建設和應用,緊跟大模型、生成式 AI、通用人工智能技術趨勢,向新技術要效益,向新要素要價值,將繼續圍繞 AI 基礎設施建設、運維大模型和網絡安全繼續開展實踐和探索。27術語與縮略詞表術語與縮略詞表英文縮寫英文全稱中文全稱英文縮寫英文全稱中文全稱RDMARemote Dire
56、ct Memory Access遠程直接數據存取AIArtificial Intelligence人工智能VxLANVirtual eXtensible Local AreaNetwork虛擬擴展局域網HPCHigh Performance Computing高性能計算DPUData Processing Unit數據處理單元NVMeNVM Express非易失性內存主機控制器接口規范NVMe-oFNVMe over Fabric基于網絡的非易失性內存主機控制器接口規范ECNExplicit Congestion Notification明確的擁塞通知PFCPriority-Based Flo
57、w Control基于優先級流量控制CBFCCredit Based Flow Control基于優先級流量控制ZSTDZstandard無損數據壓縮算法MLMachine Learning機器學習ECMPEqual Cost Multipath等價多路徑UCMPUnequal Cost Multipath非等價多路徑SHARPScalable Hierarchical Aggregationand Reduction Protocol可擴展的分層聚合和歸約協議DDCDistributed Disaggregated Chassis分布式機框解耦SRDScalable Reliable Dat
58、agram可擴展的可靠數據報UECUltra Ethernet Consortium超級以太聯盟VoQVirtual output Queueing虛擬輸出隊列BBRBottleneck Bandwidth and Round-trippropagation time瓶頸帶寬和往返傳播時間RUDReliable,Unordered Delivery可靠無序傳輸技術28參考文獻參考文獻1 Susan Zhang,等OPT:Open Pre-trained Transformer Language Models2 Radhika 等TIMELY:RTT-based Congestion Contr
59、ol for the Datacenter3 MetaOPT 175B 訓練日志4 OpenAIGPT3:Language Models are Few-Shot Learners5 NVIDIA&Stanford University&Microsoft ResearchEfficientLarge-ScaleLanguageModel Training on GPU Clusters Using Megatron-LM6 Gautam 等Swift:Delay is Simple and Effective for Congestion Control in the Datacenter7
60、 Yuliang 等HPCC:high precision congestion control8 Vladimir 等An edge-queued datagram service for all datacenter traffic9 中國移動通信研究院全調度以太網技術架構白皮書10中國移動通信研究院面向超萬卡集群的新型智算技術白皮書(2024 年)11清華大學等2024 金融業生成式 AI 應用報告12中國移動研究院 面向 AI 大模型的智算中心網絡演進白皮書(2023 年)13 NVIDIA Spectrum-X Network Platform Architecture The First Ethernet Network Designedto Accelerate AI Workloadswhite paper14NVIDIA,Stanford University,Microsoft Research Efficient Large-Scale Language ModelTraining on GPU Clusters Using Megatron-LM