《中國移動研究院:面向AI大模型的智算中心網絡演進白皮書(2023年)(29頁).pdf》由會員分享,可在線閱讀,更多相關《中國移動研究院:面向AI大模型的智算中心網絡演進白皮書(2023年)(29頁).pdf(29頁珍藏版)》請在三個皮匠報告上搜索。
1、面向 AI 大模型的智算中心網絡演進白皮書(2023 年)中國移動通信研究院中國移動通信研究院目目 錄錄前 言.31.AI 業務發展趨勢.41.1.人工智能技術發展趨勢.41.2.人工智能業務發展趨勢.61.3.人工智能政策發展趨勢.72.AI 大模型對網絡的需求.82.1.超大規模組網需求.82.2.超高帶寬需求.92.3.超低時延及抖動需求.102.4.超高穩定性需求.102.5.網絡自動化部署需求.113.當前網絡能力與業務需求的差異點.113.1.規模差距分析.123.2.帶寬差距分析.133.3.穩定性差距分析.143.4.時延、抖動差距分析.153.5.自動化能力差距分析.164.
2、面對差異網絡應對舉措.174.1.大規模組網關鍵技術.174.1.1 網絡設備硬件本身改進.174.1.2 端網協同的流控改進.194.2.超高帶寬關鍵技術.204.2.1 網絡-應用協同設計釋放算力.204.2.2 鏈路負載均衡優化技術.204.2.3 低功耗的 400G/800G 互聯方案.224.3.超高穩定性關鍵技術.224.3.1 基于硬件的快速感知能力.234.3.2 基于硬件的快速收斂能力.234.3.3 層次化的網絡故障自愈能力.234.4.超低時延關鍵技術.244.4.1 集合通訊算法和網絡拓撲協同.244.4.2 DPU 硬件卸載.244.4.3 靜態轉發時延優化.254.
3、5 自動化關鍵技術.255.總結和展望.26術語定義.27縮略詞表.27前前 言言人工智能是數字經濟的核心驅動力,AI 大模型是人工智能的新引擎。AI 大模型指通過在海量數據上進行預訓練,能夠適應多種下游任務的模型,具有強大的泛化能力、自監督學習功能和精度突破性能。其已經在自然語言處理、計算機視覺、氣象預報等多個領域取得了令人矚目的成果。大模型的發展是大勢所趨,未來將會助推數字經濟,為智能化升級帶來新范式。近年來,隨著 ChatGPT 等生成式人工智能(AIGC)的突飛猛進,全球范圍內的經濟價值預計將達到數萬億美元。尤其在中國市場,生成式 AI 的應用規模有望在 2025 年突破 2000億元
4、。這一巨大的潛力不僅吸引著業內領軍企業競相推出萬億、10 萬億參數量級別的大模型,而且對底層 GPU 支撐規模提出了更高的要求,達到了萬卡級別。然而,如何滿足如此龐大規模的訓練任務,對網絡的規模、性能、可靠性和穩定性等方面提出了前所未有的挑戰。以 GPT3.5 為例,其訓練過程依賴于微軟專門建設的 AI 超算系統,由 1 萬個 V100 GPU 組成的高性能網絡集群,總計算力消耗約為 3640 PF-days。在這種情況下,尋求提供極致高性能網絡已成為人工智能領域的重要研究方向之一。本白皮書將從 AI 業務發展的歷程出發,深入研究大模型對網絡能力的需求,分析當前網絡與業務需求的差距,并探索網絡
5、技術發展趨勢以彌補這一差距。我們希望,通過本白皮書的研究和分析,為未來面向 AI 大模型的智能計算中心網絡發展提供有益的參考和啟示。本白皮書由中國移動研究院牽頭編制,聯合編制單位:華為技術有限公司、銳捷網絡股份有限公司、思博倫通信科技(北京有限公司)、中興通信股份有限公司、上海云脈芯聯科技有限公司、星云智聯科技有限公司、中科馭數(北京)科技有限公司、博通公司、是德科技(中國)有限公司、北京大禹智芯科技有限公司本白皮書的版權歸中國移動研究院所有,并受法律保護。轉載、摘編或利用其它方式使用本白皮書文字或者觀點的,應注明來源。1.AI 業務發展趨勢業務發展趨勢1.1.人工智能技術發展趨勢人工智能技術
6、發展趨勢人工智能(AI)是一種使計算機和機器能夠表現出智能和類似人類思維的能力的技術和方法論。它通常包括學習與推理、語言和語音識別、視覺感知、自動化控制等多個領域。自從 20 世紀 50 年代,人工智能的研究開始以來,AI 已經走了一個漫長的歷程,經歷了許多發展與進步,也經歷了漫長的寒冬。圖 1-1 人工智能發展時間軸符號主義與專家系統(1956 年-1980 年),AI 領域的創始人之一約翰麥卡錫在 1956年提出了“人工智能”這一術語后,AI 的符號推理階段就正式開始了。符號推理階段的主要發展是建立起了人工智能的推理基礎。在這個階段,人們將人類智能中的邏輯進行了形式化,創造了一種稱為“推理
7、形式”的數學表示方法。聯接主義與機器學習(1980 年-2012 年),AI 開始了一些深度學習和神經網絡方面的探索,這兩種技術是使用機器學習算法進行自動學習和推理的兩種方式。1986 年,Rumelhart和 McClelland 的研究進一步加強了神經網絡代表的連接主義觀點,這標志著 AI 進入了“連接主義時代”。深度學習(2012 年-2017 年),20 世紀 50 年代,人們開始嘗試模擬人腦的神經網絡,以解決一些計算機視覺和語音識別問題。后來的時間,神經網絡由于計算復雜度和可解釋性等問題,經歷了長時間的寒冬。直到 2012 年,Hinton 等人提出了深度學習中一種新的神經網絡結構-
8、卷積神經網絡,并在 ImageNet 圖像識別競賽中獲得了顯著的成果。卷積神經網絡具有重大的意義,推動了計算機視覺和深度學習的發展,并開拓了探索神經網絡的新領域。2016 年基于深度學習的 AlphaGo 戰勝圍棋世界冠軍,再次點燃人們對深度學習探索的熱情。Transformer 模型預訓練(2017 年-2022 年),2017 年谷歌發布論文 Attention Is All YouNeed,Transformer 模型引入了一種新的機制注意力機制(Attention),用于學習不同位置的詞匯之間的關聯關系,從而更好地表征大型語言文本中的語義和詞法關系。在Transformer 中,可以使
9、用多頭注意力機制來學習輸入序列中不同的信息,并根據這些信息進行分類、生成或其他任務。Transformer 架構由多個堆疊的自注意力層和前饋神經網絡層組成,這種設計使得它在構造大型深度神經網絡時具有巨大優勢。自注意力機制解決了長序列輸入的信息傳遞問題,允許不同位置的單詞或符號與其他單詞或符號之間產生交互,從而更好地捕捉序列之間的依賴關系。這意味著 Transformer 可以處理極長的文本序列,而不會產生梯度消失或爆炸問題。同時,Transformer 架構具有并行計算的能力,可以同時處理輸入序列的不同部分。這樣可以更快地訓練和推理大型深度神經網絡,尤其是在使用分布式計算和 GPU 并行計算的
10、情況下。由于它的特殊結構和設計,Transformer 架構適合構造大型神經網絡,由此開啟了深度學習大模型時代。大模型也被稱為基礎模型(Foundation Model),其通常定義為:參數規模較大(億級)并使用 Transformer 結構,在大規模無標注語料進行自監督訓練后,可以賦能一系列下游任務的模型。BERT 和 GPT 是兩種最知名的基于 Transformers 的自然語言處理模型。雖然都是基于Transformers,但 GPT 只使用了 Transformer 的解碼器部分,而 BERT 使用了雙向 Transformer的編碼器部分;GPT 是從左到右建模文本,確保下一個預測
11、是來自上下文的正確,而 BERT是雙向建模文本,不僅考慮上下文,還考慮了文本的未來信息。由于建模方式的不同使得GPT 更適用于自然語言生成任務,如文本摘要、對話生成等,而 BERT 更適用于下游任務,如自然語言理解、文本分類、問答系統等。2018 年 10 月,Google 團隊發布了 BERT 模型。2019 年 7 月,華盛頓大學研究團隊在BERT 模型上進行了改進,提出了 RoBERTa 模型。RoBERTa 采用了更大的訓練數據集和更長的訓練時間,并且修改了模型的 Mask 機制,取得了更好的效果。2020 年 2 月,Google團隊提出了 ALBERT 模型,這是 BERT 模型的
12、一個輕量級變體。ALBERT 通過參數共享和跨層參數連接的方式減少了模型大小,同時在性能上與 BERT 相當甚至略有提升。BERT 模型經過不斷的改進和迭代,逐漸成為現代自然語言處理領域中的基礎和標準之一。2018 年,OpenAI 團隊發布了 GPT-1,它使用了 Transformer 架構,采用了無監督學習的方法進行訓練,其目標是預測下一個詞語。該模型使用了 8 個 Transformer 編碼器層和 12個 Transformer 解碼器層。它被證明在自然語言生成任務中比較有效。2019 年,GPT-2 被提出,相比 GPT-1,GPT-2 具有更多的參數和更高的預測能力。它使用了 4
13、8 個 Transformer 編碼器層和 12 個 Transformer 解碼器層,參數數量達到了 1.5 億個。2020 年,OpenAI 團隊提出了 GPT-3,它是目前最大的語言模型之一,擁有 1750 億個參數。相比于 GPT-2,在生成文本的質量、多樣性和準確性等方面都有明顯提升。GPT-3 采用的是自回歸的生成方式,通過預測下一個詞來生成文本。ChatGPT 是 OpenAI 公司于 2022 年 11 月底上線的一款具有跨時代意義的大規模智能語言模型,它使用了 OpenAI 實驗室開發的 GPT-3.5 和 GPT-4 系列大型語言模型,并采用了監督學習和強化學習等技術進行微
14、調。具體而言,為了讓預訓練的語言模型更加智能和準確,可以在少量已標注的數據上進行調優。這種方法會使用已標注的數據訓練一個有監督的策略,用于生成從給定的提示列表所需的輸出。標注者們會對 SFT 模型輸出結果進行打分,這樣便可以創建一個由輸出數據組成的打分(排序)數據集。然后,會在該數據集上進行訓練一個打分模型。最后,使用近端策略優化進一步通過打分模型對語言模型進行調整,這種方法旨在提高 ChatGPT 生成輸出時的準確性和自然度。ChatGPT 展現的語言能力令人印象深刻,是具有跨時代意義的語言模型。由于大模型巨大的參數量,需要分布式計算、GPU/CPU 等異構技術及多種并行模式等方式進行訓練與
15、推理。而智算中心網絡用于連接 CPU、GPU、內存等池化異構算力資源,貫穿數據計算、存儲全流程,網絡性能的提升對提升算力水平具有關鍵意義。1.2.人工智能業務發展趨勢人工智能業務發展趨勢中國的人工智能研究和發展方面已經取得了許多重大成就,包括在自動駕駛、機器人、語音識別和自然語言處理等領域。AI 能力已滲透多行業多環節,其中對話式 AI 產品已在部分行業進入規?;涞仉A段,優化人機交互形式、流程與賦能方案,為企業“降本增效”。ChatGPT 的出現將助力對話式 AI 進一步對產業賦能。云服務提供商提供的三種基礎服務模式為 SaaS、PaaS 及 IaaS。伴隨著人工智能的發展,涌現出了人工智能
16、即服務(AIaaS)和模型即服務(MaaS)。人工智能即服務,已經成為了中國 IT 行業的一個關鍵詞。AIaaS 為企業和機構提供了一種創新的商業模式,使得他們能夠更加便捷地獲得人工智能服務,同時也促進了人工智能技術的進步與發展??梢蕴峁?AIaaS 的企業數量也在持續增加,包括如華為云、百度云、阿里云和騰訊云等等。這些企業在 AI 領域投入巨大的資金和人力,為各行業提供了高品質的人工智能服務。AIaaS 的應用領域也不斷拓展。AI 讓傳統的企業也能夠通過數字化的方式創新發展。例如,金融和零售業領域的使用人工智能技術,使得他們能夠更加準確的進行風險管理和發現消費者需求等。隨著 AIaaS 市場
17、的規模不斷擴張,越來越多的企業也紛紛開辟了自己的人工智能服務領域。迫切需要 AI 賦能的領域包括教育、醫療、智慧城市和智能制造等。隨著互聯網和人工智能技術的融合,這些領域都會產生諸多的新的商業模式,從而帶動整個行業的發展。模型即服務(MaaS)是基于云端提供預先訓練好的機器學習模型,無需自己從頭構建和維護模型。換句話說,MaaS 是為那些需要支持應用程序或工作流程的開發人員、數據科學家和企業提供預先構建好的模型的方式。MaaS 平臺方通過大量數據 L0 層的基礎大模型,再結合行業數據訓練 L1 層的行業模型,用戶通過 API 或模型壓縮的方式獲得 L2 層的垂直領域模型。MaaS 提供商通常提
18、供經過大量數據集訓練和優化的模型,以支持特定的用例,例如圖像識別、自然語言處理、預測分析和欺詐檢測,這些模型用戶可以通過多方式(API、在線部署)進行使用并獲得推理結果。這種方法有多個好處,包括減少開發時間和成本,以及降低那些可能沒有構建自己的模型所需資源或專業知識的組織的門檻。此外,MaaS 提供商通常通過提供按需付費的定價模型,使擴展變得更加容易。一些 MaaS 提供商包括 Amazon SageMaker、Microsoft AzureMachine Learning、百度文心大模型和華為云 ModelArts 等。1.3.人工智能政策發展趨勢人工智能政策發展趨勢中國一直非常關注人工智能
19、,并將其列為國家發展計劃的優先領域之一。在過去一段時間,中國多部門分別發布了多項人工智能的規劃性和政策性文件,目標加速人工智能在我國的發展腳步。2017 年國家工信部頒布了 促進新一代人工智能產業發展三年行動計劃(2018-2020 年)的未來三年規劃性文件,文件指出需要將人工智能和制造業深度賦能作為發展基礎,將全新的人工智能技術的大規模落地作為發展重心,推動智慧工廠的發展,使我國未來制造業具備競爭力。2017 年 7 月國務院全新公布了政策性文件新一代人工智能發展規劃,文件中明確了構建以人工智能為主研究方向的創新機構、會逐步提升人工智能的投入、大力培養人工智能全才等指導性方案,目標加快人工智
20、能在我國的前進腳步。2018 年 9 月,國家科技部推出了“新一代人工智能開放創新平臺”的新一批名單,在名單上的企業被稱為“人工智能國家隊”,并且數量已經增至 15 家。2020 年 8 月,國家五大部門聯合發布了新一代人工智能的建設指引文件國家新一代人工智能標準體系建設指南,文件的目標是指定人工智能的標準,未來需要將重點工作投入在數據層面、算法層面、系統層面等,并優先將既有的成果應用于制造業、智慧交通、智慧金融、智慧安防等重點民生行業,并構建人工智能統一的評價平臺。2023 年 2 月 24 日,國家科技部官員陳家昌發表講話,介紹國家科技部已經將人工智能視為中國的戰略性新興技術,作為經濟發展
21、的催化劑,國家各部門后續將給予人工智能發展更多政策和資金上的支持。在剛剛 2023 年的兩會報告中,ChatGPT(大模型)的人工智能詞匯多次被提及,并且提出了深入產業領域的核心建議和提案,重點關注數據安全和提升產業質量。2.AI 大模型對智算中心網絡的需求大模型對智算中心網絡的需求從 Transformer 問世至 2023 年 ChatGPT 爆火,人們逐漸意識到隨著模型參數規模增加,模型的效果越來越好,且兩者之間符合 Scaling law 規律,且當模型的參數規模超過數百億后,AI 大模型的語言理解能力、邏輯推理能力以及問題分析能力迅速提升。同時,隨著模型參數規模與性能提升后,AI 大
22、模型訓練對于網絡的需求相比于傳統模型也隨之產生變化。為滿足大規模訓練集群高效的分布式計算,AI 大模型訓練流程中通常會包含數據并行、流水線并行及張量并行等多種并行計算模式,不同并行模式下均需要多個計算設備間進行集合通信操作。另外,訓練過程中通常采用同步模式,需多機多卡間完成集合通信操作后才可進行訓練的下一輪迭代或計算。因此,在 AI 大模型的大規模訓練集群中,如何設計高效的集群組網方案,滿足低時延、高吞吐的機間通信,從而降低多機多卡間數據同步的通信耗時,提升 GPU 有效計算時間占比(GPU 計算時間/整體訓練時間),對于 AI 分布式訓練集群的效率提升至關重要。以下將從規模、帶寬、時延、穩定
23、性及網絡部署角度分析 AI 大模型對于網絡的需求。2.1.超大規模組網需求超大規模組網需求AI 應用計算量呈幾何級數增長,算法模型向巨量化發展,人工智能模型參數在過去十年增長了十萬倍,當前 AI 超大模型的參數目前已經達到了千億萬億的級別。訓練這樣的模型,毫無疑問需要超高算力。此外,超大模型對于顯存的需求頁很高。以 1T 參數模型為例,使用 16bit 精度存儲,首先需要消耗 2TB 的存儲空間。除此之外,在訓練過程中,前向計算產生的激活值、反向計算產生的梯度、參數更新需要的優化器狀態等中間變量均需要存儲,且中間變量在單次迭代中也會不斷增加。一個使用 Adam 優化器的訓練過程,峰值會產生 7
24、 倍于模型參數量的中間變量。如此高的顯存消耗,意味著需要幾十上百個 GPU 才能完整存儲一個模型的訓練過程??墒?,僅僅有了大量 GPU,仍然無法訓練出有效的大模型。合適的并行方式才是提升訓練效率的關鍵。目前超大模型主要有三種并行方式:數據并行、流水線并行、張量并行。在千億萬億級別的大模型訓練時,以上三種并行都會存在。訓練超大模型需要數千GPU 組成的集群。表面上看,這和云數據中心當前已經達到數萬服務器的互聯規模相比,還處于下風。但實際上,幾千節點的 GPU 互聯,比數萬服務器的互聯更具有挑戰,因為網絡能力和計算能力需要高度匹配。云數據中心使用 CPU 計算,網絡需求一般在10Gbps100Gb
25、ps,并且使用傳統 TCP 傳輸層協議。但 AI 超大模型訓練使用 GPU 訓練,算力比 CPU 高好幾個數量級,互聯網絡需求在 100Gbps400Gbps,此外使用了 RDMA 協議來減少傳輸時延,提升網絡吞吐。具體來說,數千 GPU 的高性能組網,在網絡規模上有以下問題需要考慮大規模 RDMA 網絡遇到的問題,例如鏈路頭阻、PFC 死鎖風暴網絡性能優化,包括更高效的擁塞控制、負載均衡技術網卡連接性能問題,單主機受到硬件性能限制,如何構建數千 RDMA 的 QP 連接網絡拓撲選擇,是傳統 Fat Tree 結構更好,還是可以參考高性能計算的 Torus,Dragonfly 等組網2.2.超
26、高帶寬需求超高帶寬需求在 AI 大模型訓練場景下,機內與機外的集合通信操作將產生大量的通信數據量。從機內 GPU 通信角度看,以千億參數規模的 AI 模型為例,模型并行產生的 AllReduce 集合通信數據量將達到百 GB 級別,因此機內 GPU 間的通信帶寬及方式對于流完成時間十分重要。服務器內 GPU 應支持高速互聯協議,且其進一步避免了 GPU 通信過程中依靠 CPU 內存緩存數據的多次拷貝操作。從機間 GPU 通信角度看,流水線并行、數據并行及張量并行模式需要不同的通信操作,部分集合通信數據將達到百 GB 級別,且復雜的集合通信模式將在同一時刻產生多對一與一對多的通信。因此機間 GP
27、U 的高速互聯對于網絡的單端口帶寬、節點間的可用鏈路數量及網絡總帶寬提出了高要求。另外,GPU 與網卡間通常通過 PCIe 總線互聯,PCIe 總線的通信帶寬決定網卡單端口帶寬能否完全發揮。以 PCIe3.0 總線(16lane對應單向 16GB/秒帶寬)為例,當機間通信配備 200Gbps 的單端口帶寬時,機間的網絡性能將無法完全被使用。2.3.超低時延及抖動需求超低時延及抖動需求在數據通信傳輸過程中產生的網絡時延由靜態時延和動態時延兩個部分構成。靜態時延包含數據串行時延、設備轉發時延和光電傳輸時延,靜態時延由轉發芯片的能力和傳輸的距離決定,當網絡拓撲與通信數據量確定時,此部分時延通常為固定
28、值,而真正對網絡性能影響比較大的是動態時延。動態時延包含了交換機內部排隊時延和丟包重傳時延,通常由網絡擁塞和丟包引起。以 1750 億參數規模的 GPT-3 模型訓練為例,從理論估算模型分析,當動態時延從 10us提升至 1000us 時,GPU 有效計算時間占比將降低接近 10%,當網絡丟包率為千分之一時,GPU 有效計算時間占比將下降 13%,當網絡丟包率達到 1%時,GPU 有效計算時間占比將低于 5%。如何降低計算通信時延、提升網絡吞吐是 AI 大模型智算中心能夠充分釋放算力的核心問題。除時延外,網絡變化因素引入的時延抖動也對訓練效率產生影響。訓練過程中計算節點的集合通信過程一般可以拆
29、解成多個節點間并行執行 P2P 通信,例如 N 個節點間 RingAllReduce 集合通信包含 2*(N-1)次的數據通信子流程,每個子流程中所有節點均完成 P2P通信(并行執行)才可結束這個子流程。當網絡出現波動時,某兩個節點間的 P2P 的流完成時間(FCT)將明顯變長。因網絡抖動引入的 P2P 通信時間變化可理解為木桶效率的最弱一環,將會導致其所屬的子流程的完成時間也隨之變長。因此,網絡抖動導致集合通信的效率變低,從而影響到 AI 大模型的訓練效率。2.4.超高穩定性需求超高穩定性需求Transformer 誕生以后,開啟了大模型快速演進的序章。過去 5 年時間,模型從 61M,增長
30、到 540B,翻了近 1 萬倍!集群算力決定了 AI 模型訓練速度的快慢,單塊 V100 訓練GTP-3 需要 335 年,10000 張 V100 的集群,集群系統完美線性擴展需要 12 天左右時間。網絡系統的可用性是作為基礎來決定整個集群的計算穩定性。一方面,網絡故障域大,集群中一個網絡節點的故障可能會影響數十個甚至更多的計算節點的連通性,降低系統算力的完整性;另一方面,網絡性能波動影響大,網絡作為集群共享資源相較于單個計算節點不容易被隔離,性能波動會導致所有計算資源的利用率都受影響。因此在 AI 大模型訓練任務周期中,維持網絡的穩定高效是極其重要的目標,對網絡運維帶來了新的挑戰。在訓練任
31、務期間一旦發生故障,可能需要容錯替換或者彈性擴縮容的方式來處理故障節點。一旦參與計算的節點位置發生了變化,導致當前的通信模式或許就不是最優的,需要通過作業重新排布和調度,以此來提升整體訓練的效率。另外,一些網絡故障(例如靜默丟包)的發生是不可被預期的,一旦發生不僅會導致集合通信效率降低,同時還會引發通信庫超時,造成訓練業務長時間卡死,很大程度上影響訓練效率。因此需要通過獲取細粒度的業務流吞吐、丟包等信息,可避障自愈的耗時控制在秒級別內。2.5.網絡自動化部署需求網絡自動化部署需求智能無損網絡的構建往往基于 RDMA 協議及擁塞控制機制,但與之相伴隨的是一系列復雜多樣化的配置。其中任一個參數配置
32、錯誤都可能會影響到業務的性能,還有可能會引出些許不符合預期的問題。據統計,超過 90%的高性能網絡故障是由配置錯誤導致的問題,出現這一問題的主要原因是網卡配置參數多,其中參數量取決于架構版本、業務類型和網卡類型。由于 AI 大模型訓練中集群規模大,進一步增大配置的復雜度。因此,高效或自動化部署配置能夠有效的提升大模型集群系統的可靠性和效率。自動化部署配置需要能夠做到多臺并行部署配置的能力,自動選擇擁塞控制機制相關參數以及根據網卡類型和業務類型選擇相關配置。同樣的,在復雜的架構和配置條件下,在業務運行過程中可快速準確地故障定位,能夠有效保障整體業務效率。自動化的故障檢測一方面可以快速定界問題,精
33、準推送問題至管理人員,另一方面可以減少問題定位成本,快速定位問題根因并給出解決方案。3.當前網絡能力與當前網絡能力與業務業務需求的差異點需求的差異點根據前面的分析可知,AI 大模型對網絡的需求主要體現在規模、帶寬、穩定性、時延/抖動以及自動化能力 5 個方面。從當前數據中心網絡的實際能力來看,完全匹配 AI 大模型的需求在技術上仍然有一定的差距。3.1.規模差距分析規模差距分析AI 大模型分布式機器學習場景的集群規模通常在 10K 級別以上,且要求在規模組網環境下實現穩定的高傳輸性能,相比之下,當前數據中心網絡存在以下的明顯不足:(1)網絡性能需求制約著組網規模的增長單純從 AI 集群規模來看
34、,10K+節點規模相對于采用數據中心多級 CLOS 組網架構完全可以勝任。但多級 CLOS 架構下避免擁塞并維持穩定的時延、抖動以及吞吐性能保障卻是當前數據中心網絡能力所不具備的。由于 AI 網絡特有的流量模型(低熵、高帶寬利用率、少數大象流、同步效應等),傳統數據中心所采用的負載均衡技術(通常使用 ECMP 或者LAG 等)以及微突發應對策略(通常采用較低的帶寬利用率預留 Headroom)在該場景中的能力不足會導致 AI 業務性能受損,從而制約著 AI 集群的規模。(2)網卡資源不足限制了集群規模的增長RDMA 技術可以大幅提升通信節點之間的數據訪問性能并降低 CPU 的負荷,在 AI/H
35、PC集群中有著廣泛的應用,是面向應用開發者高性能通信庫的底層支撐技術。而原生 RDMA 協議中通常采用可靠面向連接的傳輸方式,RDMA 網卡需要為每一個連接維護大量的協議狀態,進而消耗掉大量的片上緩存。綜合來看需要占用網卡緩存資源的信息主要包括:QP Context 上下文信息:用于緩存 QP 對應上下文信息,經驗值每個 QP 需要緩存 200B以上的內容內存地址翻譯表(MTT):內部邏輯地址與主機內存物理地址的映射表內存保護表(MPT):用于本地和遠端 RDMA 訪問時做鑒權功能擁塞控制/流控狀態:每一個擁塞控制/流控組都會對應維護一組擁塞控制/流控的狀態信息以及對應的限速或窗口數據,通常這
36、些數據會隨著部署規模的增加而需要更多的緩存空間,也是影響大規模 QP 部署的主要因素由于在芯片設計時有限面積對應的 RAM 空間終究也是有限的,通常分配到如上緩存類別中,整體規模都不會太大,進而網卡的資源限制了網卡可以支持的 QP 對數量,考慮到大模型訓練的集群規模,如何減少 QP 需求以及優化 QP 可支持數量是當前迫切需要解決的問題。(3)擁塞控制算法能力不足是限制集群規模的重要因素根據 AI 大模型訓練的組網規模需求,網絡中的通信節點可達數千卡規模,且訓練過程中包含多種并行模式,通信數據模型呈現多點互相通信與“大象流”的特性。而當前網絡的交換容量與緩存空間有限,易產生網絡擁塞和丟包問題。
37、當前 RoCEv2 網絡中最常用的擁塞控制算法為 DCQCN 算法,該算法在在 10K+節點級的 AI 大模型網絡中存在明顯的性能不足問題,主要包含以下 3 點:流控調參復雜度高:主流的擁塞控制算法都基于啟發式算法,涉及眾多的算法參數的配置和調優。不同參數的組合對特定物理網絡中業務的性能影響較大。調參的復雜性在AI 大模型網絡中顯得尤為突出,進而成為制約網絡規模的重要因素。以典型的 DCQCN算法為例,實際生產系統中算法參數的調整涉及 Alpha 因子更新、降速階段、升速階段以及擁塞通知等 15+算法參數的設置。此外網絡設備側的參數含 ECN/PFC 水線、QoS策略等可變參數,流控調參工作的
38、復雜性自是不言而喻。實踐表明,即便在小規模 ROCE網絡中,流控調參工作往往需要專業人士持續投入數周的時間,其高昂的精調成本和經驗在 AI 大模型網絡中顯然不具備可復制性。PFC 協議有缺陷:當前幾乎所有的擁塞控制算法均將 PFC 作為擁塞控制失效場景下的最后一道屏障,然而,由于 PFC 協議本身的局限性,導致依賴 PFC 協議的網絡規模受限。首先,在高度冗余的網絡拓撲中(如多級 CLOS 網絡),傳統的 PFC 協議容易出現死鎖問題,可導致網絡性能急速歸零,而通過 Watchdog 等技術手段預防死鎖也會導致協議配置的復雜化。其次,由于 PFC 協議僅支持接口隊列級流控,這種粗顆粒度的流控機
39、制極易引發頭端阻塞和流間公平性問題,目前尚沒有一種擁塞控制算法能完美地解決這些問題。在 AI 大模型網絡中,高吞吐和低時延抖動需求的疊加要求網絡最大限度避免 PFC 以及報文排隊現象的發生,這對當前擁塞控制算法的能力提出了更高的要求;水線調節不靈活:為了配合端側擁塞控制算法的實施,網絡設備涉及到 ECN、PFC 等協議的水線配置和靈活調整。這些水線的合理設置對于網絡的整體性能影響極大,其具體的取值與業務流量模型、網絡設備架構、網絡拓撲、網絡規模等信息息息相關。傳統小規模網絡中基于人工的配置方式顯然不滿足 AI 大模型網絡規?;ㄔO和運維的需求,需要一定的自動化水線調節甚至 AI 智能水線能力的
40、建設和積累。3.2.有效帶寬差距分析有效帶寬差距分析在帶寬需求方面,一方面 AI 大模型對網絡的互聯帶寬有明確的要求,另一方面需要在高互聯帶寬的前提下保持 AI 應用通信的吞吐性能。這些需求雖然在傳統數據中心中也有體現,但在面向 AI 業務的網絡中仍然呈現出不同的特征,具體分析如下:(1)負載均衡能力不足帶來的挑戰在傳統數據中心網絡中,數量較多的小流使得傳統基于流的負載均衡技術雖然不感知網絡的實際狀態,卻仍然可以達到較好的負載均衡和擁塞避免的效果。而 AI 場景流量特征的巨大差異導致傳統負載均衡技術失效,其本質原因是基于流的負載均衡技術并不能感知上下游網絡實際的利用率和擁塞狀態,引發鏈路極化進
41、而導致頻繁的擁塞、丟包以及時延抖動指標的劣化。有測試數據表明,在不產生擁塞的情況下,ECMP 流級負載均衡導致約有 10%的應用流完成時間指標是理想狀態下的 1.5 倍以上,最壞的情況下甚至達到 2.5 倍,應用性能劣化明顯。因此在面向 AI 的網絡中,需要網絡基于實時狀態信息支持更細顆粒度的負載均衡能力。(2)RDMA 擁塞控制算法的挑戰分布式高性能應用的特征是多對一通信的 Incast 流量模型,對于以太網的設備,Incast流量易造成設備內部隊列緩存的瞬時突發擁塞甚至丟包,帶來應用時延的增加和吞吐的下降,從而損害分布式應用的性能。解決網絡擁塞丟包實際上是要防止過多的數據注入到網絡中造成擁
42、塞,使設備緩存或鏈路容量不會過載。DCQCN 目前是 RDMA 網絡應用最廣泛的擁塞控制算法,也是典型的被動擁塞控制算法。其發送端根據接收到的 ECN 標記報文,利用 AIMD 機制調整發送速率。由于 1 個比特的 ECN 信號只能定性不可定量地表示擁塞,端測需要探測式調整發送速率,導致收斂速度慢,引起網絡吞吐性能下降。(3)超高互聯帶寬的挑戰AI 服務器當前采用的普遍是 PCIE4.0,、5.0,目前正在向 6.0 的規格發展。相比 PCIe 4.0相比,PCIe 5.0 速率提升 1 倍,帶寬最大支持 x16,可支撐更高性能的業務。AI 集群當前普遍采用單卡 100GE/200GE 的高性
43、能網卡,高端網卡已經達到 400G 接口,對于網絡接入層的盒式交換機,其也需要在接入端配套為 100G/200G 甚至更高速率的 400G 交換機,匯聚端需要 800G 交換機,這對交換機設備容量的需求提出了挑戰。3.3.穩定性差距分析穩定性差距分析當 AI 集群規模達到一定量級后,如何保障集群系統的穩定性,是除了性能外必須面對的另一個挑戰。網絡的穩定性一方面決定了整個集群的計算穩定性,另一方面其引發的影響具有放大效應,根本原因在于:網絡故障域大:相比單點 GPU 故障只影響集群算力的千分之幾,網絡故障會影響數十個甚至更多 GPU 的連通性,只有網絡穩定才能維持系統算力的完整性。網絡性能波動影
44、響大:相比單個低性能 GPU 或服務器容易被隔離,網絡作為集群共享資源,性能波動會導致所有計算資源的利用率都受影響。對比當前數據中心在穩定性方面的能力,在如下幾個方面仍然略顯不足:(1)故障收斂時間過長導致業務性能受損在 AI 大模型場景下,網絡故障收斂時間越長,算力損失越大,性能敏感業務體驗也越差。然而可靠性再高的網絡仍然不可避免出現鏈路級以及節點級的故障,網絡規模越大,出現故障的概率越大。在大規模網絡環境中,網絡節點和鏈路數量激增的同時也帶來了故障事件的增加(典型云數據中心交換機的硬件故障率通常在 0.15 左右)。當鏈路故障發生時,傳統收斂技術依賴控制面的動態路由協議的信息交互和重新選路
45、,收斂時間較長,通常達到秒級甚至十秒級,即便采用數據面故障快速檢測恢復技術(如 BFD 檢測,主備路徑切換),其故障收斂性能仍然在幾十毫秒以上,其收斂時長均遠大于 AI 高性能網絡的 RTT 時延。網絡故障發展成為性能損傷事件基本是必然且不可接受的。如何提升網絡在故障場景中的收斂性能是當前網絡亟待解決的問題之一。(2)缺乏高效的端網協同機制導致算側無法快速響應網絡故障當前數據中心網絡故障通常依靠網絡本身的收斂能力或者運維手段實現故障隔離和恢復,對于丟包、時延不敏感的業務流量而言已經足夠。在傳統的無損網絡中,ECN/PFC 等粗顆粒度端網協同機制也可以有效實現擁塞避免。然而,在 AI 高性能網絡
46、中,業務對丟包、時延以及抖動性能都異常敏感,如果網絡側故障不能快速準確地傳遞到端側(智能網卡/DPU)并進行精準合理的源端行為控制(包括速率調節和路徑控制等),擁塞導致的丟包、時延抖動以及吞吐性能下降則是必然的結果。由此可見,支持高效的端網協同機制是 AI 網絡穩定性的重要一環,也是當前網絡的主要能力短板。3.4.時延、抖動差距分析時延、抖動差距分析AI 大模型應用對端到端通信時延和抖動性能提出了較高的要求,通常要求平均時延需要控制在數 us,長尾時延控制在 10us 及以下。對比當前的網絡能力,存在如下差距:(1)網絡擁塞導致的動態時延是實現低時延通信的主要障礙典型數據中心交換機的硬件轉發時
47、延(靜態時延)通常在 500ns-10us 之間,在 AI 業務節點端到端通信時延(通常都在幾十甚至上百 ms)中的占比較小,而由擁塞導致的排隊時延(動態時延)可以達到幾十 ms 甚至亞秒級,是導致時延指標不達預期的主要原因。由前面的分析可知,當前主流的擁塞控制算法在 AI 高性能網絡中均無法避免局部擁塞的問題,需要更精準、及時的擁塞控制機制實現 AI 業務低時延的基本需求。(2)集合通信的流同步效應導致抖動成為影響應用性能的關鍵因素AI 場景中常用的集合通信具有明顯的流同步效應,這種同步效應要求網絡不僅要做到低時延,且時延抖動要盡可能降到最低。由于木桶效應,集合通信會放大長尾時延對應用性能的
48、影響,因而抖動的控制相比時延的平均值而言更具挑戰性。即便無擁塞丟包,不合理的負載均衡、隨機的排隊時延依然會讓抖動指標劣化,進而導致應用性能的下降。相關測試數據表明,在 AI 場景中,對比傳統基于流的負載均衡技術,逐包負載均衡帶來時延抖動下降的同時,應用 JCT 指標可以獲得高達 40%的性能增益。由此可見,對時延抖動的有效控制是 AI 高性能網絡的重要需求,需要合理的技術手段來彌補當前網絡抖動控制能力的不足。(3)機內和機間網絡缺乏協同導致整體通信性能受限當前機內節點間通信通常以 PCIE、NVLink、UPI、CXL 等高速互聯總線技術為主,機間通信則由網卡和網絡設備組成高性能網絡。機內互聯
49、總線具有帶寬高性能好的優勢,但總體擴展能力有限且容易出現局部性能瓶頸。機間通信雖然性能方面略遜一籌,但擴展性好。當前機內網絡和機間網絡缺少靈活的協同機制,容易出現局部熱點導致端到端通信性能受限,需要通過合理的軟件、機內、機間網絡的協同設計實現硬件資源的高效利用。3.5.自動化能力差距分析自動化能力差距分析SDN 已經誕生近 10 年時間,相關的自動化技術也相對成熟。但傳統的 SDN 自動化主要是建立在通用計算網絡之上,通過網絡設備部署 VXLAN 特性,將業務平面與物理網絡狀態解耦。網絡控制器在自動化部署、變更時只需要編排業務網絡,映射到基礎物理網絡就是建立 IP 可達的隧道,自動化管理能力簡
50、單、高效。在 AI 大模型訓練場景下,當大規模 AI 網絡或者對安全隔離有獨特的需求時,網絡建設可以引入 VXLAN 特性,傳統網絡控制器具備自動化編排能力。但多數情況下 AI 參數面網絡是一個封閉的專用網絡?;谟柧毿士紤],一種典型的網絡架構是 Underlay 直接承載 AI 訓練任務,不再劃分 Overlay 平面。同時為了充分利用設備轉發能力,設備組間不再配置 M-lag,GPU 使用單歸方式接入網絡。最后,由于 AI 訓練場景下,網流動輒 100G,200G 乃至 400G,傳統的智能流分析技術已經無法解決 AI 訓練場景下的可視化問題。隱患識別和故障預測、閉環一定程度上依賴可視化
51、技術,因此需要新的技術解決相關問題。4.面對差異網絡應對舉措面對差異網絡應對舉措智算中心網絡作為連接 CPU、xPU、內存、存儲等資源重要基礎設施,貫穿數據計算、存儲全流程,算力水平作為三者綜合衡量指標,網絡性能成為提升智算中心算力的關鍵要素,智算中心網絡向超大規模、超高帶寬,超高穩定性、超低時延、自動化等方向發展。4.1.大規模組網關鍵技術大規模組網關鍵技術為了支持更大規模的組網,首先需要組網設備本身硬件能力的支持,其次需要研究與AI 大模型協同的新型拓撲優化時延和成本方案。同時在組建大規模網絡過程需要強大的擁塞控制機制來解決大規模網絡的擁塞問題,以便在大規模網絡中有高性能網絡指標。4.1.
52、1 網絡設備硬件本身改進網絡設備應從提升自身能力出發,聯合端網協同機制,為應對 AI 大模型對智算中心網絡超大規模需求的挑戰,在以下兩方面提出改進措施:(1)RDMA 智能網卡針對大規模 QP 部署措施優化基于 RC 的通訊是為每一對需要通訊的 QP 建立、維護一組連接,此方式導致連接數的規模巨大,進而限制了組網規模。為減少對 QP 連接數的需求,提出以下四種優化措施。:每連接多路徑的能力優化?;诙鄠€五元組的會話進行數據包的傳輸時,每連接多路徑可將連接上的數據可以分擔到多個不同的五元組。這樣一方面可以提升網絡的可靠性,如在數據中心 fat-tree 組網存在充分的等價路徑前提下,任意一個單點
53、故障僅影響部分路徑的轉發,不會導致整個連接中斷。另一方面,網絡均衡性將提高,使得網絡的利用率得到改善,從而提高 RoCE 傳輸的性能。AWS 已經將多路徑技術應用到其自研的協議 SRD 中,其在流量收斂性能上得到了顯著的優化。從 RC 模式往連接數依賴更小的模式演進。目前基于 RC 的通訊是為每一對需要通訊的QP 建立、維護一組連接,導致了連接數的規模巨大,進而限制了組網規模。針對該問題有兩種解決方案,方案一是不再提供更粗粒度的傳輸服務,即協議棧不提供面向連接的保序傳輸可靠傳輸能力,硬件協議棧僅負責可靠報文傳遞,保序等復雜的服務由驅動軟件完成;方案二是優化連接的層次拆分,構建連接池,實現連接的
54、動態共享。AWS的 SRD 及 Mellanox 的 DC 技術分別為這兩種方案的代表。從 go back N 往選擇性重傳演進。go back N 重傳是一種簡單的重傳方式,所以在早期芯片資源受限的情況下硬件卸載的協議棧選擇實現此方式來實現重傳,加上有 PFC 加持,一般來說丟包概率非常低(在 PFC 參數配置合理的情況下,一般只會在出現鏈路錯包,鏈路故障的情況下才會發生丟包),芯片實現 go back N 重傳不失為一種合理的選擇。但隨著 RoCE 組網規模不斷增加,引發對 PFC 風暴整網流量驟停的擔憂,同時半導體工藝的提升在幫助網卡硬件芯片中能實現更為復雜的協議,RoCE 的重傳方式將
55、會逐漸從 go back N 的全量重傳演進到選擇性重傳??删幊棠芰灮?。目前行業內的探索方向包括可編程擁塞控制算法、可編程 DMA 能力等,主要目的是根據實際應用中業務模型實現更有針對性的擁塞控制算法,以及根據DMA 技術的方式可以及時更新 DMA 的實現機制,能夠保障在更先進的 DMA 機制或者擁塞控制機制被提出的時候,RDMA 智能網卡能夠及時通過可編程能力更新對應的能力,進而提高部署規模。(2)芯片容量是智算中心網絡規模部署的重心25.6Tbps 容量芯片也早已大規模部署在國內外互聯網或云計算數據中心。25.6Tbps 容量芯片常見的數據中心交換機形態為 200G 或者 400G。25
56、.6Tbps 容量芯片的成熟穩定部署,使得 200G/400G 光模塊放量速度加快,生態拉齊,價格已經平坦化。同時,51.2Tbps 容量的芯片已經量產并即將規模性部署,如使用 51.2Tbps 芯片,則可加倍設備 400G 接口的密度,在 16K 和 32K 典型配置下,減少設備數量,并提供未來更大規模的可能性。越大帶寬的容量,可實現 GPU 大規模模型的網絡承載,并具有未來可擴展性,增強網絡基礎設施的先進性和壽命,投資回報率極高。更大的帶寬,意味著單芯片網絡設備更高的端口密度,更高的端口速率,減少網絡設備數量,節省成本和功耗,當前即能實現兩級 CLOS架構 384 臺交換機即可支持 32K
57、 個 CPU 的部署。(3)測試儀表需具備模擬 AI 大模型業務能力測試儀模擬大模型的業務分為兩種場景,其中:使用無狀態流量測試儀表,在指定測試端口數量后(模擬服務器的多對多通信),提供模擬常用高性能計算通信庫的典型流量模型(比如根據 NCCL 的 broadcast,reduce,all-reduce 等典型操作)的能力。從 M:N 通信場景,流量大小,持續時間,突發設置,大流小流設置等角度,進行針對這些典型通信操作進行模擬??梢跃珳蕼y試報文時延,抖動,丟包等指標。使用有狀態的 RoCE 測試儀表(完整實現 RDMA 協議狀態),同樣在指定測試端口數量后,通過定義 job 來模擬典型的通信操
58、作,并通過多對多的通信模式進一步模擬大模型的流量。每個 job 由基本的 RDMA 操作(比如 ib read/write 等,包括 qp 數量以及消息長度大?。┖汀暗却?,“循環”等通用動作組成。這樣當定義好 job 的構成后,可以精準測試網絡中的帶寬占用情況,報文時延,job 的完成時延等信息。4.1.2 新型拓撲當前智算中心網絡通常采用 CLOS 網絡架構,主要關注通用性,無法滿足超大規模超算場景下低時延和低成本訴求,業界針對該問題開展了多樣的架構研究和新拓撲的設計。直連拓撲在超大規模組網場景下,因為網絡直徑短,具備低成本、端到端通信跳數少的特點。64 口盒式交換機 Dragonfly
59、最大組網規模 27w 節點,4 倍于 3 級 CLOS 全盒組網。以構建 10 萬個節點超大規模集群為例,傳統的 CLOS 架構需要部署 4 級 CLOS 組網,端到端通信最大需要跨 7 跳交換機。使用 Dragonfly 直連拓撲組網,端到端交換機轉發跳數最少減少至 3 跳,交換機臺數下降 40%。同時,通過自適應路由技術實時感知網絡流量負載,動態進行路由決策,充分利用網絡鏈路帶寬,提升網絡整體吞吐和性能。4.1.3 端網協同的流控改進當前主流擁塞控制算法的優化思路仍然在端側實現,需要至少 1 個 RTT 的響應時長,同時針對網絡中存在的多擁塞點問題,仍然需要多個周期才能收斂。因此需要一種新
60、型的端網配合的擁塞控制算法,越來越多的無損網絡設計者意識到,網絡遙測信息對擁塞控制算法的重要性,網絡遙測可以獲得精確的鏈路負載信息、時延信息、丟包信息、甚至緩存狀態,配合網卡和擁塞控制控制算法,可以達到精確控制流量、快速收斂、充分利用空閑帶寬,最終避免擁塞提高帶寬利用率的效果,保障大規模分布式 AI 任務的高效完成。4.2.超高帶寬關鍵技術超高帶寬關鍵技術為了支持更大規模的組網,首先需要組網設備本身硬件能力的支持,其次在組建大規模網絡過程需要強大的擁塞控制機制來保證大規模網絡的擁塞問題,以便在大規模網絡中有高性能網絡指標。4.2.1 網絡-應用協同設計釋放算力網絡帶寬的增長主要依賴網卡/交換機
61、轉發芯片的發展,遵循10G-25G-100G-200G-400G-800G 的路線。近幾年隨著摩爾定律的逐步失效,芯片演進越來越慢,帶寬提升難度也越來越大。因此,除了芯片本身的提升,可預見將來將通過網絡-應用協同的方式,盡可能釋放已有網絡的帶寬和性能。隨著聚合算力的規模不斷增長、計算復雜度的增加,集合通信中數據交互的次數也會有明顯的增長,隨之網絡通信效率對 AI 應用完成時間的制約作用也越來越明顯。以目前較流行的集合通信操作 MPI ring all-reduce 為例,需要 2(N-1)次的數據交互才能完成,其中 N 為參與的節點數量。深度學習同樣需要調用 AllReduce 操作進行梯度聚
62、合,且每個節點的傳輸數據量是深度學習模型尺寸的 2(N-1)/N 倍。當 N 值較大時,傳輸量接近原始模型尺寸的 2 倍,相當于額外增添了網絡帶寬的負擔。近年來,隨著可編程交換機的興起和部署,可通過在網計算壓縮數據流量,實現計算傳輸效率的提升,該方式成為一個有效提升分布式系統的方法。在集合通信原語中,Reduce 和 AllReduce 含有計算的語義,因此可以使用在網計算進行加速,減少數據交互次數和入網數據量。組播是分布式計算系統中最常使用的通信模式之一。由于數據被重復發送,應用層組播任務完成時間大于數據量與通信帶寬之比。交換機可完成組播報文的復制分發,以網絡層組播替代應用層組播,避免相同數
63、據的重復發送,實現組播任務完成時間逼近理論最優值(即數據量與帶寬之比)的效果,相比于應用層組播任務完成時間減少約 50%。4.2.2 鏈路負載均衡優化技術現有基于流的負載分擔技術為:網絡設備接收到一條流進行轉發時,此流經過 hash計算確定一個轉發路徑,若不發生網絡路徑的變化,此流所有的報文都將持續在確定的路徑上轉發。在 AI/ML 的應用中,GPU 或其他類型的 AI/ML 計算單元之間有著非常簡單的通訊關系(流的數量非常少),且由于他們有著極高的計算能力,導致一對通訊單元間的數據吞吐極高(單個流很大,所需的網絡帶寬極大)。這就導致在這樣的應用中存在極端的負載分擔不均衡,而且這種不均衡一旦引
64、發網絡丟包,就會對整體 AI/ML 的任務完成時間帶來顯著的負面影響。因此業界越來越重視 Spine 和 Leaf 節點之間鏈路的負載均衡算法優化方案,以實現流量更加均衡的哈希在多條等價路徑中。在鏈路負載均衡的優化算法中,已經成熟部署的案例有動態負載平衡(DLB)。DLB 是一種質量感知負載分配的方案,它根據本地交換機的端口質量為數據包選擇下一跳。且DLB 支持 flowlet 顆粒度的調度,和基于流的負載均衡完美兼容。近期新興的感知路由(Cognitive routing)已經普遍被行業認為是負載均衡算法的最佳實踐之一?;诟兄酚傻呢撦d均衡技術實際上是一個基于全局信息的負載均衡算法。全局負
65、載平衡通過使用在下游交換機感知到的路徑質量或隊列深度,來調制本地交換機的路徑選擇,并支持 DLB 方式動態平衡流量負載。迭代路由的 GLB 功能允許上游交換機避開下游擁塞熱點并選擇更好的端到端路徑。GLB 保留了 DLB 的所有優質屬性,例如當鏈路出現故障時受影響流的自動快速故障轉移及非等價路徑的能力。同時,另一個路徑也開始逐漸萌芽和發展基于信元交換實現均衡負載分擔。信元交換機制下,接收端設備接收到報文后,會將報文拆分成若干信元。信元會基于目的端發送的調度信令選擇空閑的鏈路進行轉發;到的目的后,信元被重新拼裝成報文發出設備。在這樣的機制下,不同于包轉發(一個固定的流僅能利用單個路徑),兩個交換
66、機之間的所有鏈路都可以利用,而且完全是動態的、基于微觀負載實時調整的均衡利用。實際上信元交換本身并不是一項嶄新的技術。在目前廣泛應用的框式設備中,線卡芯片與網板芯片之間的流量交換普遍都采用了信元交換的技術,以實現機框內無阻塞交換?,F在業界已經開始嘗試將此技術應用到網絡中,比如博通發布的 DDC 網絡架構-在整個網絡設備之間采用信元交換。DDC 網絡架構證實了此項技術確實可以有效解決鏈路負載均衡的難題。將此項技術進一步擴展,應用到整個網絡上,會是 AI/ML 等專有網絡未來解決負載均衡問題的方向之一。4.2.3 低功耗的 400G/800G 互聯方案隨著 Serdes 技術推動數據中心進入 40
67、0G,800G 的時代,端口功耗成為了業界普遍關注的熱點。低功耗的 400G/800G 互聯解決方案相繼推出,引起業界廣泛關注,也被普遍認為是 AI 和機器學習等智算數據中心的關鍵技術。(1)CPO 旨在解決下一代帶寬和功率挑戰隨著對網絡和計算結構帶寬的持續加速,需要在系統和芯片架構方面進行創新,以減緩摩爾定律的放緩。與此同時,銅互連正迅速達到其帶寬距離極限。硅光子學對于維持快速數據增長和高帶寬應用至關重要。共封裝光學(CPO)是把交換機芯片 ASIC 和光電引擎(光收發器)共同封裝在同一基板上,光引擎盡量靠近 ASIC,以最大程度地減少高速電通道損耗和阻抗不連續性,從而可以使用速度更快、功耗
68、更低的片外 IO 驅動器。通過使用 CPO 不僅可以實現聯網,還可以實現 GPU 到 GPU 的互連、資源池和內存的分解。其可以滿足 AI/ML 訓練集群的需求,且具備高帶寬和基數連接、最低的每比特成本,以及最低的電源使用效率。(2)線性直驅可插拔模塊亦可降低功耗在 400G、800G 時代,除了可插拔光模塊和 CPO 解決方案外,在今年 3 月 OFC,Linear Direct Drive(直接驅動,也稱線性驅動)可插拔 400G/800G 光模塊成為了研究熱點。該光模塊方案最大的優勢在于光模塊可以省掉 DSP 芯片,極大程度降低在模塊層面的信號處理的功耗和延遲。服務于 AI 和機器學習等
69、應用的 GPU 服務器在提供出色算力的基礎上,服務器功耗也會相應的增加。400G/800G 的高速互聯使得光模塊以及網絡設備的功耗也會相應的增長。無論 CPO 還是線性直驅可插拔模塊可能都是未來智算中心的互聯解決方案,通過從互連中移除所有可能的有源組件來提供最低的系統級功率。4.3.超高穩定性關鍵技術超高穩定性關鍵技術AI 大模型下的智算中心網絡作為業務流量的調度中樞,其穩定性決定著整個 AI 集群的運行效率。因此,除關注網絡正常運行狀態下的性能指標外,如何隔離故障域、提升故障事件的感知和恢復能力也是智算中心網絡當前要解決的關鍵問題。4.3.1 基于硬件的快速感知能力AI 大模型網絡通常要求網
70、絡實現亞 ms 級的故障恢復時間。故障快速感知作為故障恢復的前提,其感知性能通常在數十 us 級以下。當前大部分基于報文探測?;顧C制的感知技術僅能保障 50ms 級的故障感知性能。因此通過設備硬件提供更高性能的故障感知能力成為了研究重點。具體而言,硬件轉發芯片可以充分利用接口物理層的統計信息(如收發光、FEC 錯包統計等)提供快速的故障感知及預測的功能,實現為上層系統提供亞 ms 級故障感知基礎能力的支持。4.3.2 基于硬件的快速收斂能力為了解決故障收斂慢的問題,一個可行的優化思路是數據面硬件卸載典型場景的故障收斂全過程,即完全由數據面感知、傳遞、處理故障。通過這種方式,有望將故障收斂性能提
71、升至亞毫秒級。該技術基于轉發芯片的硬件可編程能力構建,從傳統的基于控制面協議軟件的收斂方式演進到基于數據面硬件極速感知故障的收斂方式,并且基于數據面硬件實現遠程通告和快速換路。該技術可達到亞毫秒級(1ms)的收斂速度,將對業務性能的影響降至最低?;谟布墓收峡焖偈諗繛楦咝阅軘祿?、存儲以及超算等關鍵應用提供了極致的高可靠性保證和穩定性體驗。4.3.3 層次化的網絡故障自愈能力在以性能為導向的大規模網絡中,面向各種網絡故障場景下的自愈能力是保障業務可靠性的關鍵。網絡故障自愈能力需要在鏈路級、設備級以及網絡級開展層次化方案的制定。其主要宗旨是最大限度降低業務性能的影響,核心技術在于提升各類網絡故
72、障事件響應的實時性。具體而言,在鏈路層面,通過充分挖掘網絡多路徑的資源價值,在最合適的節點以最快的速度實現流量轉發路徑的切換保護;在設備層面,通過利用節點級保護技術,實現流量的快速重路由;在網絡層面,借助自動化和智能化的手段對常見的網絡級故障開展根因分析和問題關聯,通過快速響應預案的積累形成網絡自動止血的能力,確保網絡故障恢復指標在可預期的范圍內。4.4.超低時延關鍵技術超低時延關鍵技術為了滿足 AI 大模型對超低時延的需求,智算中心網絡需要從集合通訊與網絡拓撲協同、硬件卸載加速技術以及靜態時延優化等方面進行優化和創新。4.4.1 集合通訊算法和網絡拓撲協同集合通信允許一組進程以定義明確、協調
73、一致的方式交換消息和共享數據,是分布式AI訓練系統實現數據并行、模型并行以及混合并行的的核心。如NVIDIA公司開源的NCCL可在 PCIe,NVLink,Ethernet 以及 Infiniband 網絡上實現較高帶寬、低延遲的 GPU 通信。集合通信的性能和網絡拓撲密切相關。NCCL 能夠針對拓撲特征和 GPU 特征進行定制優化,具有比傳統集合通信庫 MPI 更高的性能。比如 PXN 方法將不同服務器上位于相同位置的網卡,都歸屬于同一 ToR switch;不同位置的網卡,歸屬于不同的 ToR switch。該方式下,不同 host 上相同位置的 GPU 仍然走機間網絡通信,一跳可達;不同
74、 host 上不同位置的 GPU,則先通過機內網絡轉發到對應位置的 GPU 代理上,然后通過該 GPU 代理走機間網絡來完成通信。該方法可以有效地減少跨 host 集合通信過程的網絡跳數,從而提升整網性能。4.4.2 DPU 硬件卸載在當前 GPU 的算力能力下,100Gbps 或更大的數據量才能夠充分發揮單個 GPU 的算力。在這樣的發展趨勢下,基于 RDMA 協議的 GPUDirect RDMA 技術,在 DPU 與 GPU通信的過程中可繞過主機內存,直接實現對 GPU 內存的讀寫能力。而且,DPU 上全硬件實現的 RDMA 能夠支持單流百 G 以上的數據收發能力,進而實現了 GPU 算力
75、聚合且最大化提升了 GPU 集群算力。GPUDirect RDMA 技術已經成為當前算力資源總線級互聯高性能網絡的主流技術。另一個 GPU Direct 技術是 GPU Direct Storage,簡稱 GDS。GDS 是為了解決 GPU 從Storage 獲取數據的延時和效率問題,可實現 GPU 到 Storage 的直接訪問。在 GPU 使用GDS 訪問遠端存儲時,通過網卡實現 NVMe-oF 的卸載和加速就變得異常重要。NVMe-oF的實現是在標準的 NVMe 操作上進行了網絡部分的封裝。NVMe 實現的各種隊列操作,包括 MQ,SQ,CQ 等,可以清晰的通過硬件邏輯實現。同時,根據
76、NVMe-oF 所支持的網絡協議,進一步判斷哪種協議適合硬件卸載,或者其使用硬件卸載方式付出的代價最小。利用網卡對 RDMA 的支持,再疊加 NVMe 的實現邏輯,網卡可以完整實現 NVMe overRDMA 的硬件卸載,進而為 GDS 提供 NVMe-oF 卸載及加速方案。4.4.3 靜態轉發時延優化靜態轉發時延主要是由轉發芯片引入的。轉發芯片主要有 PHY/MAC 模塊、包處理(PP)模塊和緩存管理(BM)模塊組成,可針對不同模塊分別進行時延優化處理。PHY/MAC 模塊:為了支持更廣泛的場景應用,在保證接口可靠性的同時追求更低的時延,新的接口形態和編碼算法有待進一步探索。包處理(PP)模
77、塊:為了降低包處理模塊的時延,可通過簡化業務部署的方式,如關閉報文轉發路徑上不需要的子模塊、關閉下行 ACL 功能(設備上未部署下行 ACL 時)及不建議部署 VxLAN 業務等方式。同時,包處理模塊內存在較多的查表(MAC 表/FIB表)過程,主要表項因為容量較大普遍采用算法查找,其查表深度也會影響轉發時延。為了追求更低的時延,需要探索更好的并行查表設計及高效的查表算法。緩存管理(BM)模塊:為進一步降低緩存管理靜態時延,需要優化芯片內緩存布局和總線設計。隨著應用流量模型的變化和鏈路利用率的提升,影響時延的主要因素不再是靜態時延,而是擁塞帶來的動態時延。動態時延的控制依賴精細的緩存管理,包括
78、各種擁塞通知門限和反壓門限的適應和調整,以及端網協同等相關技術。4.54.5 自動化關鍵技術自動化關鍵技術面對 AI 大模型場景下網絡的特殊性,AI 網絡需要實現多維度自動化能力的支持,包含以下四方面。(1)端到端部署自動化能力是 AI 集群擴展性的前提AI 大模型網絡典型的特征是規模較大,且必須支撐業務集群的按需擴容。然而,網絡中涉及擁塞控制算法、RDMA 無損等復雜特性的配置,且配置工作涵蓋網卡和網絡交換機。面對 AI 網絡特殊性和復雜性,通過充分識別并分析 AI 場景網絡特征及變更特點,從而設計符合 AI 場景的網絡模型,支撐自動化能力,盡力實現“即插即用式開局”。(2)測試驗收自動化能
79、力是 AI 集群高品質交付的基礎在網絡與端側的部署工作完成后,需要結合場景針對配置一致性、可靠性、業務性能等開展一系列自動化測試和驗收的活動。通過自動化測試建立驗收基準,而非依靠人工經驗,是確保 AI 集群高品質交付的基礎。(3)運維自動化是確保網絡性能和可靠性的關鍵對于一些突發的網絡故障或者性能事件,利用轉發芯片的原生能力,對網絡的狀態、數據進行高性能可視化監控。例如通過呈現網絡的擁塞狀態、負載不均狀態等,為自動化調度調優提供數據支持,可實現端到端可視化、自動化運維等,實現故障的快速定位和一鍵修復的能力。(4)變更自動化是網絡能力自演進的基本保障在 AI 網絡中,業務需求的變化、新技術的引入
80、、網絡故障的修復、網絡配置的優化等都會引發網絡配置的頻繁變更。變更自動化能力是確保過程安全的基本手段,也是網絡能力自優化、自演進的基本要求。5.總結和展望總結和展望隨著 ChatGPT、Copilot、文心一言等大模型應用的橫空出世,AI 大模型下的智算中心網絡也將帶來全新的升級。本白皮書從 AI 大模型發展情況、AI 大模型下智算中心網絡的需求、當前技術與需求的差距及技術演進四個方面,開展了相關研究,以期拋磚引玉,更盼得到更多同行的參與和討論。中國移動也希望按照高價值優先、先易后難的原則,逐步推動 AI 大模型下的智算中心網絡關鍵技術的成熟與落地。我們期盼與眾多合作伙伴一起,匯聚行業力量,共
81、同打造大規模、高帶寬、高性能、低時延以及智能化的 AI 大模型智算中心網絡。術語術語定義定義縮略詞表縮略詞表英文縮寫英文全稱中文全稱ACLAccess Control List訪問控制列表AIArtificial Intelligence人工智能AIGCAI Generated Content人工智能生成內容AIMDadditive-increase/multiplicative-decrease線性增速乘性降速AdamAdaptive Moment Estimation自適應矩估計APIApplication Programming Interface應用程序接口AIaaSAI as a S
82、ervice人工智能即服務ASICApplication Specific Integrated Circuit專用集成電路BERTBidirectional Encoder Representationsfrom Transformers一個預訓練的語言表征模型BFDBidirectional Forwarding Detection雙向轉發檢測BMBuffer Memory緩存管理CPUCentral Processing Unit中央處理器CPOCo-packaged Optics共封裝光學CQCompletion Queue完成隊列CXLCompute Express Link開放性互
83、聯協議DCQCNData Center Quantized CongestionNotification擁塞控制算法DDCDistributed Disaggregated Chassis分布式分散式機箱DPUData Processing Unit數據處理器DMADirect Memory Access直接內存訪問詞語解釋數據并行(DataParallelism)通過將訓練樣本集拆分成多個mini-batch,在多GPU上訓練。每個GPU根據自己mini-batch得到模型梯度,然后多個GPU將各自得到的梯度進行平均,再進行參數更新,開始下一輪迭代訓練流 水 線 并 行(PipelinePa
84、rallelism)將大模型按照層為單位,切分到多個設備。模型層之間有依賴關系,負責第k層的GPU需要在負責第k-1層的GPU完成計算后,傳遞相關參數。為了避免這種依賴關系導致的GPU等待,mini-batch進一步被分割成micro-batch,然后多個micro-batch按照流水線的模式依次計算。這樣,后一個GPU處理第n個micro-batch時,前一個GPU可以開始計算第n+1個micro-batch,實現流水線計算,提升系統效率張 量 并 行(TensorParallelism)將大模型每一層進一步切分,從而減少存儲一層帶來的顯存壓力。張量并行可以理解成矩陣乘法拆分成分塊乘法,在多
85、個GPU分塊完成任務后,再進行AllReduce/AllGather集合通信模式進行結果匯總。張量并行對通信時延和帶寬要求都極高DLBDynamic Load Balance動態負載平衡ECMPEqual Cost Multipath等價多路徑ECNExplicit Congestion Notification明確的擁塞通知FCTFlow Completed Time流完成時間FIBForwarding Information Base轉發表FECForward Error Correction前向糾錯GBGigabyte吉字節GLBGlobal Load Balance全局負載平衡GPUG
86、raphics Processing Unit圖形處理器GPTGenerative Pre-trained Transformer生成預訓練變壓器IaaSInfrastructure as a Service基礎設施即服務IPInternet Protocol Address互聯網協議地址JCTjob completion time任務完成時間LAGLink Aggregation Group鏈路匯聚組MaaSModel as a Service模型即服務MPIMessage Passing Interface傳統集合通信庫MQ,SQ,CQ 隊列操作Message Queue消息隊列MACMe
87、dia Access Control Address媒體存取控制位址NVMe-oFNVMe over Fabric基于網絡的非易失性內存主機控制器接口規范NCCLNVIDIA Collective CommunicationLibraryNVIDIA 聚合通信庫PF-dayPetaflop/s-day一天進行約 10 的 20 次方運算P2Ppoint to point點對點PaaSPlatform as a Service平臺即服務PFCPriority-Based Flow Control基于優先級流量控制PCIePeripheral Component InterconnectExpre
88、ss高速串行計算機擴展總線標準PPpacket processor包處理PHYPhysical端口物理層QoSQuality of Service服務質量QPQueue Pair隊列對RAMRandom Access Memory隨機存取存儲器RCreliable connection可靠連接RDMARemote Direct Memory Access遠程直接數據存取RoCERDMA over Converged Ethernet)遠程內存直接訪問協議RTTRound-Trip Time往返時延SFTsupervised fine-tuning生成模型 GPT 的有監督精調SaaSSoftware as a Service軟件即服務SDNSoftware-defined Networking軟件定義網絡SQSubmission Queue提交隊列SRDScalable Reliable Datagram可擴展的可靠性數據報ToRTop of Rack接入交換機TCPTransmission Control Protocol傳輸控制協議TBTerabyte太字節UPIQuick Path Interconnect快速通道互聯VxLANVirtual eXtensible Local Area Network虛擬擴展局域網