百度智能云&度小滿:2023智算中心網絡架構白皮書(47頁).pdf

編號:135076 PDF 47頁 15.27MB 下載積分:VIP專享
下載報告請您先登錄!

百度智能云&度小滿:2023智算中心網絡架構白皮書(47頁).pdf

1、 智算中心網絡架構白皮書百度智能云度小滿百度智能云編寫組李兆彤 史 磊 周 磊李兆耕 包貴新 田曉利李玉雙 謝偉光 陳 寧劉 楠 馬建英 楊 正吉 靖 萬芳芳 繆 懋魏 謙 孫 鵬 甄浩洋邱帥兵 多杰倫珠 王俊涵高 飛 李書坤 章琬晨徐 浩 姜 濤 敖玉龍張向輝 度小滿編寫組蘇 陽 張偉建 朱鳳元張 一 杜 侃 汪寧瀚胡東旭王佩龍 宋 飛 崔永新陳存利合作單位:聯 合 編 寫 組:專家指導委員會:主編單位:引言隨著 AI 技術的逐步成熟和應用場景的不斷豐富,人工智能產業正在迅速發展,AI 相關的產品與服務也在各行業中落地和普及。企業通過人工智能技術提高生產力,進行數字智能化新范式轉型的需求也更

2、加迫切。人工智能技術目前已被廣泛應用于智慧金融、智能家居、智能醫療、智能交通、智能制造等領域。大模型技術因其良好的通用性與泛化性,顯著降低了人工智能應用的門檻,其溢出效應正在加速推進新一輪的科技革命和社會產業的變革。近期,ChatGPT、文心一言等生成式人工智能應用的出現,使大模型的發展成為 AI 領域最重要的熱點趨勢,越來越多的科技巨頭競相推出千億、萬億參數的大模型。而訓練超大參數規模的大模型也給智能計算基礎設施帶來了前所未有的挑戰。大模型的訓練過程需要數千張 GPU 卡協同計算數周或數月,這就要求智能計算網絡能夠提供更強大的性能和更高的穩定性與可靠性。因此,提供一種高速、低延遲且可擴展的網

3、絡互聯方案成為了智能計算領域的重要課題。通常,大中型政務、金融及企業客戶對網絡安全與數據隱私保護有著更嚴格的要求,需要通過私有云建設模式在自有數據中心中構建自主可控的智能計算資源池,為人工智能的創新服務提供底層算力支持。智算網絡作為智算中心基礎設施的重要組成部分,其選型、設計和建設方案是非常關鍵的環節,網絡架構設計的合理性直接影響智算集群的性能、可靠性與穩定性。智算網絡的選型和建設階段的典型問題包括:1.智算網絡是復用當前的 TCP/IP 通用網絡的基礎設施,還是新建一張專用的高性能網絡?2.智算網絡技術方案采用 InfiniBand 還是 RoCE?3.智算網絡如何進行運維和管理?4.智算網

4、絡是否具備多租戶隔離能力以實現對內和對外的運營?本白皮書將分析智算業務對網絡的核心需求,深入介紹智算網絡的架構設計以及智算中心高性能網絡的運維和運營管理方案,并結合典型實踐,提供智算網絡選型建議,為客戶建設面向大模型的智算中心提供網絡建設、運維和運營參考。智算中心網絡架構白皮書目錄CONTENTS智算業務對網絡的核心需求01031.1 智算業務關鍵應用場景和案例 1.2 智算業務對網絡的關鍵要求01智算網絡方案選型0712172.1 InfiniBand網絡介紹2.2 RoCEv2網絡介紹2.3 InfiniBand和RoCEv2網絡 方案對比02物理網絡架構設計19 2022253.1 傳統

5、云網絡架構承載智算業務存 在的挑戰 3.2 智算網絡架構3.3 智算網絡可容納的GPU卡的規模 3.4 物理網絡設計典型實踐03智算高性能網絡運維管理4.1 可視化網管系統4.2 高精度流量采集4.3 數據可視化展示4.4 智能化4.5 高性能網絡運維典型實踐293132333304 智算高性能網絡運營管理 5.1 云平臺產品化的多租戶能力AI-VPC5.2 InfiniBand網絡的多租戶方案5.3 RoCE網絡的多租戶方案5.4 通過RDMA網絡提供公共服務5.5 高性能網絡運營典型實踐353637383805總結和展望總結和展望 推薦閱讀4041066智算中心網絡架構白皮書01 智算業務

6、對網絡的核心需求101智算業務對網絡的核心需求 1.1 智算業務關鍵應用場景和案例智能計算是指利用人工智能技術和算法,對海量數據進行分析、處理和挖掘。智能計算已廣泛應用于自然語言處理、圖像識別、預測分析、金融科技和自動駕駛等場景?;诖竽P驮谧匀徽Z言處理領域的出色能力,智能計算為機器翻譯、文本分類、文本總結、文本創作、搜索助手、輔助編程、圖像視頻創作等應用場景提供強有力的技術支持。智能計算已成為幫助企業提高效率、降低成本、打造核心競爭力所不可或缺的技術能力,其在金融和汽車行業的應用已經非常成熟。例如:在金融行業:智能計算應用于風險管理和控制,輔助量化交易、信用評估以及趨勢預測,幫助金融機構做出

7、更明智的業務決策。在汽車行業:智能計算為自動駕駛提供高效精準的感知與識別、行駛決策與規劃、車輛控制與執行,并不斷進行算法優化以提高自動駕駛的安全和可靠性。1.1.1 金融風控與智能推薦金融行業歷來是數字化與智能化的先驅者,已經將人工智能技術廣泛應用于各項業務中,包括智能風控、交易欺詐檢測、智能客服、投資決策、信用評估、量化交易等。金融風控是人工智能技術在金融行業中最典型的應用場景。通過大數據分析、機器學習等技術對金融交易、投資、借貸等活動進行風險識別、評估、控制和監測,對金融風險進行有效識別和預警,以保障金融機構和客戶的資產安全,滿足監管要求。在金融風控領域,度小滿擁有非常豐富的實踐經驗。度小

8、滿將大型語言模型(LLM)應用于海量互聯網文本數據、行為數據、征信報告的解讀,將小微企業主的信貸違約風險降低了 25%。而且隨著模型的迭代,大模型在智能風控上的潛力還會進一步釋放。除了智能風控領域,度小滿基于生成式大模型自主生成新的數據、圖像、語音、文本等信息,成為理財師、保險經紀人等金融行業從業人員的得力助手,幫助他們為客戶個性化推薦理財、保險產品,大幅提升服務效率和服務體驗。1.1.2 自動駕駛得益于人工智能技術,自動駕駛技術越來越成熟。自動駕駛的滲透率呈現逐步上漲的趨勢。全球知名 IT 市場研究機構IDC 發布的中國自動駕駛汽車市場數據追蹤報告顯示,2022 年第一季度 L2 級自動駕駛

9、在乘用車市場的新車滲透率達 23.2%,L3 和 L4 級自動駕駛的能力也越來越成熟。在自動駕駛場景中,每車每日會產生 T 級別數據,每次訓練的數據達到 PB 級別。大規模數據處理和大規模仿真任務的特點十分顯著,需要使用智算集群來提升數據處理與模型訓練的效率。2智算中心網絡架構白皮書重慶長安汽車股份有限公司在智算領域進行了規?;瘜嵺`,建設了全新的智能車云平臺和專用智算中心。當前計算能力突破 100 億億次,支撐自動駕駛的算法自研、虛擬仿真、智能網聯等數字服務。智能車云平臺提供統一的基礎網聯、數字產品、AI 決策分析、智能汽車大數據四大平臺能力,為用戶提供智能化、遠程化、個性化的車輛服務,打造更

10、加便捷、高效、安全的車輛使用體驗。1.2 智算業務對網絡的關鍵要求1.2.1 AI 模型訓練和推理的核心是數據計算在 AI 系統中,一個模型從生產到應用,一般包括離線訓練和推理部署兩大階段。離線訓練,就是產生模型的過程。用戶需要根據自己的任務場景,準備好訓練模型所需要的數據集以及神經網絡算法。模型訓練開始后,先讀取數據,然后送入模型進行前向計算,并計算與真實值的誤差。然后執行反向計算得到參數梯度,最后更新參數。訓練過程會進行多輪的數據迭代。訓練完成之后,保存訓練好的模型,然后將模型做上線部署,接受用戶的真實輸入,通過前向計算,完成推理。因此,無論是訓練還是推理,核心都是數據計算。為了加速計算效

11、率,一般都是通過 GPU 等異構加速芯片來進行訓練和推理。業務訓練數據集反向計算梯度,更新參數評估算法好壞真實標簽前向計算神經網絡算法誤差測試數據“貓”算法+參數前向計算模型推理服務推理結果訓練完成,產出模型離線下載推理部署圖 1.AI 模型訓練和推理的核心是數據計算1.2.2 AI 模型參數規模不斷擴大隨著以 GPT3.0 為代表的大模型展現出令人驚艷的能力后,智算業務往海量參數的大模型方向發展已經成為一個主流技術演進路徑。以自然語言處理(NLP)為例,模型參數已經達到了千億級別。計算機視覺(CV)、廣告推薦、智能風控等領域的模型參數規模也在不斷的擴大,正在往百億和千億規模參數的方向發展。0

12、1 智算業務對網絡的核心需求3:語言模型 :中文語言模型 :多模態模型 :視覺模型ELMo(90M)BERT(340M)ERNIE 1.0(110M)GPT-2(1.5B)ERNIE 2.0(330M)T5(11B)Turing-NLG(17B)GPT-3(175B)PaLM(562B)PaLI(17B)LaMDA(137B)ERNIE 3.0(10B)ERNIE 3.0 Titan(260B)ViT(630M)V-MOE(15B)ViT-G(2B)SwinV2(3B)DALL-E(1.2B)CogView(4B)ERNIE-VILG(10B)Plato-XL(11B),0.050.55505

13、002017201820192020202120222023圖 2.AI 模型參數演進1.2.3 大模型訓練集群的網絡要求大模型訓練中大規模的參數對算力和顯存都提出了更高的要求。以GPT3為例,千億參數需要2TB顯存,當前的單卡顯存容量不夠。即便出現了大容量的顯存,如果用單卡訓練的話也需要32年。為了縮短訓練時間,通常采用分布式訓練技術,對模型和數據進行切分,采用多機多卡的方式將訓練時長縮短到周或天的級別。算力墻儲存墻傳統訓練GPU 0ZELOPs計算量大規模參數GPT-3:314 ZFLOPs175B參數小模型、小樣本、單卡訓練梯度更新反向計算前向計算 Training Data大模型的變化

14、參數量與計算量激增A100算力312TFLOPS單卡需要32年需要分布式加速千億參數需要2TB存儲單卡現存80GB,放不下需要更多儲存空間圖 3.傳統訓練和大模型的不同分布式訓練就是通過多臺節點構建出一個計算能力和顯存能力超大的集群,來應對大模型訓練中算力墻和存儲墻這兩個主要挑戰。而聯接這個超級集群的高性能網絡直接決定了智算節點間的通信效率,進而影響整個智算集群的吞吐量和性能。要讓整個智算集群獲得高的吞吐量,高性能網絡需要具備低時延、大帶寬、長期穩定性、大規模擴展性和可運維幾個關鍵能力。(1)低時延分布式訓練系統的整體算力并不是簡單的隨著智算節點的增加而線性增長,而是存在加速比,且加速比小于

15、1。存在加速比的主要原因是:在分布式場景下,單次的計算時間包含了單卡的計算時間疊加卡間通信時間。因此,降低卡間通信時間,是分布式訓練中提升加速比的關鍵,需要重點考慮和設計。4智算中心網絡架構白皮書分布式全局加速單卡加速卡數加速比=分布式單計算時間單卡計算時間卡間通信時間=圖 4.分布式全局速度計算公式降低多機多卡間端到端通信時延的關鍵技術是 RDMA 技術。RDMA 可以繞過操作系統內核,讓一臺主機可以直接訪問另外一臺主機的內存。應用內核態用戶態硬件層應用OSOS交換機CPU旁路BufferBufferBufferBufferBufferBufferBufferBuffer服務器服務器圖 5.

16、RDMA 通信示意圖實 現 RDMA 的 方 式 有 InfiniBand、RoCEv1、RoCEv2、iWARP 四 種。其 中 RoCEv1 技 術 當 前 已 經 被 淘 汰,iWARP 使用較少。當前 RDMA 技術主要采用的方案為 InfiniBand 和 RoCEv2 兩種。Orange content defined by the IBTAGreen content defined by IEEE/IETFRDMA application/ULPRDMA software stackIB transport protocolIB network layerIB network l

17、ayerUDPIPTCPIPIB link layerInfiniBand managementEthernet/IP managementEthernet/IP managementEthernet/IP managementEthernet link layerEthernet link layerEthernet link layerIB transport protocolIB transport protocoliWARP*protocolRDMA APIRDMA 協議棧RoCE v1Typically hardwareSoftwareRoCE v2iWARP圖 6.RDMA 協議棧

18、01 智算業務對網絡的核心需求5在 InfiniBand 和 RoCEv2 方案中,因為繞過了內核協議棧,相較于傳統 TCP/IP 網絡,時延性能會有數十倍的改善。在同集群內部一跳可達的場景下,InfiniBand 和 RoCEv2 與傳統 IP 網絡的端到端時延在實驗室的測試數據顯示,繞過內核協議棧后,應用層的端到端時延可以從 50us(TCP/IP),降低到 5us(RoCE)或 2us(InfiniBand)。圖 7.不同技術的端到端通信時延50usIP5us200Gbps-400Gbps 演進,整體轉發能力在不斷提升。圖 22.H3C 以太網交換機端口演進S6820-32H32*100

19、GS9820-64H64*100GS9820-8C128*100G or 32*400GS9820-8C128*100G or 32*400G(3)連接件RoCEv2 承載在以太網上,所以傳統以太網的光纖和光模塊都可以用。(4)RoCEv2 流控機制PFCPFC(Priority Flow Control)是 Hop By Hop 的流控策略,其特點就是通過配置水線合理的使用交換機的緩存,在以太網絡中實現完全的無丟包能力。1502 智算網絡方案選型具體實現步驟是,當下游交換機端口的入隊列緩存達到閾值 Xoff 時,該交換機就會向上游設備(交換機或者網卡)發PFC PAUSE 幀。上游設備收到

20、PFC Pause 幀后,該端口會停止發包,從而減少下游設備的緩存區壓力。而在這個過程中上游設備已經發送到鏈路中的報文不會被丟棄,依舊會發送到下游交換機并存儲在下游交換機預先分配的 Headroom 緩存中。由于 PAUSE 幀的發送,下游交換機的 buffer 占用開始下降。等到該端口的 buffer 計數器下降到 Xon 這個值的時候,端口 A 將會向上游發送一個持續時間為 0 的 PAUSE 幀,上游設備開始進行數據包發送。圖 23.PFC 原理圖Egress PortIngress PortData PacketPFC PauseXOFF ThresholdECN顯式擁塞通知(ECN,

21、Explicit Congestion Notification)定義了一種基于 IP 層和傳輸層的流量控制和端到端擁塞通知機制。ECN 是 IP 層的機制,它主要是用來在擁塞場景下,通過在交換機上標記報文特定向服務器端傳遞擁塞信息,從而通知到服務器端發生了擁塞。然后服務器端再通過發送 CNP 報文至客戶端通知源端降速從而實現擁塞控制的目的。在RFC 3168 中定義了 ECN。需要注意以下兩點,第一點是必須在端點上以及端點之間的所有中間設備上啟用 ECN。若傳輸路徑中有不支持 ECN 的任何設備,將中斷端到端 ECN 功能。Server 端的網卡收到了存在 ECN 標記的報文,會向 Clie

22、nt 端的網卡發送 CNP 報文,CNP報文中包含著QPs(Queue Pairs)等相關信息。第二點是CNP報文一般需要和RDMA業務報文處在不同的隊列中,并且設置合適的 QoS 策略保證 CNP 報文的發送,要確保 CNP 報文不會被丟棄,進而避免流控失效。DCQCN圖 24.DCQCN 示意圖DCQCN Congested Traffic Congested Traffic(ECN marked)Congested Notification Sender NICReaction Point(RP)SwitchCongestion Point(CP)Receiver NICNotifica

23、tion Point(NP)16智算中心網絡架構白皮書數據中心量化擁塞通知(DCQCN)是 ECN 和 PFC 的組合,可支持端到端無損以太網。DCQCN 的設計理念是在擁塞時通過 ECN 讓發送端降低傳輸速率,從而盡量避免觸發 PFC,因為 PFC 被觸發,發送流量會完全停止,DCQCN 需要考慮如下兩個關鍵點:確保 PFC 不會太早觸發,即先使用 ECN 發送擁塞反饋使流量變慢。確保 PFC 不會太晚觸發,即擁塞較嚴重產生緩沖區溢出進而出現丟包。通過合理設置下面三個參數,可以滿足上述需求:Headroom Buffers:發送至上游設備的 PAUSE 消息需要一些時間到達并生效。為避免丟包

24、,PAUSE 發送方必須保留足夠的緩沖區,以處理在此期間可能收到的任何數據包。這包括發送 PAUSE 時正在傳輸的數據包,以及上游設備在處理 PAUSE 消息時發送的數據包。PFC Threshold:這是一個入口閾值。當到達該閾值時,會向上游發送 PFC PAUSE 報文。ECN Threshold:這是一個出口閾值。ECN 閾值等于 WRED 開始填充級別值。一旦出口隊列超過此閾值,交換機將開始為該隊列中的數據包進行 ECN 標記。DCQCN 要有效,此閾值必須低于入口 PFC 閾值,以確保 PFC 不會在交換機有機會使用 ECN 標記數據包之前觸發。設置非常低的 WRED 填充級別可提高

25、 ECN 標記概率。例如,使用默認共享緩沖區設置,WRED 開始填充級別為 10%可確保標記無丟失數據包。但是,如果填充級別較高,則 ECN 標記的概率降低。2.2.2 RoCEv2 網絡方案特點RoCE 方案相對于 InfiniBand 方案的特點是通用性較強和價格相對較低。除用于構建高性能 RDMA 網絡外,還可以在傳統的以太網絡中使用。但在交換機上的 Headroom、PFC、ECN 相關參數的配置是比較復雜的。在萬卡這種超大規模場景下,整個網絡的吞吐性能較 InfiniBand 網絡要弱一些。2.2.3 RoCE 網絡設備供應商支持 RoCE 的交換機廠商較多,市場占有率排名靠前的包括

26、新華三、華為等。支持 RoCE 的網卡當前市場占有率比較高的是 NVIDIA 的 ConnectX 系列的網卡。1702 智算網絡方案選型2.3 InfiniBand 和 RoCEv2 網絡方案對比從技術角度看,InfiniBand 使用了較多的技術來提升網絡轉發性能,降低故障恢復時間,提升擴展能力,降低運維復雜度。圖 25.InfiniBand 和 RoCEv2 的技術對比8*100Gbps8*400GbpsInfiniBand對比項RoCEv22us同集群端到端時延5us基于Local ID轉發基于IP轉發轉發模式逐包的自適應路由ECMP方式路由負載均衡模式Self-Healing Int

27、erconnect Enhancement for Intelligent Datacenters路由收斂故障恢復通過UFM實現零配置手工配置網絡配置基于Credit的流控機制PFC/ECN,DCQCN等流控機制具體到實際業務場景上看,RoCEv2 是足夠好的方案,而 InfiniBand 是特別好的方案。業務性能方面:由于 InfiniBand 的端到端時延小于 RoCEv2,所以基于 InfiniBand 構建的網絡在應用層業務性能 方面占優。但 RoCEv2 的性能也能滿足絕大部分智算場景的業務性能要求。業務規模方面:InfiniBand 能支持單集群萬卡 GPU 規模,且保證整體性能不

28、下降,并且在業界有比較多的商用實踐案例。RoCEv2 網絡能在單集群支持千卡規模且整體網絡性能也無太大的降低。業務運維方面:InfiniBand 較 RoCEv2 更成熟,包括多租戶隔離能力,運維診斷能力等。業務成本方面:InfiniBand 的成本要高于 RoCEv2,主要是 InfiniBand 交換機的成本要比以太交換機高一些。業務供應商方面:InfiniBand 的供應商主要以 NVIDIA 為主,RoCEv2 的供應商較多。圖 26.InfiniBand 和 RoCEv2 對比示意圖InfiniBand性能供應商運維成本功能和規模RoCEv218智算中心網絡架構白皮書1903 物理網

29、絡架構設計03物理網絡架構設計3.1 傳統云網絡架構承載智算業務存在的挑戰 傳統的云數據中心網絡一般是基于對外提供服務的流量模型而設計的,流量主要是從數據中心到最終客戶,即以南北向流量為主,云內部東西向流量為輔。圖 27.云數據中心 VPC 網絡的 Spine-Leaf 架構和流量模型互聯網SpineLeaf1*N3*N云到用戶(南北向)流量示意圖云內部(東西向)流量示意圖服務器0 服務器服務器服務器服務器 服務器N服務器0 服務器服務器服務器服務器 服務器NSpineLeaf1*N3*N承載 VPC 網絡的底層物理網絡架構,對于承載智算業務存在如下挑戰。有阻塞網絡:考慮到并非所有服務器都會同

30、時對外產生流量,為了控制網絡建設成本,Leaf 交換機的下聯帶寬和上聯帶寬并非按照 1:1 設計,而是存在收斂比。一般上聯帶寬僅有下聯帶寬的三分之一。云內部流量時延相對較高:跨 Leaf 交換機的兩臺服務器互訪需要經過 Spine 交換機,轉發路徑有 3 跳。帶寬不夠大:一般情況下單物理機只有一張網卡接入 VPC 網絡,單張網卡的帶寬比較有限,當前較大范圍商用的網卡帶寬一般都不大于 200Gbps。20智算中心網絡架構白皮書3.2 智算網絡架構對于智算場景,當前比較好的實踐是獨立建一張高性能網絡來承載智算業務,滿足大帶寬,低時延,無損的需求。大帶寬的設計智算服務器可以滿配 8 張 GPU 卡,

31、并預留 8 個 PCIe 網卡插槽。在多機組建 GPU 集群時,兩個 GPU 跨機互通的突發帶寬有可能會大于 50Gbps。因此,一般會給每個 GPU 關聯一個至少 100Gbps 的網絡端口。在這種場景下可以配置 4張 2*100Gbps 的網卡,也可以配置 8 張 1*100Gbps 的網卡,當然也可以配置 8 張單端口 200/400Gbps 的網卡。圖 28.智算服務器的網卡配置和商用部署情況8*100Gbps8*200Gbps8*400Gbps網卡配置800Gbps1.6Tbps3.2Tbps單機對外帶寬廣泛應用網卡和交換機都很成熟400Gbps網卡開始商用,處于規模上量的初期規模部

32、署情況Infiniband:200G網卡和交換機很成熟RoCE:200G以太交換機少無阻塞設計無阻塞網絡設計的關鍵是采用 Fat-Tree(胖樹)網絡架構。交換機下聯和上聯帶寬采用 1:1 無收斂設計,即如果下聯有64 個 100Gbps 的端口,那么上聯也有 64 個 100Gbps 的端口。此外交換機要采用無阻塞轉發的數據中心級交換機。當前市場上主流的數據中心交換機一般都能提供全端口無阻塞的轉發能力。低時延設計 AI-Pool在低時延網絡架構設計方面,百度智能云實踐和落地了基于導軌(Rail)優化的 AI-Pool 網絡方案。在這個網絡方案中,8 個接入交換機為一組,構成一個 AI-Poo

33、l。以兩層交換機組網架構為例,這種網絡架構能做到同 AI-Pool 的不同智算節點的 GPU 互訪僅需一跳。在 AI-Pool 網絡架構中,不同智算節點間相同編號的網口需要連接到同一臺交換機。如智算節點 1 的 1 號 RDMA 網口,智算節點 2 的 1 號 RDMA 網口直到智算節點 P/2 的 1 號 RDMA 網口都連到 1 號交換機。在智算節點內部,上層通信庫基于機內網絡拓撲進行網絡匹配,讓相同編號的 GPU 卡和相同編號的網口關聯。這樣相同GPU 編號的兩臺智算節點間僅一跳就可互通。不同GPU編號的智算節點間,借助NCCL通信庫中的Rail Local技術,可以充分利用主機內GPU

34、間的NVSwitch的帶寬,將多機間的跨卡號互通轉換為跨機間的同GPU卡號的互通。2103 物理網絡架構設計圖 29.同智算資源池 AI-Pool 機間互通示意圖Port1GPU1Port2GPU2Port3GPU3Port4GPU4Port5GPU5Port6GPU6Port7CPU7Port8CPU8服務器1接入交換機-1匯聚交換機-1匯聚交換機接入交換機匯聚交換機-P/2AI-Pool-2Port1GPU1Port2GPU2Port3GPU3Port4GPU4Port5GPU5Port6GPU6Port7GPU7Port8GPU8服務器1Port1GPU1Port2GPU2Port3GP

35、U3Port4GPU4Port5GPU5Port6GPU6Port7GPU7Port8GPU8服務器Port1GPU1Port2GPU2Port3GPU3Port4GPU4Port5GPU5Port6GPU6Port7GPU7Port8GPU8服務器P/2接入交換機-1AI-Pool-1接入交換機-8PP/2P/2對于跨 AI-Pool 的兩臺物理機的互通,需要過匯聚交換機,此時會有 3 跳。圖 30.跨智算資源池 AI-Pool 機間互通示意圖Port1GPU1Port2GPU2Port3GPU3Port4GPU4Port5GPU5Port6GPU6Port7CPU7Port8CPU8服務器

36、1接入交換機-1匯聚交換機-1匯聚交換機接入交換機匯聚交換機-P/2AI-Pool-2Port1GPU1Port2GPU2Port3GPU3Port4GPU4Port5GPU5Port6GPU6Port7GPU7Port8GPU8服務器1Port1GPU1Port2GPU2Port3GPU3Port4GPU4Port5GPU5Port6GPU6Port7GPU7Port8GPU8服務器Port1GPU1Port2GPU2Port3GPU3Port4GPU4Port5GPU5Port6GPU6Port7GPU7Port8GPU8服務器P/2接入交換機-1AI-Pool-1接入交換機-8PP/2P

37、/222智算中心網絡架構白皮書3.3 智算網絡可容納的 GPU 卡的規模 網絡可承載的 GPU 卡的規模和所采用交換機的端口密度、網絡架構相關。網絡的層次多,承載的 GPU 卡的規模會變大,但轉發的跳數和時延也會變大,需要結合實際業務情況進行權衡。3.3.1 兩層胖樹架構8 臺接入交換機組成一個智算資源池 AI-Pool。圖中 P 代表單臺交換機的端口數。單臺交換機最大可下聯和上聯的端口為P/2 個,即單臺交換機最多可以下聯 P/2 臺服務器和 P/2 臺交換機。兩層胖樹網絡可以接入 P*P/2 張 GPU 卡。圖 31.兩層胖樹網絡架構示意圖Port1GPU1Port2GPU2Port3GP

38、U3Port4GPU4Port5GPU5Port6GPU6Port7CPU7Port8CPU8服務器1接入交換機-1匯聚交換機-1匯聚交換機接入交換機匯聚交換機-P/2AI-Pool-2Port1GPU1Port2GPU2Port3GPU3Port4GPU4Port5GPU5Port6GPU6Port7GPU7Port8GPU8服務器1Port1GPU1Port2GPU2Port3GPU3Port4GPU4Port5GPU5Port6GPU6Port7GPU7Port8GPU8服務器Port1GPU1Port2GPU2Port3GPU3Port4GPU4Port5GPU5Port6GPU6Po

39、rt7GPU7Port8GPU8服務器P/2接入交換機-1AI-Pool-1接入交換機-8PP/2P/23.3.2 三層胖樹架構三層網絡架構中會新增匯聚交換機組和核心交換機組。每個組里面的最大交換機數量為 P/2。匯聚交換機組最大數量為 8,核心交換機組的最大數量為 P/2。三層胖樹網絡可以接入 P*(P/2)*(P/2)=P*P*P/4 張 GPU 卡。在三層胖樹組網中,InfiniBand 的 40 端口的 200Gbps HDR 交換機能容納的最多 GPU 數量是 16000。這個 16000 GPU 卡的規模也是目前 InfiniBand 當前在國內實際應用的 GPU 集群的最大規模網

40、絡,當前這個記錄被百度保持。2303 物理網絡架構設計圖 32.三層胖樹網絡架構示意圖接入交換機-8Port1GPU1Port2GPU2Port3GPU3Port4GPU4Port5GPU5Port6GPU6Port7CPU7Port8CPU8服務器1接入交換機-1匯聚交換機組-11P/2匯聚交換機接入交換機AI-Pool-2Port1GPU1Port2GPU2Port3GPU3Port4GPU4Port5GPU5Port6GPU6Port7GPU7Port8GPU8服務器1Port1GPU1Port2GPU2Port3GPU3Port4GPU4Port5GPU5Port6GPU6Port7G

41、PU7Port8GPU8服務器Port1GPU1Port2GPU2Port3GPU3Port4GPU4Port5GPU5Port6GPU6Port7GPU7Port8GPU8服務器P/2接入交換機-1AI-Pool-1接入交換機-8核心交換機PP/2P/2P/2P/2匯聚交換機組-81P/2核心交換機組-11P/2核心交換機組-P/21P/23.3.3 兩層和三層胖樹網絡架構的對比可容納的 GPU 卡的規模兩層胖樹和三層胖樹最重要的區別是可以容納的 GPU 卡的規模不同。在下圖中 N 代表 GPU 卡的規模,P 代表單臺交換機的端口數量。比如對于端口數為 40 的交換機,兩層胖樹架構可容納的

42、GPU 卡的數量是 800 卡,三層胖樹架構可容納的 GPU 卡的數量是 16000 卡。24智算中心網絡架構白皮書圖 33.不同網絡架構容納的 GPU 節點數量兩層胖樹Leaf-spine三層胖樹Leaf-spine-core800Gbps單機對外帶寬Nmax/2=P2800(P=40)8,192(P=128)2,048(P=64Nmax/4=P316,000(P=40)65,535(P=64)524,228(P=128)Nmax代表可支持的最大GPU卡數量,P代表單個交換機的端口數轉發路徑兩層胖樹和三層胖樹網絡架構另外一個區別是任意兩個節點的網絡轉發路徑的跳數不同。對于同智算資源池 AI-

43、Pool 的兩層胖樹架構,智算節點間同 GPU 卡號轉發跳數為 1 跳。智算節點間不同 GPU 卡號在沒有做智算節點內部 Rail Local 優化的情況下轉發跳數為 3 跳。對于同智算資源池 AI-Pool 的三層胖樹架構,智算節點間同 GPU 卡號轉發跳數為 3 跳。智算節點間不同 GPU 卡號在沒有做智算節點內部 Rail Local 優化的情況下轉發跳數為 5 跳。圖 34.兩層胖樹和三層胖樹網絡架構對比8*100Gbps8*400Gbps1跳同GPU卡號轉發跳數兩層胖數架構架構三層胖樹架構3跳3跳5跳不同GPU卡號轉發跳數(無優化情況)2503 物理網絡架構設計3.4 典型實踐不同型

44、號的 InfiniBand/RoCE 交換機和不同的網絡架構下所支持的 GPU 的規模不同。結合當前已成熟商用的交換機,我們推薦幾種物理網絡架構的規格供客戶選擇。Regular:InfiniBand 兩層胖樹網絡架構,基于 InfiniBand HDR 交換機,單集群最大支持 800 張 GPU 卡。Large:RoCE 兩層胖樹網絡架構,基于 128 端口 100G 數據中心以太交換機,單集群最大支持 8192 張 GPU 卡。XLarge:InfiniBand 三層胖樹網絡架構,基于 InfiniBand HDR 交換機,單集群最大支持 16000 張 GPU 卡。XXLarge:基于 I

45、nfiniBand Quantum-2 交換機或同等性能的以太網數據中心交換機,采用三層胖樹網絡架構,單集群最大支持 100000 張 GPU 卡。圖 35.不同規格的物理網絡架構8*100Gbps規格描述Regular基于InfiniBand 40端口HDR交換機構建兩層胖樹網絡架構最大支持800張GPU卡Large基于以太網128端口100G交換機構建兩層胖樹網絡架構最大支持8,192張GPU卡XLarge基于 InfiniBand 40端口HDR交換機構建三層胖樹網絡架構最大支持16,000張GPU卡XXLarge基于InfiniBand Quantum-2交換機或以太網高性能交換機構建

46、三層胖樹網絡架構最大支持100,000張GPU卡3.4.1 Large 智算物理網絡架構實踐由度小滿建設的“智能化征信解讀中臺”工程,將大型語言模型 LLM、圖算法應用在征信報告的解讀上,榮獲了“吳文俊人工智能科學技術獎”。度小滿也憑借該工程成為唯一入選的金融科技公司。支撐上層創新應用和算法落地的關鍵環節之一是底層的算力,而支撐智算集群的算力發揮其最大效用的關鍵之一是高性能網絡。度小滿的單個智算集群的規??蛇_ 8192 張 GPU 卡,在每個智算集群內部的智算資源池 AI-Pool 中可支持 512張 GPU 卡。通過無阻塞、低時延、高可靠的網絡設計,高效的支撐了上層智算應用的快速迭代和發展。

47、26智算中心網絡架構白皮書圖 36.度小滿智算集群網絡架構Port1GPU1Port2GPU2Port3GPU3Port4GPU4Port5GPU5Port6GPU6Port7CPU7Port8CPU8服務器1接入交換機-1匯聚交換機-1匯聚交換機接入交換機匯聚交換機-P/2AI-Pool-2Port1GPU1Port2GPU2Port3GPU3Port4GPU4Port5GPU5Port6GPU6Port7GPU7Port8GPU8服務器1Port1GPU1Port2GPU2Port3GPU3Port4GPU4Port5GPU5Port6GPU6Port7GPU7Port8GPU8服務器Po

48、rt1GPU1Port2GPU2Port3GPU3Port4GPU4Port5GPU5Port6GPU6Port7GPU7Port8GPU8服務器P/2接入交換機-1AI-Pool-1接入交換機-8PP/2P/28導軌優化的兩層架構ROCEv2網絡網絡架構 可支撐8,192卡規模 結合網絡流量特點,重點優化同號卡AlIReduce操作 一個AI-Pool由8臺接入交換機組成,每臺接入交換機連接64臺機器同端口號的RNIC網口,每個AI-Pool最大支持512卡 多個AI-Pool間通過第二層交換機連接,并使能異號卡間的Rail Local優化與Dragonfly、Torus拓撲比較的優勢 網絡

49、帶寬更充足 節點間跳數少更穩定3.4.2 XLarge 智算物理網絡架構實踐為了實現更高的集群運行性能,百度智能云專門設計了適用于超大規模集群的 InfiniBand 網絡架構。該網絡已穩定運行多年,2021 年建設之初就直接采用了 200Gbps 的 InfiniBand HDR 交換機,單臺 GPU 服務器的對外通信帶寬為1.6Tbps。2703 物理網絡架構設計這個架構優化了網絡收斂比,提升了網絡吞吐能力,并結合容錯、交換機親和,拓撲映射等手段,將 EFLOPS 級算力的計算集群性能發揮到極致。經過內部 NLP 研究團隊的驗證,在這個網絡環境下的超大規模集群上提交千億模型訓練作業時,同等

50、機器規模下,整體訓練效率是普通 GPU 集群的 3.87 倍。圖 37.百度智能云智算集群網絡架構8導軌優化的三層CLOS架構網絡架構 IB可支撐16000卡規模,RoCE可支持30000+卡 結合網絡流量特點,重點優化同號卡AllReduce操作 一組機器由8臺Tor組成,分別連接20臺機器對應編號的GPU網卡 多組Unit間的同號卡通過Leaf層連接,支持最大400卡AllReduce互聯 異號GPU網卡通過Spine層連接,使能異號卡網絡通信與Dragonfly、Torus拓撲比較的優勢 網絡帶寬更充足 節點間跳數少更穩定20X Unit20X UnitSP1SP2SP19SP20ToR

51、1ToR2ToR7ToR8LE1LE20LE1LE20402020202020X 8X 20X SP1SP2SP19SP20ToR1ToR2ToR7ToR8LE1LE20LE1LE20202028智算中心網絡架構白皮書2904 智算高性能網絡運維管理04智算高性能網絡運維管理RDMA 的通信方式和傳統的 TCP/IP 不同,因此,智算高性能網絡的運維管理也和之前的 IP 網絡的運維管理方式有所不同。具體來講,RDMA 網絡有如下特點:需要高精度的流量采集能力:RDMA 的流量一般呈現較強的突發性。通過 SNMP,以 30 秒的采樣精度來采集流量數據已經無法呈現網絡的關鍵帶寬業務指標。更精細化的

52、流量統計能力:RDMA的流量是通過端口的某個隊列發送的,流量統計的維度要從端口級別細化到隊列級別。全面的 RDMA 流控指標的采集和統計:RoCE 網絡是通過發送 PFC 和 ECN 報文進行流量控制的,運維管理系統相應地也需要提供對 PFC 和 ECN 等關鍵指標的采集和統計。只有具備了上述基礎的 RDMA 網絡業務可視化能力,才能更好地使用 RDMA 網絡,快速的發現和定位問題。4.1 可視化網管系統當前 RDMA 網絡的可視化網管系統主要是由設備廠商支持。云廠商中,提供私有化部署的云原生 RDMA 網絡可視化管理系統的廠家比較少。百度智能云在這方面具備領先性,已經支持了私有化輸出的 RD

53、MA 網絡可視化管理系統 AI-NETOP,并在度小滿等客戶中完成了部署與實際使用。云原生的 RDMA 網管系統最大的優勢在于可以和云平臺的告警策略,告警規則無縫對接,真正成為用戶云平臺運維管理體系中的一部分。非云原生的 RDMA 網管系統最大的問題在于沒有真正的融入到用戶云平臺的運維體系中,游離在云平臺之外,無法做到及時和有效的運維管理。云平臺對 InfiniBand 網絡的管理主要是實現和 UFM(Unified Fabric Manager)的對接和數據的打通。目前看百度智能云的 RDMA 網絡可視化管理系統 AI-NETOP 在和 UFM 進行深入打通和深度融合方面也走在了業界前列。百

54、度智能云私有化輸出的 RDMA 可視化運維管理平臺,可提供如下能力:1.提供高精度秒級端口級和隊列級監控能力,流量 TOP 大盤展示能力;2.提供完善的 RDMA 流量監控指標,包括 PFC,ECN 等關鍵指標;3.提供自定義告警規則能力并提供告警大盤展示功能;4.提供網絡診斷工具,方便用戶快速進行問題排查和故障定位。30智算中心網絡架構白皮書4.1.1 集群網絡可視化智算集群內,多機之間存在的頻繁和高速的 RDMA 流量交互。RDMA 流量可視化能幫助運維人員實時地查看高性能RDMA 網絡的實際運行狀態,并具備快速發現和定位網絡問題的技術手段和能力。為了滿足 RDMA 網絡高精度流量監控的需

55、求,需要在交換機上開啟 Telemetry 采樣能力。開啟后交換機會以 1 秒的間隔上報流量數據。后端服務器收集到流量監控數據后,發送給前端進行展示。用戶最終可以在前端實時的看到秒級精度的監控數據。圖 38.RDMA 網絡可視化管理系統 AI-NETOPPort1GPU1Port2GPU2Port3GPU3Port4GPU4Port5GPU5Port6GPU6Port7CPU7Port8CPU8服務器1匯聚交換機-1RDMA物理網絡L1匯聚交換機-64Port1GPU1Port2GPU2Port3GPU3Port4GPU4Port5GPU5Port6GPU6Port7GPU7Port8GPU8

56、服務器Port1GPU1Port2GPU2Port3GPU3Port4GPU4Port5GPU5Port6GPU6Port7GPU7Port8GPU8服務器P/2接入交換機-1接入交換機-86464L2128RDMA可視化運維管理平臺秒級流量監控PFC指標告警大屏流量TOPN大盤ECN指標告警規則Agent采集Telemetry 秒級監控Port1GPU1Port2GPU2Port3GPU3Port4GPU4Port5GPU5Port6GPU6Port7GPU7Port8GPU8服務器1接入交換機-1AI-Pool-2AI-Pool-14.1.2 智算節點內部網絡可視化在智算節點內部,多個 G

57、PU、網卡、CPU 之間是通過主機內部的 PCIe Switch 和 NVSwitch 互聯的。PCIe Switch:通過 16 組 PCIe4.0 或 PCIe5.0 總線將 CPU、網卡、GPU 互聯。其中 PCIe 4.0X16 的單向帶寬為 256Gbps,PCIe 5.0X16 的單向帶寬為 512Gbps。NVSwitch:通過 NVLink 將 GPU 進行全互聯,且 GPU 間的互通優先走 NVLink。NVLink2.0 單向帶寬為200Gbps,其中A100每個GPU使用了12個NVLink,H800使用了18個NVLink,單向帶寬分別達到了2.4Tbps和 3.6Tb

58、ps。CPU 之間通過 UPI 總線互聯。UPI 總線的單線帶寬為 166Gbps。兩路 CPU 的服務器 CPU 間通過 2 條 UPI 總線互聯,單向帶寬為 332Gbps。從上述描述可知,智算節點內部不同的通信鏈路的帶寬并不相同。如果上層應用沒有充分利用好主機內的帶寬,也會影響上層智算業務的訓練和推理效率。尤其在調優場景,對主機內部的 NVLINK,PCIe 的帶寬的監控也很關鍵。這需要RDMA 網管平臺具備對主機內 NVLINK,PCIe 帶寬的實時監控。實現對智算集群網絡和主機內部網絡的可視化監控,對于提升智算業務的訓練和推理效率有較大的幫助。3104 智算高性能網絡運維管理圖 39

59、.對智算節點內部網絡的可視化監控RDMA可視化運維管理平臺Agent采集Agent采集Agent采集PCleSwitchCPU0NIC1NIC3GPU2 GPU3GPU0 GPU1PCleSwitchNVSwitchCPU1GPU4 GPU5NIC4NIC6NIC0NIC2NIC5NIC7GPU6 GPU7智算節點內部網絡GPU利用率NVLink寬帶PCIeNVLinkUPIPCle帶寬4.2 高精度流量采集對于高精度的流量監控需求,當前主要通過在交換機設備上開啟 Telemetry 流量和設備狀態采集和統計功能實現。Telemetry 具備如下特點:采樣精度高:Telemetry 可以做到秒

60、級精度的流量統計和采集。性能高:Telemetry 在交換機設備上通過硬件方式實現,不消耗設備的 CPU 資源。按需訂閱:在訂閱具體的統計項后,Telemetry 基于訂閱結果將數據推送訂閱方。Telemetry 會結合 gRPC 實現高精度的流量和設備狀態信息的采集,將采集到的數據存放到時序數據庫中供前端做可視化展示。圖 40.高精度流量采集示意圖telemetry-collector通過grpc-server響應外部連接請求負責各個廠商數據的接收和解析將數據推送kafka高性能告警引擎監控異常采集觸發告警運維工程師運維工程師Telementry相關配置可編程配置管理中心telemetry-

61、collectortelemetry設備列表、采集指標采集結果報警kafka高性能時序數據庫高性能警告引擎 32智算中心網絡架構白皮書4.3 數據可視化展示百度智能云專有云 ABC Stack 提供的 RDMA 網絡可視化管理系統 AI-NETOP 具備讓用戶在前端自定義 RDMA 網絡相關的監控指標和自定義監控大盤的能力。通過Telemetry協議采集上來的各項指標,用戶可以有選擇地在前端進行展示,并且可以設置如 TOPN 之類的大盤。圖 41.數據可視化展示技術架構前端(自定義監控和大盤)數據可視化展示技術架構KafkagRPC采集器交換機設備時序數據庫4.4 智能化故障歸因對于異常情況,

62、RDMA 網絡可視化管理系統 AI-NETOP 具備智能化故障歸因的能力。通過內置的算法和規則判斷具體的丟包原因,例如,可以判斷是因為 ACL 丟包還是因為緩存不足丟包。自動修復在一些異常場景下,可能會存在配置丟失的問題。例如在服務器重啟后,由于配置恢復的時序問題,網卡上的某一條關鍵配置沒有正確的恢復。在這種情況下,RDMA 網絡可視化管理系統 AI-NETOP 可以識別出配置是否完成恢復。如未完整恢復,會重新下發配置命令,讓關鍵配置能被自動修復。整個修復過程,完全由 RDMA 網管系統處理,運維人員無需感知和介入??删幊痰母婢巹t自定義和可編程的告警規則有助于將用戶在運維過程中沉淀和積累下來

63、的經驗進行代碼化。在一些場景下,一些告警是無需處理的,例如變更和升級窗口期間的設備端口 up/down 告警;而有些告警的等級需要提升,例如在重大運營活動中的網絡的丟包告警。百度智能云專有云 ABC Stack 提供的 RDMA 網絡可視化管理系統 AI-NETOP 支持讓用戶通過腳本的方式靈活定義告警規則,更好的匹配用戶的運維管理需求。3304 智算高性能網絡運維管理可感知和可量化的網絡質量通過在計算節點內部安裝 RDMA Agent,從應用層進行質量探測,并將探測數據上報到網管平臺。RDMA 網管平臺基于收集到的數據并以可視化的方式呈現應用層的網絡質量信息。實時告警對于網管平臺來講,一個關

64、鍵的能力是實時的感知并通告異常和故障,讓運維人員可以及時地感知和處理。RDMA 網絡可視化管理系統 AI-NETOP 支持實時的通知告警事件給運維人員。4.5 典型實踐百度智能云專有云 ABC Stack 為度小滿構建了支撐大模型業務的 AI 底座,包括 GPU 集群和 RDMA 網絡,為度小滿的金融科技創新做好了基礎支撐。度小滿的運維團隊一直在堅持“用技術重新定義服務保障,讓服務保障更簡單”的愿景,在金融行業的運維領域做出了很多創新和優秀實踐。由于當前其 GPU 規模已經達到千卡規模,且未來有可能會演進到萬卡規模,度小滿對 GPU 集群和高性能網絡的自動化運維工作和自助式服務能力建設十分重視

65、。通過使用 RDMA 網絡可視化管理系統 AI-NETOP 實現了故障快速發現,故障快速定位和智能化運維,幫助其支撐智算相關的大模型業務快速落地,形成了先進的生產力,支撐業務更好的發展。首先是以服務化的方式重定義運維工作。制定對應的服務級別協議SLA(Service-Level Agreement)和SLO(Service Level Objective),在響應時間、可靠性、性能、成本等維度達成可量化的標準,并和應用方達成共識。其次是以具體的量化目標為牽引提升運維能力。比如對于重要業務承諾 1-5-10(1 分鐘發現,5 分鐘響應,10 分鐘處置)穩定性指標和 99.95%可用性的服務目標。

66、在這個目標的牽引下通過提升可觀測能力構建問題快速發現能力,通過制定故障處理預案和不同場景的演練方案來提升問題的響應和處理能力。最后是對運維工作進行規范化、標準化、白屏化和自動化的四化建設,從而更加高效的管理和維護基礎設施,減少黑屏人工操作導致的人為失誤,通過白屏化和自動化提高運維效率和效能。圖 42.度小滿智算網絡的運維實踐體系化建設智算場景下的運維能力為智算業務制定SLA和SLO運維工作效率提升規模部署情況度小滿智算網絡的運維實踐SLA:制定不同的運維服務標準并和應用的重要程度做關聯SLO:不同的服務等級對應不同的穩定性指標和可用性指標規模部署情況可觀測能力建設:基于Telemetry的秒級

67、精度流量和丟包數據采集是非成敗轉頭空,青山依舊在,慣看秋月春風。一壺濁酒喜相逢,古今多少事,滾滾長江東逝水,浪花淘盡英雄。幾度夕陽紅。白發漁樵江渚上,都付笑談中。滾滾長江東逝水,浪花淘盡英雄。是非成敗轉頭空,青山依舊在,幾度夕陽紅。白發漁樵江渚上,慣看秋月春風。一壺濁酒喜相逢,古今多少事,都付笑談中。是非成敗轉頭空,青山依舊在,慣看秋月春風。一壺濁酒喜相逢,古今多少事,滾滾長江東逝水,浪花淘盡英雄。幾度夕陽紅。白發漁樵江渚上,都付笑談中。滾滾長江東逝水,浪花淘盡英雄。是非成敗轉頭空,青山依舊在,幾度夕陽紅。白發漁樵江渚上,慣看秋月春風。一壺濁酒喜相逢,古今多少事,都付笑談中。是非成敗轉頭空,青

68、山依舊在,慣看秋月春風。一壺濁酒喜相逢,古今多少事,滾滾長江東逝水,浪花淘盡英雄。幾度夕陽紅。白發漁樵江渚上,都付笑談中。滾滾長江東逝水,層次化告警能力建設:通過可編程告警規則重定義告警規則預案和演練:針對常見和重要的問題制定應對預案并做日常演練規模部署情況規范化和標準化:對變更進行規范化管理,并制定詳細的操作規范是非成敗轉頭空,青山依舊在,慣看秋月春風。一壺濁酒喜相逢,古今多少事,滾滾長江東逝水,浪花淘盡英雄。幾度夕陽紅。白發漁樵江渚上,都付笑談中。滾滾長江東逝水,浪花淘盡英雄。是非成敗轉頭空,青山依舊在,幾度夕陽紅。白發漁樵江渚上,慣看秋月春風。一壺濁酒喜相逢,古今多少事,都付笑談中。是非

69、成敗轉頭空,青山依舊在,慣看秋月春風。一壺濁酒喜相逢,古今多少事,滾滾長江東逝水,浪花淘盡英雄。幾度夕陽紅。白發漁樵江渚上,都付笑談中。滾滾長江東逝水,浪花淘盡英雄。是非成敗轉頭空,青山依舊在,幾度夕陽紅。白發漁樵江渚上,慣看秋月春風。一壺濁酒喜相逢,古今多少事,都付笑談中。是非成敗轉頭空,青山依舊在,慣看秋月春風。一壺濁酒喜相逢,古今多少事,滾滾長江東逝水,浪花淘盡英雄。幾度夕陽紅。白發漁樵江渚上,都付笑談中。滾滾長江東逝水,白屏化:沉淀和積累運維處置和回滾方案并以白化屏方式一鍵執行自動化:借助大模型等先進技術構建運維工作的“自動駕駛”能力34智算中心網絡架構白皮書3505 智算高性能網絡運

70、營管理05智算高性能網絡運營管理智算資源池建好之后,需要重點考慮的是如何將資源充分的使用起來,最大化的發揮算力資源的效用??蛻魳嫿ǔ鲆粋€PFlops 規模的算力資源池后,通常會給多個租戶使用,包括多個內部使用團隊等場景。5.1 云平臺產品化的多租戶能力 AI-VPCAI 大底座的智算網絡是一張獨立的高性能網絡。云平臺在實現對這張網絡的運維和管理之后的下一個目標就是提供產品化的多租戶隔離能力,進而實現提升 GPU 和高性能網絡資源利用率的目的。類似于 IP 網絡通過 VPC(Virtual Private Cloud)實現 IP 業務的多租戶隔離的原理,智算網絡通過 AI-VPC 實現智算 AI

71、 類業務的多租戶隔離。AI-VPC 中包含多個智算節點,在同 AI-VPC 中的智算節點可以互相訪問。不同租戶之間的智算節點處于隔離狀態,不能互訪。部分智算節點會同時和 IP 網絡和智算網絡互聯,此時智算節點會同時歸屬于 IP 網絡的某個 VPC 和智算網絡的某個 AI-VPC。圖 43.IP 網絡和智算網絡 VPC 示意圖IP網絡計算節點智算網絡非智算節點資源池智算節點資源池智算接入交換機智算匯聚交換機匯聚交換機接入交換機VPC1VPC2AI-VPC1AI-VPC2具備多租戶能力后,就可以將整個智算節點資源池從邏輯上劃分出多個智算集群,供不同的內部租戶或外部租戶使用。IP網絡的 VPC 采用

72、 MAC in UDP 的 VXLAN 技術在 Overlay 層面實現多租戶隔離。智算網絡的 AI-VPC 考慮到高性能,采用 Partition-Key 或網絡 ACL 實現多租戶隔離。36智算中心網絡架構白皮書圖 44.AI-VPC 示意圖智算節點資源池.AI-VPC1租戶1AI風控團隊AI-VPC2租戶2AI運營團隊AI-VPC3租戶3AI運維團隊5.2 InfiniBand 網絡的多租戶方案InfiniBand 網絡原生支持多租戶組網,主要通過Partition-Key(P-Key)機制實現多租戶之間的業務隔離和有條件的互訪。如下圖所示,同租戶內的資源可以互相訪問,不同租戶的資源互相

73、隔離。P-Key 是一個 16-bit 的數字,最高位為 Full(bit=1)或 Limited(bit=0),代表全互通能力或受限互通。其余 15 位表示租戶 ID,最多可以容納 32768 個租戶。Key 可以關聯到交換機的端口或網卡的端口,甚至可以關聯到應用層的 Queue-Pair(QP)上。P-Key 需要云平臺進行統一設置和管理,默認情況下 P-Key 的值為 0XFFFF,代表無隔離可以全互通。圖 45.InfiniBand 網絡多租戶示意圖Tenant 5PKey5Tenant 1PKey1Create TenantManagement Full云平臺Tenant2PKey2

74、Tenant 3PKey3Tenant 3PKey33705 智算高性能網絡運營管理5.3 RoCE 網絡的多租戶方案RoCE 網絡的多租戶隔離目前主要通過給不同租戶劃分不同網段,再結合 ACL,實現租戶間隔離和租戶內全互通。具體的實現方案是,給不同租戶分配不同 IP 地址段,通過網絡 ACL 實現僅允許同網段 IP 互訪。圖 46.RoCEv2 網絡多租戶方案示意圖租戶 5RNIC網段:10.2.0.0/18租戶1RNIC網段:10.1.0.0/18Create TenantManagement Full租戶2RNIC網段:10.1.64.0/18租戶4RNIC網段:10.1.192.0/1

75、8租戶3RNIC網段:10.1.128.0/1812 3 4 5 6 7 8接入交換機ACL配置示意ingress:sc 10.1.0.0/18 dst 10.1.0.0/18 allowsc 10.1.64.0/18 dst 10.1.64.0/18 allowsr 10.1.128.0/18 dst 10.1.128.0/18 allowsc 10.1.192.0/18 dst 10.1.192.0/18 allowsr 10.2.0.0/18 dst 10.2.0.0/18 allowdefault deny整個過程是通過云平臺和 RoCE SDN 控制器配合實現的。在服務器啟動后,服務

76、器會上報租戶 ID 和對應的 RDMA 交換機上聯端口給云平臺。云平臺根據租戶 ID 信息給服務器分配對應的子網和 IP 地址。之后云平臺會調用 RoCE SDN 的接口,把租戶的網段的 ACL 規則配置到上聯口對應的 RDMA 交換機上。圖 47.RDMA 網絡 SDN 控制器架構云平臺服務器RoCE SDN控制器RoCE交換機上報租戶ID和TOR端口分配子網和IP通過RoCE SDN控制器給交換機下發ACL規則123ACL規則438智算中心網絡架構白皮書5.4 通過 RDMA 網絡提供公共服務在一些場景下,GPU 集群需要通過 RDMA 網絡訪問一些公共服務,如并行文件存儲 PFS(Par

77、allel File System)系統??梢园堰@種類型的服務也看做是一個 RDMA 網絡的租戶,通過 RDMA 網絡控制器設置該租戶的訪問控制策略。以 RoCE 網絡為例,把 PFS 服務也作為一個租戶,在云平臺中進行統一管理,并對應的調整網絡訪問控制策略,實現不同租戶都可以訪問 PFS 服務。圖 48.PFS 通過 RDMA 網絡提供公共服務租戶1RNIC網段:10.1.0.0/18租戶 PFSRNIC網段:10.255.0.0/18租戶5RNIC網段:10.2.0.0/18租戶2RNIC網段:10.1.64.0/18租戶3RNIC網段:10.1.128.0/18租戶4RNIC網段:10.

78、1.192.0/185.5 典型實踐智算中心一般由政府/園區/大型企業集中建設,并以云服務模式給政府相關部門/園區企業/大型企業子公司提供算力服務。使用算力服務的租戶有不同的算力需求場景,如 AI 推理、AI 訓練(小規模單機單卡、中規模單機多卡、大規模的多機多卡)、模型評估和推理等。數據和算力(CPU、GPU)作為 AI 的兩大要素,針對這些場景,智算中心建設方需解決好如下問題:1.租戶間的數據和算力的安全隔離;2.租戶內算力和數據之間通信效率,訓練速度。特別是在多機多卡和單機多卡的場景下,對訓練時的熱數據快速拉取和存放,提高 GPU 的利用率;3.數據和算力之間高速網絡的可管、可控和可視化

79、。3905 智算高性能網絡運營管理在某智算中心案例中,部署了高速RoCEv2網絡用來解決算力和數據之間的通信,并實現多租戶安全隔離。部署了并行存儲,用來存放訓練熱數據,以及部分推理場景下對數據有實時/準實時要求的數據。圖 49.某智算中心多租戶隔離方案多租戶嚴格隔離模型單租戶模型多租戶隔離+共享公共服務模型規模部署情況某智算中心多租戶隔離方案共享的GPU算力共享的網絡共享的存儲規模部署情況隔離的GPU算力隔離的網絡隔離的存儲規模部署情況隔離的GPU算力隔離的網絡存儲硬件共享+應用層隔離運營需求40智算中心網絡架構白皮書06總結和展望百度在人工智能方面一直保持著高強度的投入,在 AI 領域的芯片

80、層、框架層、模型層、應用層有深厚的積累和沉淀,這也使得百度智能云成為國內率先訓練出生成式大語言模型的云?;谶@些積累,百度智能云在“AI 大底座”的私有化方面也有豐富的創新和商業化落地實踐。高性能智算網絡作為“AI 大底座”基礎設施層的關鍵組成部分,在智算節點間的高速互聯,提升智算業務的訓練和推理效率,縮短上層應用發布和上線時間方面起著重要的作用。在百度智能云專有云 ABC Stack 智算版的高性能智算網絡方案中,基于導軌優化的大帶寬高吞吐的 AI-POOL 智算網絡架構、智算網絡的多租戶方案 AI-VPC、智算網絡可視化網管系統 AI-NETOP 都已形成了成熟的產品化能力和解決方案,并在

81、金融行業、汽車行業和政府機構落地了商業化的用戶案例,幫助客戶高效地運行智算應用,讓人工智能戰略得以快速落地。同時也助力智算業務從可運維向可運營方向發展,讓客戶在在智算領域的創新和突破變得簡單和方便。百度智能云專有云 ABC Stack 一直秉持開放和創新的心態,致力于為客戶打造持續開放、不斷創新的私有云。在高性能智算網絡領域,百度智能云一方面會持續投入研發資源,打造先進的產品和解決方案,快速滿足客戶的新需求,解決客戶的痛點;另外一方面,也會繼續加強和業界優秀供應商的深度合作,通過強強聯合的方式打造用戶滿意的產品和方案。智算業務當前像一個冉冉升起的朝陽,在蓬勃發展的同時,智算網絡的新需求和新技術在持續涌現,百度智能云愿意與更多的客戶和伙伴一起攜手并進,努力創新,為智算業務的發展貢獻力量。4106 總結和展望推薦閱讀1.度小滿陳存利-20 年老“司令”聊運維、績效、成長:https:/flashcat.cloud/blog/sretalk-005/2.長安汽車-新時代下的智能網聯汽車技術架構:http:/ IaaS 計算架構:https:/

友情提示

1、下載報告失敗解決辦法
2、PDF文件下載后,可能會被瀏覽器默認打開,此種情況可以點擊瀏覽器菜單,保存網頁到桌面,就可以正常下載了。
3、本站不支持迅雷下載,請使用電腦自帶的IE瀏覽器,或者360瀏覽器、谷歌瀏覽器下載即可。
4、本站報告下載后的文檔和圖紙-無水印,預覽文檔經過壓縮,下載后原文更清晰。

本文(百度智能云&度小滿:2023智算中心網絡架構白皮書(47頁).pdf)為本站 (微??萍?/span>) 主動上傳,三個皮匠報告文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對上載內容本身不做任何修改或編輯。 若此文所含內容侵犯了您的版權或隱私,請立即通知三個皮匠報告文庫(點擊聯系客服),我們立即給予刪除!

溫馨提示:如果因為網速或其他原因下載失敗請重新下載,重復下載不扣分。
客服
商務合作
小程序
服務號
折疊
午夜网日韩中文字幕,日韩Av中文字幕久久,亚洲中文字幕在线一区二区,最新中文字幕在线视频网站