《中國移動研究院:2023全調度以太網技術架構(GSE)白皮書(22頁).pdf》由會員分享,可在線閱讀,更多相關《中國移動研究院:2023全調度以太網技術架構(GSE)白皮書(22頁).pdf(22頁珍藏版)》請在三個皮匠報告上搜索。
1、1全調度以太網技術架構白皮書全調度以太網技術架構白皮書TheThe TechnicalTechnical FrameworkFramework WhiteWhite PaperPaper ofofGlobalGlobal SchedulSchedulinging EthernetEthernet(20232023 年)年)中國移動通信研究院中國移動通信研究院前前言言本白皮書面向未來智算中心規模建設和 AI 大模型發展及部署需求,聯合產業合作伙伴共同提出全調度以太網(GSE)技術架構,旨在突破智算中心網絡性能瓶頸,打造無阻塞、高帶寬及超低時延的新型智算中心網絡,助力 AIGC 等高性能業務快速發
2、展。本白皮書的版權歸中國移動研究院所有,并受法律保護。轉載、摘編或利用其它方式使用本白皮書文字或者觀點的,應注明來源。目錄前言.2縮略語列表.41.背景與需求.52.GSE 網絡架構介紹.62.1 總體設計目標.62.2 整體架構概況.62.2.1 GSE 整體架構.62.2.2 GSE 架構設備.72.2.3 GSE 架構特性.82.3 關鍵技術特征.82.3.1 兼容以太網技術.82.3.2 無阻塞網絡.92.3.3 提高有效帶寬.92.3.4 優化長尾時延技術.103.GSE 網絡核心技術.103.1PKTC 機制.113.1.1 PKTC 概念.113.1.2 PKTC 開銷.123.
3、1.3 GSE Header 位置.123.2 基于 PKTC 的負載均衡技術.133.2.1 動態負載信息構建.133.2.2 動態路徑切換技術.143.2.3 流量排序機制.153.3 基于 PKTC 的 DGSQ 調度技術.153.3.1 基于全局的轉發技術.163.3.2 基于 DGSQ 的調度技術.173.4 精細的反壓機制.183.5 無感知自愈機制.183.6 低時延轉發技術.193.7 全調度以太網操作系統.194.組網應用展望.21縮略語列表縮略語縮略語英文全名英文全名中文解釋中文解釋AIArtificial Intelligence人工智能AIGCAI-Generated
4、Content人工智能生產內容CPUCentral Processing Unit中央處理器DPUData Processing Unit數據處理單元ECMPEqual Cost Multi Path等價多路徑路由ECNExplicit Congestion Notification顯式擁塞通告FCFibre Channel光纖通道GPUGraphics Processing Unit圖形處理器GSFGlobal Scheduling Fabirc全調度交換網絡GSOSGlobal Scheduling Operating System全調度操作系統GSPGlobal Scheduling P
5、rocessor全調度網絡處理節點HoLHead-of-line blocking隊首阻塞JCTJob Completion Time任務完成時間MLMachine Learning機器學習PFCPriority-based Flow Control基于優先級的流量控制PHYPhysical端口物理層PKTCPacket Container報文容器RDMARemote Direct Memory Access遠程直接內存訪問RoCERDMA over Converged Ethernet融合以太網承載RDMAVOQVirtual Output Queue虛擬輸出隊列DGSQDynamic Gl
6、obal Scheduling Queue動態全局調度隊列1.背景與需求背景與需求目前,AIGC(AI-Generated Content,人工智能生產內容)發展迅猛,迭代速度呈現指數級增長,全球范圍內經濟價值預計將達到數萬億美元。在中國市場,AIGC 的應用規模有望在 2025 年突破 2000 億元,這一巨大的潛力吸引著業內領軍企業競相推出千億、萬億級參數量的大模型,底層 GPU 算力部署規模也達到萬卡級別。以 GPT3.5 為例,參數規模達 1750 億,作為訓練數據集的互聯網文本量也超過 45TB,其訓練過程依賴于微軟專門建設的 AI 超算系統,以及由 1萬顆 V100 GPU 組成的
7、高性能網絡集群,總計算力消耗約為 3640 PF-days(即每秒一千萬億次計算,運行 3640 天)。分布式并行計算是實現 AI 大模型訓練的關鍵手段,通常包含數據并行、流水線并行及張量并行等多種并行計算模式。所有并行模式均需要多個計算設備間進行多次集合通信操作。另外,訓練過程中通常采用同步模式,多機多卡間完成集合通信操作后才可進行訓練的下一輪迭代或計算。智算中心網絡作為底層通信連接底座,需要具備高性能、低時延的通信能力。一旦網絡性能不佳,就會影響分布式訓練的質量和速度。面向未來智算中心規模建設和 AI 大模型發展及部署需求,中國移動聯合多家合作伙伴推出了全調度以太網技術方案(GSE),打造
8、無阻塞、高帶寬及超低時延的新型智算中心網絡,助力 AIGC 等高性能業務快速發展。2.GSE 網絡架構介紹網絡架構介紹2.1 總體設計總體設計目標目標全調度以太網面向 AI、HPC 等高性能計算場景設計,架構設計遵循以下三大原則:全調度以太網構建開放透明標準化的技術體系,供所有高性能計算生態涉及到的芯片(GPU、DPU、CPU 等)、設備(服務器、交換機、網卡等)、儀表、操作系統等上下游產業共同使用。全調度以太網可適應多種高性能計算場景,凡是涉及到無損、高帶寬利用率、超低時延需求的業務場景均可通用。全調度以太網不是重造以太網,而是將高性能計算需求融入以太網,可最大限度地重用以太網物理層,兼容以
9、太網生態鏈,如光模塊、PHY 層芯片等。2.2 整體架構概況整體架構概況為打造無阻塞、高帶寬、低時延的高性能網絡,GSE 架構應運而生,該架構主要包括計算層、網絡層和控制層三個層級,包含計算節點、GSP、GSF 及GSOS 等四類設備。2.2.1 GSE 整體架構整體架構全調度以太網是具備無阻塞、高吞吐、低時延的新型以太網架構,可更好服務于高性能計算,滿足 AI 大模型部署及訓推需求。全調度以太網架構自上而下分為三層,分別為控制層、網絡層和計算層,其中關鍵點在于創新的引入一種全新的動態全局隊列調度機制。動態全局調度隊列(DGSQ)不同于傳統的 VOQ,其不是預先基于端口靜態分配,而是按需、動態
10、基于數據流目標設備端口創建,為了節省隊列資源數量,甚至可以基于目標或途徑設備的擁塞反饋按需創建?;?DGSQ 調度以實現在整個網絡層面的高吞吐、低時延、均衡調度??刂茖樱喊旨惺?GSOS,以及 GSP 和 GSF 設備端分布式 NOS。其中,集中式 GSOS 用于提供網絡全局信息,實現基于全局信息編址(例如設備節點 ID 等)、日常運維管理等功能。設備端分布式 NOS 具備獨立的控制面和管理面,可運行容器的負載均衡、DGSQ 調度等屬于設備自身的網絡功能,通過設備分布式管控能力,提升整網可靠性。網絡層:通過 GSP 和 GSF 的分工協作,構建出具備全網流量有序調度、各鏈路間負載均衡
11、、網絡異常精細反壓等技術融合的交換網絡,是全調度以太網的主要實現層。其中,Fabric 部分可支持二層 GSF 擴展,以滿足更大規模的組網需求。計算層:包含高性能計算卡(GPU 或 CPU)及網卡,為全調度以太網的服務層。初期將計算節點作為全調度以太網邊界,僅通過優化交換網絡能力提升計算集群訓練性能。未來考慮計算與網絡深度融合,將 GSP 相關方案延伸到網卡層或者 GPU 直出網卡模塊實現,與網絡層進行聯動形成算網協同的全調度以太網,進一步提升高性能計算性能。圖 2-1 GSE 技術分層架構2.2.2 GSE 架構設備架構設備GSE 架構包括計算節點、GSP、GSF 及 GSOS 四類設備,各
12、設備間協同工作,分工如下:計算節點:即服務器側的計算卡、網卡,提供高性能計算能力。GSP:網絡邊緣處理節點,用以接入計算流量,并對流量做全局調度;流量上行時,具備動態負載均衡能力。流量下行時具備流量排序能力。GSF:網絡核心交換節點,作為 GSP 的上一層級設備,用于靈活擴展網絡規模,具備動態負載均衡能力,以及反壓信息發布能力。GSOS:全調度操作系統,提供整網管控的集中式網絡操作系統能力。2.2.3 GSE 架構特性架構特性考慮到AIGC 等AI/ML應用快速發展以及當前標準以太網規模部署現狀,GSE架構應具備靈活可擴展性,并最大限度兼容以太網特性。GSE架構特性具體如下:靈活擴展靈活擴展:
13、支持萬卡高性能計算集群部署,以 GSP+GSF 的兩層網絡為常用形態,支持橫向擴容。當計算節點進一步擴大,兩層網絡架構不足以支撐時,可靈活擴展成 GSP+GSF+GSF 的三層網絡架構,保留擴展到更多層 GSF 組網的能力,以滿足業務部署需求。生態開放生態開放:秉持生態開放的原則,構建標準開放的技術協議棧,促成多廠家設備間的互聯互通,共同構建全調度以太網的網絡層,為大規模分布式計算提供高效的網絡基礎。硬件通用硬件通用:所有網絡節點均支持標準以太網,無需專用的信元處理節點,可與標準以太設備無縫切換。其中,GSP 和 GSF 設備雖然角色分工不同,但均以以太報文交換為基礎,轉發硬件具有通用性,設備
14、角色可以由軟件版本控制,從而支持更靈活的部署和維護。2.3 關鍵技術關鍵技術特征特征2.3.1 兼容以太網技術兼容以太網技術以太網標準是當前普適性最好的通信標準之一,中國移動以通用開放的宗旨聯合產業鏈共同打造 GSE 網絡,最大程度兼容現有以太網標準,兼容性主要體現在如下幾方面:遵循現有以太網 PHY、MAC 層協議:遵循現有 IEEE 802.3 協議對以太網物理層、MAC 層的定義,以兼容現有以太網器件(含光模塊、網卡、交換機等),將 GSE 以功能增量的形式融入到現有以太網中,對以太網進行增強。完整的以太網業務報文傳輸:在整個 GSE 網絡中,以完整以太網報文形式進行傳輸,最大程度保留以
15、太網報文承載內容的完整性,以便后續在 GSE網絡中兼容更多的特性,如在網計算。遵循現有管控系統與運維習慣:管控系統、運維系統的構建與以太網轉發技術一樣復雜,且與轉控平面的協同體系已成熟。GSE 網絡最大程度上沿用現有管控及運維系統,做到架構不變、運維習慣不變,保證現有以太網的管理手段和運維手段的兼容繼承。2.3.2 無阻塞網絡無阻塞網絡隨著網絡規模的不斷提升,報文交換從單網絡節點內單跳到網絡節點間多跳實現,各節點間也從松耦合關系變化為聯合轉發,業界通過 CLOS 架構搭建大規模分布式轉發結構來滿足日益增長的轉發規模需求。該架構下,各節點分布式運行,自我決策轉發路徑,無法實現最優的整網性能。為使
16、得大規模多節點轉發效果和單節點一致,需要解決分布式轉發結構內部的阻塞問題。造成網絡阻塞的核心原因是分布式轉發結構中各節點無法完全感知全局信息,當一個網絡節點發送給另一個網絡節點時,無法感知下游節點網絡情況,導致流量在下游產生擁塞。例如在基于 ECMP 進行負載均衡的網絡中,網絡節點僅站在自身視角將流量通過哈希選路發送,最終導致鏈路擁塞、出端口擁堵、交換網絡利用率低等問題。DGSQ 技術是解決這個問題的關鍵技術,該技術將互不可見的網絡節點通過與交換網全局隊列映射聯合起來,最終達到整網最優的轉發效果。2.3.3 提高有效帶寬提高有效帶寬基于 DGSQ 技術,可保證分布式交換網絡入口節點發往交換網絡
17、的流量從出口節點看是最優的。但流量在網絡中交換時,傳統 ECMP 負載均衡會導致鏈路負載不均以及哈希極化,特別是在有巨型流存在的情況下,無論巨型流持續時間多長,所到之處均可能引起擁塞和丟包。當前交換網絡缺乏有效的帶寬控制和優先級管理,丟包將是無差別的,會給應用帶來直接的負面影響?;?Packet的逐包負載分擔技術,將任意流量轉化成極短的數據單元傳輸,徹底消除哈希極化問題,進而提高交換網絡的帶寬利用率。2.3.4 優化長尾時延技術優化長尾時延技術AI 大模型訓練存在大量 Map-Reduce 流量模型,任意一輪計算的結束均依賴最后一個結果的返回,降低網絡長尾時延可有效提升訓練完成時間。交換網絡
18、整體轉發時延和轉發路徑上中間節點的擁塞情況正相關,消除中間節點的擁塞就可消除長尾時延。DGSQ 調度和高精度負載均衡技術融合是解決該問題的關鍵,一方面,通過 DGSQ 的 PUSH+PULL 結合機制控制進入交換網絡的報文數據量不會超過整網的轉發容量;另一方面,通過高精度負載均衡的加持,雙管齊下可以消除交換網絡任一節點的擁塞。3.GSE 網絡網絡核心技術核心技術與傳統以太網基于流進行負載分擔的機制不同,GSE 交換網絡采用定長的PKTC進行報文轉發及動態負載均衡,通過構建基于PKTC的DGSQ全調度機制、精細的反壓機制和無感知自愈機制,實現微突發及故障場景下的精準控制,全面提升網絡有效帶寬和轉
19、發延遲穩定性。其具體流量轉發流程如圖所示:圖 3-1 GSE 網絡端到端流量轉發示意圖(1)源端 GSP 設備從計算側收到 Packet 后,通過轉發表找到最終出口,并基于最終出口按需將報文分配到對應的 DGSQ 中進行授權調度。(2)源端 GSP 設備獲得授權后,Packet 將遵循 PKTC 的負載均衡要求,將報文發送到 GSE 網絡中。(3)當報文到達目的端 GSP 設備后,先進行 PKTC 級別的排序,再通過轉發表將報文存儲到物理 Port 的隊列,最終通過端口調度將報文發送到計算節點。3.1 PKTC 機制機制PKTC 是區別于 CELL 轉發的一種核心轉發機制,該機制下以太網報文在
20、邏輯上組成虛擬容器,并以該容器為最小單元在交換網絡中傳輸。本節分將從PKTC 概念、PKTC 開銷和 PKTC 位置三方面進行闡述。3.1.1 PKTC 概念概念基于報文的轉發在實現負載均衡時,首先需要克服報文長度隨機產生的影響,因此需要對負載均衡的基本轉發單元進行歸一化處理,建立定長報文容器。報文容器可以容納報文數量的設定可依據業務報文長度的分布情況進行調整,要求至少能夠容納 1 個最長的業務報文,且總長度在芯片轉發能力和解亂序能力允許的情況下盡可能短,以達到精細切分數據流,充分提高瞬間負載均衡度的目的。為解決上述問題,本方案提出報文容器的概念,設計原理如下圖所示:圖 3-2 PKTC 轉發
21、機制示意圖報文容器的實現是邏輯虛擬的,當一個報文進入 GSP 節點時,GSP 節點將記錄其歸屬的報文容器編號、在該容器中占用的字節數等信息,當報文字節數超過虛擬報文容器設定長度時,將該報文調度并紀錄到下一個報文容器中。GSE 網絡各節點均直接轉發報文,無需緩存報文構建實際容器。對于歸屬于相同報文容器內的所有報文,在交換網絡中將被負載均衡到唯一路徑進行轉發,以保證該報文容器內報文之間不再亂序,以降低出口 GSP 節點解亂序壓力。3.1.2 PKTC 開銷開銷基于逐包的轉發機制,需要在數據包中攜帶相關信息,才能被交換網正確識別處理并發送至目標節點。所以報文在進入 GSP 時需要區分 DGSQ,DG
22、SQ 的標識和系統 DGSQ 建立目標有關。一般情況下,可基于源設備、目標端口以及在該端口下的優先級建立唯一的 DGSQ 標識。當然,也可根據業務需求簡化DGSQ 精細度,例如在一個目標端口下設置 4、2 或 1 個優先級,降低 DGSQ 隊列的需求量,降低交換芯片開銷。進入 DGSQ 后的報文,需要經過下行調度授權才能被發送到交換網絡中。此時,可將同一個入口 Leaf 節點發往同一個出口 Leaf 節點的報文組成一個解亂序隊列,即在每個報文容器內的所有數據包添加相同的序列號(容器的序列)以及源 GSP ID,下行收到這些報文后,可基于源 GSP ID 和序列號進行解亂序處理。下圖以增加標準以
23、太網報文頭為例描述,其他內部以太報文構建方式下報文容器的構建和轉發原理一致。圖 3-3 PKTC 頭構建方式示意圖3.1.3 GSE Header 位置位置GSE 網絡需要對業務報文添加額外信息以用于全局負載均衡轉發以及排序,這些信息有三種攜帶方式,包括:在標準以太幀之外增加標準擴展頭:這種攜帶方式最大的好處是不破壞原始業務報文,但是在兼容性和傳輸效率上會有一定損失。如果為了提升以太網的兼容性而選擇外加以太網 Tunnel 的方式,傳輸效率會進一步降低。圖 3-4 標準擴展頭方式重定義標準以太幀:重新定義報文的 MAC 頭,這種攜帶方式的最大好處是傳輸效率高,但是兼容以太網能力較差,只有在特定
24、場景下才可使用。圖 3-5 重定義以太幀方式在以太網 MAC 或 IP 之后擴充協議頭,這種方式的最大好處是平衡了以太網的兼容性和傳輸效率,但是網絡中對 GSE 額外信息的處理會需要深入到報文內部信息,會影響轉發時延。圖 3-6 協議頭擴充方式3.2 基于基于 PKTC 的負載均衡技術的負載均衡技術為了減少并消除傳統 ECMP 轉發模型中出現的哈希極化、負載不均等問題導致的長尾時延或丟包,基于 Packet Container 的技術可以分為負載信息構建、動態路徑切換、流量排序機制三個部分。3.2.1 動態負載信息構建動態負載信息構建對出端口負載信息的評估量化后,可隨機選出負載較輕的鏈路之一,
25、為后續流量的 PKTC 路徑選擇提供依據。如下圖所示的轉發模型,GSP1 作為接入交換機,當某段 PKTC 通過 GSP1 交換機去往 GSP2 的 A2 口時,需要對上行鏈路進行負載評估,以決策此段 PKTC 的傳輸出口。圖 3-7 流量轉發模型示意圖決策過程可以參考下圖所示:在 PKTC 的路徑選擇上,先進行擁塞 Level 的選擇,選擇 Level 層級最低的出口集合,再從這些出口集合中隨機選擇一個出口,防止在多路徑選擇下存在同步效應。圖 3-8 動態負載均衡決策過程3.2.2 動態路徑切換技術動態路徑切換技術當出口的負載出現動態變化后,每一個 PKTC 都可以按照算路算法進行路徑的重新
26、選擇,以保證全局的負載均衡效果。在切換過程中,需要保證每個 PKTC在路徑選擇上的一致性,否則會增加亂序程度,加大排序壓力。路徑選擇仍按照先選 Level 層級,再隨機選擇出口的方式進行。圖 3-9 動態路徑切換機制3.2.3 流量排序機制流量排序機制流量經過負載均衡和動態路徑切換后,形成多傳輸路徑。由于不同路徑的傳輸時延存在一定差異,所以當不同路徑的流量到達最終出口所在的節點時需要進行重排序處理。圖 3-10目的端流量排序機制3.3 基于基于 PKTC 的的 DGSQ 調度技術調度技術網絡傳輸中,常常會出現在某些時刻多個口打一個口的現象。如果這個現象是短暫的,在出口處可以通過一定的 Buff
27、er 進行吸收;如果時間持續過長且多個入口的流量相加遠大于出口的線速帶寬,為了避免丟包,出口設備需啟用反壓機制保護流量,而反壓一旦出現,網絡的轉發性能就會大幅度下降。圖 3-11 網絡 Incast 流量發生場景如上圖所示,GSP1 的 A1 口和 GSP3 的 A3 口同時向 GSP2 的 A2 口發送流量,且流量相加大于 A2 的出口帶寬,造成 A2 口出口隊列擁塞。針對這種情況,僅通過負載均衡是無法規避的,需全局控制保證送到 A2 的流量不超過其出口帶寬才可避免。因此,引入基于全局的轉發技術和基于 DGSQ 的調度技術,才可實現全局流量的調度控制。3.3.1 基于基于全局視圖全局視圖的轉
28、發技術的轉發技術在傳統數據中心以太網轉發模型中,轉發表以以報文攜帶的信息為主體,并且根據下一跳連接的出口,編輯報文頭信息,如下圖所示:圖 3-12 流量轉發模型示意圖從 GSP1 任意端口進來的報文轉發到 GSP2-A2 口,需要在 GSP1 上形成轉發表及對應的出口信息,這些信息是本設備基于自身及相鄰設備的狀態形成,但對后續路徑上網絡設備的狀態既不感知也不控制,該方式無法構建無阻塞的全調度以太網。需要構建一種基于全局視野的轉發技術,支持在接入交換機的轉發表中指明最終目的,并通過端到端路徑調度及綜合化授權機制,動態形成負載分擔信息并形成下一跳出口信息。圖 3-13 基于全局視圖的選路機制3.3
29、.2 基于基于 DGSQ 的調度技術的調度技術基于 DGSQ 的全局調度技術如下圖所示,在 GSP 上建立網絡中所有設備出口的虛擬隊列,用以模擬本設備到對應端口的流量調度。本設備 DGSQ 的調度帶寬依賴授權請求和響應機制,由最終的設備出口、途經的設備統一進行全網端到端授權。由于中間節點的流量壓力差異,GSP 去往最終目的端口不再通過ECMP 路徑授權權重選擇路徑,而是需要基于授予的權重在不同的路徑上進行流量調度。通過這種方式,可保證全網去任何一個端口的流量不但不會超過該端口的負載能力,也不會超出中間任一網絡節點的轉發能力,可降低網絡中 Incast流量產生的概率,減少全網內部反壓機制產生。圖
30、 3-14 基于DGSQ的調度技術3.4 精細的反壓機制精細的反壓機制基于 PKTC 的負載均衡技術和 DGSQ 全局調度技術在平穩狀態下可很好得進行流量調控與分配,但在微突發、鏈路故障等異常場景下,短時間內網絡還是會產生擁塞,這時仍需要依賴反壓機制來抑制源端的流量發送。傳統 PFC 或 FC都是點到點的局部反壓技術,一旦觸發擴散到整個網絡中,引起 HoL、網絡風暴等問題。在全調度以太網技術中,需要有精細的反壓機制來守護網絡的防線,通過最小的反壓代價來穩定網絡的負載。圖 3-15 網絡擁塞場景示意圖例如,如上圖所示,GSF1 的 B4 出口出現擁塞,會降低甚至暫停對此端口的 DGSQ 調度授權
31、。如果還有其他路徑選擇,將會觸發采用動態負載均衡的方式切換到其他鏈路;如果當前網絡中只有這一條鏈路,或者其他鏈路也即將處于擁塞狀態,則不構成切換條件,此時需要啟動反壓機制。為了犧牲最小限度的流量保證整網流量的穩定,反壓的范圍需要控制得足夠精確。例如只抑制去往 GSP2的流量,去往其他設備的流量不受影響。更近一步的精細控制策略是通過GSF1-B4 去往 GSP2 的流量被抑制,其他設備的流量不受影響。最終的精細程度將在后續的 GSE 標準中制定。3.5 無感知自愈機制無感知自愈機制全調度以太網架構中,通過全調度技術構建了入端口到出端口的虛擬隊列路徑,對入端口的轉發業務而言無需感知到出端口的每一跳
32、路徑,僅需要明確出端口即可。其對 GSF 組成的 Fabric 網絡是無感知的,路徑的可達性及切換由 Fabric網絡的負載均衡技術保障。GSF 采用了基于 PKTC 的逐級負載均衡技術。當 Fabric 網絡中的某條鏈路或某臺 GSF 發生故障時,與其相連的設備節點能夠實時感知到鏈路狀態變化,并自動將相應鏈路從負載均衡備選列表中移除,回收 DGSQ 涉及此路徑的調度授權,從而讓 PKTC 分攤到其它可用鏈路。當設備或鏈路故障恢復后,相連設備節點同樣可以實時感知到鏈路狀態變化,并完成自愈?;?PKTC 的負載均衡技術在以上鏈路切換過程中可以保持穩定的均衡性,不會像基于流的負載均衡受哈希結果或
33、鏈路數量少的影響,可避免某條鏈路負載突發疊加的情況。3.6 低時延轉發技術低時延轉發技術轉發面主要通過簡化、并行化和旁通轉發流程等手段降低設備內轉發路徑的時延。隨著端口速率的不斷提升,高速信號完整性的挑戰也越來越大,需要不斷引入更為強大的 FEC 算法(FEC,forward error correction,前向糾錯)。FEC 越強大其編解碼復雜度也越高,所增加的時延也越大,100G 以上速率 FEC 所占用的時延已經達到整體轉發時延的 20%左右。FEC 的過程又可以分為檢錯邏輯和糾錯邏輯。在低速的 FEC 處理中往往沒有做上述流程的區分,但隨著速率提升、檢測及糾錯邏輯的復雜,細分差異化處
34、理會變為越來越有意義。檢錯和糾錯分離技術可提前校驗數據塊內是否存在誤碼。在無錯情況下,可旁路 FEC 譯碼流程,消除無錯場景下 FEC 收幀和譯碼時延,降低無錯情況下的接口時延,消除高增益 FEC 碼字的時延弊端;有錯的情況下,才進一步進行糾錯處理。因為發生誤碼的概率畢竟遠小于無誤碼,此方式可以優化端口的平均轉發時延。靈活 FEC(FlexFEC)技術可以根據鏈路的誤碼率狀態,自動選擇合適的 FEC 糾錯算法,以便在保持可靠性的同時提供低延遲。3.7 全調度以太網操作系統全調度以太網操作系統全調度以太網的 GSOS 綜合考慮了分布式 NOS、集中式 SDN 控制器的優勢,分為全調度控制器、設備
35、側 NOS 兩大部分,同時采用帶內的帶內管理通路。圖 3-16 全調度以太網操作系統架構設備側 NOS:GSP 和 GSF 的盒式設備支持獨立部署 NOS,并構建出分布式網絡操作系統。每臺 GSP 和 GSF 具備獨立的控制面和管理面,可以運行屬于設備自身的網絡功能,提升系統可靠性,降低部署難度。分布式 NOS 可以將單點設備故障限制在局部范圍,避免對整網造成影響。為了提供開放性服務并支持全調度以太網特性,NOS 還將傳統一體化的網絡功能服務分層解耦成控制平面服務、數據平面服務,并開放服務接口。數據平面服務的開放性為全調度以太網的部署提供了更大的靈活性,例如可以與控制器配合建立全調度 DGSQ
36、 系統、根據網絡規?;蜍浖崿F情況來選擇合適的分布式或集中式發現同步協議來建立 Fabric 互聯網絡等。全調度 GSOS:集中式 GSOS 提供了更好的網絡全局信息,簡化基于全局端口信息的 DGSQ 系統的建立和維護。同時 GSOS 也是整網運維監控的大腦,可協同設備實現對實時路徑、歷史的記錄及呈現以支撐網絡運維。NOS 控制管理通路:得益于全調度以太網架構的兼容性原則,網絡的 GSF節點也可以支持以太網報文交換特性。這樣可將管理和控制平面統一到數據轉發平面,形成帶內(In-band)互聯通路,并在 Fabric 互聯的數據轉發平面中預留內部高優先級通道,以保障控制管理通路的優先級。全調度以
37、太網不再采用帶外(Out-band)控制管理通路,而是統一到帶內通路,便于運維管理,避免維護兩套物理網絡。圖 3-17:帶內模式的控制和管理通路4.組網應用展望組網應用展望GSE 面向無損、高帶寬、超低時延等高性能網絡需求業務場景,兼容以太網生態鏈,通過采用全調度轉發機制、基于 PKTC 的負載均衡技術、基于 DGSQ的全調度技術、精細的反壓機制、無感知自愈機制、集中管理及分布式控制等技術,實現低時延、無阻塞、高帶寬的新型智算中心網絡。該技術架構落地時,存在兩種方式,一種是僅在網絡側運行該架構,一種是端到端均運行該架構。僅在網絡側運行該架構GSE 本身可以支持網卡側無感知的組網解決方案,若網卡
38、側有能力參與協同,則可以更精細化地提供端到端的全調度特性。GSP 設備的 DGSQ 隊列可以將其狀態反饋給網卡側,供網卡或業務感知網絡狀態,從而進行更好端網協同。例如,當 GSP 的某個 DGSQ 隊列達到一定水線時,表明其對應計算節點到對端計算節點的網絡流量存在擁塞情況,此時 GSP 可以將該信息通過反壓機制反饋給對應網卡,網卡或者業務側可以根據該信息適當地調整往這個對端計算節點的發包速率,從源頭上避免可能的擁塞惡化或丟包情況。端到端均運行該架構將 GSE 的功能在網絡組建中重新分工,原有機制不變,網卡或者 GPU 的網卡模塊實現授權分發和反壓響應,交換機依然集成基于 PKTC 的負載均衡選路、流量排序、精細反壓信息產生以及最基礎的基于全局的轉發控制。這樣在原有GSE 組網模型和功能不變的情況下,利用網卡最接近業務側的優勢,可從業務源頭調度流量。圖 4-1 GSE 技術后續演進方向