1、 版權聲明版權聲明 本白皮書版權屬于網絡通信與安全紫金山實驗室及其合作單位所有并受法律保護,任何個人或是組織在轉載、摘編或以其他方式引用本白皮書中的文字、數據、圖片或者觀點時,應注明“來源:來源:網絡網絡通信與安全紫金山實驗室通信與安全紫金山實驗室等等”。否則將違反中國有關知識產權的相關法律和法規,對此網絡通信與安全紫金山實驗室有權追究侵權者的相關法律責任。編寫說明編寫說明 主要主要編寫單位:編寫單位:(排序不分先后)網絡通信與安全紫金山實驗室、中國電信股份有限公司研究院和北京郵電大學。參與單位參與單位:(排序不分先后)博通公司(Broadcom Inc.)。主要主要編寫編寫人員人員:(排序不
2、分先后)黃韜,汪碩,徐鹍,李振紅,陳娟娟,歐亮,鐘超,肖祥益,李鵬,尹川,鐘星宇,文昱涵,劉婷婷,張璽,周大為,吳溪光。I 前 言 伴隨著 OTT 云服務、4K/8K 流媒體以及移動/固網 5G 業務量的激增,全球 IP 流量呈現出高速增長的趨勢,對現有網絡產生了較大運行壓力。面對持續增長的流量,全球網絡服務提供商正在深入思考并積極探索全新的大規模彈性網絡構建方法,期望通過煥然一新的方法搭建出更具擴展性、開放性和成本效益的網絡基礎設施,讓數字時代的用戶能在信息高速公路上更暢快地體驗科技帶來的變化。分布式解耦機框技術開創性的基于體系結構解耦和轉發資源池兩大核心思想構建云模型,創新地將云計算的思想
3、應用于網絡領域,形成“網絡云”解決方案。分布式解耦機框本質是對物理網絡機框設備的深度解耦和轉發資源使用方式的優化。解耦后的網絡設備,管控平面實現云化,可靈活運行于遠端服務器或數據平面內的容器中,數據平面則運行于基于白盒搭建能靈活擴展的轉發資源池上,突破了單個機框的資源限制,總體形成了軟件上運維升級簡單、硬件上能動態彈縮的虛擬機框形態。分布式解耦機框技術不僅使大規模網絡搭建化繁為簡,也給出了網絡架構演進的創新思路,很好地契合了日新月異的商業應用對網絡發展的痛點需求,解決了現有網絡網元差異性大導致的網絡運維管理復雜、擴容難度大、擴展性差的諸多問題。形成基于分布式解耦機框統一架構之上的網絡基礎設施融
4、合解決方案,可為網絡帶來全新的改變,已成為產業界設備形態研究的新熱點。II 本白皮書力求全面解讀分布式解耦機框技術,使讀者既能夠深入了解分布式解耦機框總體架構和關鍵技術,又能對分布式解耦機框的部署場景和應用方式有較為直觀的認識。白皮書共分六個章節:第一章首先介紹了分布式解耦機框技術的產生背景、發展現狀和技術價值;第二章闡述了分布式解耦機框總體架構,包括硬件物理架構、系統邏輯架構;第三章詳細介紹分布式解耦機框若干關鍵技術,包括虛擬機框管理、中央控制面、機框切片、數據面白盒化、數據面彈性架構、數據面交換網負載均衡技術等;第四章枚舉了若干可能的應用場景,包括 5G 承載網、數據中心網絡和 HPC 場
5、景;第五章介紹了分布式解耦機框若干實踐案例,例如分布式解耦機框在紫金山長三角白盒主干網的核心節點的替換方案、基于分布式解耦機框進行 HPC 場景測試案例;最后第六章提出了分布式解耦機框技術發展愿景。本白皮書旨在吸引更多研究、工程和產業人員參與分布式解耦機框的創新研究、技術攻關和應用落地;通過分布式解耦機框架構實現未來網絡變革,推動各行業朝著信息化、數字化、網絡化和智能化的方向升級。III 目 錄 前 言.I 目 錄.III 一、分布式解耦機框技術的發展背景和價值.1 1.1 分布式解耦機框技術產生背景.1 1.2 分布式解耦機框技術的發展現狀.2 1.3 分布式解耦機框的部署價值.15 二、分
6、布式解耦機框技術總體架構.18 2.1 分布式解耦機框硬件架構.19 2.2 分布式解耦機框 NOS 架構.21 2.3 分布式解耦機框切片架構.23 三、分布式解耦機框技術關鍵技術體系.25 3.1 機框管理.25 3.2 中央控制面.27 3.3 機框切片.28 3.4 數據面白盒化.29 3.5 數據面彈性架構.33 3.6 交換網負載均衡技術.39 四、典型應用場景.42 4.1 5G 承載網場景.42 IV 4.2 數據中心網絡.44 4.3 HPC 計算.50 五、實踐案例.55 5.1 紫金山長三角白盒主干網核心節點 DDC 部署方案.55 5.2 HPC 測試案例.57 六、未
7、來網絡分布式解耦機框技術發展建議.62 附錄 A:術語與縮略語.64 參考文獻.66 1 一、一、分布式解耦機框技術的發展背景和價值分布式解耦機框技術的發展背景和價值 1.1 分布式解耦機框技術產生背景分布式解耦機框技術產生背景 過去的幾十年里,網絡服務提供商一直采用較為固定的方法搭建網絡,即將網絡劃分為接入、匯聚、邊緣以及核心等多網絡層次,對每一層網絡采用專用黑盒網元進行搭建。網絡不同層次由來自不同供應商的多系列路由器、交換機進行搭建,對應數以千計的不同硬件組件以及運行其上的專有網絡操作系統。隨著時間的推移,這些設備間的具體差異導致了各網元補丁升級、網絡擴容和運維操作的復雜性攀升,網絡復雜難
8、以管理,網絡的整體擴展性受到制約。這些因素,拖慢了網絡對日新月異的商業模式以及不斷增長的新業務流量的響應和升級速度。面對實際運營中遇到的困難,網絡研究者們從數據中心向云演變的成功經驗中受到啟發,希望有一天可以像使用水、電一樣,優化網絡資源的使用方式,做到按需使用網絡,而不用關注網絡資源的具體差異。由此,網絡研究者們開始探索構建“網絡云”的新方法,提出了分布式解耦機框技術。分布式解耦機框(DDC,distributed disaggregated chassis)的核心思想是對物理機框設備的深度解耦。解耦后的網絡設備管控平面徹底云化,脫離物理網元。數據平面則運行于可以靈活擴展的轉發 2 資源池上
9、,使使用者獲得易于運維、易于擴容和具有成本優勢的網絡。同時,通過白盒交換機來搭建數據平面的轉發資源池,能取得更大成本優勢,還能以更快的速度享受商業芯片的發展成果。分布式解耦機框形成了軟件上運維升級簡單、硬件上能動態彈縮的虛擬機框形態?;诮y一的虛擬機框形態,有望實現機框軟件和硬件的徹底分離和硬件的動態彈縮,從而實現“網絡云”。1.2 分布式解耦機框技術的發展現狀分布式解耦機框技術的發展現狀 國內外多家運營商、網絡設備廠商和前沿科研機構正在對分布式解耦機框技術進行積極探索,例如國內的紫金山實驗室、中國電信研究院均在分布式解耦機框上進行了深度的研究,同時做了針對性的開發與關鍵技術攻關;國外的運營商
10、 AT&T,已經在其網絡中對分布式解耦機框進行了部署嘗試。下文就對國內外技術研究成果、技術方案、實現情況進行介紹。1.2.1 中國電信中國電信 C3NOS 分布式網元操作系統分布式網元操作系統 C3NOS(Chinatelecom Cloud Converged Network Operation System)是中國電信研究院基于全新開放體系架構研發的商用云網融合操作系統,可應用于傳統的交換機/路由器網絡設備,還可用于網絡邊緣設備、多業務網關等新型網絡設備。該系統采用先進容器化架構,使各個軟件模塊具有獨立的運行空間,可實現動態加載、單獨升級、故障隔離等特性;具備靈活的開放特性,可實現新業務的
11、快速開發實踐,3 滿足運營商網絡演進趨勢的新特性;支持在不影響業務轉發的情況下部署新功能/業務,實現無縫業務上線。C3NOS 支持完善的 L2/L3、Segment Routing、EVPN、VPLS、VPWS 等特性,同時支持 SRv6+EVPN+FlexE 等新 5G 特性,可靈活用于 4G/5G 以及大客戶專線業務的綜合承載設備上,滿足大帶寬、低時延、高質量的業務需求。經過對分布式解耦技術的深入研究與探索,中國電信將 C3NOS進行了深度的深化開發,包括底層硬件的適配、SAI 的擴展,以及協議棧和數據庫方面針對性的優化。根據分布式機框的原理,將 C3NOS分為了 C3NOS 控制面和 C
12、3NOS 數據面,C3NOS 控制面運行在分布式解耦機框中的主控側,完成路由的統一管理、協議棧處理、數據庫存儲,以及設備管理、拓撲管理等功能。C3NOS 數據面運行在分布式解耦機框中的線卡板/接口板與交換板側,主要完成底層硬件的適配與控制面的對接工作,接收來自控制面的表項消息并下發到芯片,以及上報給控制面設備狀態、接口報文統計等數據。圖 1-1 C3NOS 分布式網元網絡系統架構圖 目前 C3NOS 分布式網元操作系統已部署在中國電信多個應用場 4 景,包括高性能計算、承載網等。其中在高性能計算場景中,為高性能計算資源提供互聯網絡服務的是運行著 C3NOS 的分布式機框設備,通過搭建 32T
13、超高帶寬網絡互聯平臺為計算業務提供了穩定、可靠的網絡服務。1.2.2 紫金山實驗室紫金山實驗室 UniNOS 開放網絡設備開放網絡設備操作系統操作系統 UniNOS 是紫金山實驗室研制的新一代開放網絡設備操作系統。UniNOS 在開放網絡架構、異構適配多廠商芯片和適用多應用場景等方面,一直在積極探索、開拓創新。在開放網絡架構方面,UniNOS采用軟件容器化、中心數據庫和硬件無關性等開放設計,能快速引入新協議、第三方應用和行業強相關的定制化軟件功能,具備敏捷擴充先進網絡服務的強大能力,支持的網絡能力棧包含:SR MPLS、SRv6、EVPN、VXLAN、BGP、BGP-LS、OSPF、ISIS、
14、L2 協議、DHCP、DHCP SNOOPING、DHCP RELAY、NQA、QOS、ACL、COPP、802.1x、MAC 認證、ZTP、TELEMETRY、INT/IOAM等功能;在兼容異構芯片方面,該系統與硬件設備和芯片解耦,通過打造統一硬件適配平臺,已快速完成包含 Broadcom、Intel、Mellanox、盛科等國內外主流芯片廠商近 10 款不同能力不同場景芯片的適配工作;在多應用場景方面,該系統不僅可以滿足廣域網、城域網、接入網場景功能,還能滿足園區網絡和數據中心應用,力圖做到全場景覆蓋。5 圖 1-2 UniNOS 聚焦方向 目前,UniNOS 系統已經在長三角九個城市圈(
15、包括南京、蘇州、上海、鎮江、常州、無錫、揚州、泰州、南通 9 個城市)、PB 級算力數據中心等大規模環境中得到應用實踐,證明了其先進性和可用性??紤]到當前市場的白盒產品主要為盒式單芯片形態,其不足在于:設備健壯性較弱,當單芯片故障時整臺設備將無法正常工作;不易擴展,無法增加板卡數量實現網絡擴容;轉發性能低,單臺設備路由轉發條目低于 200 萬條;和匯聚、骨干網目標場景下網絡設備能力要求差距較大;而分布式解耦機框使用可靈活擴展的白盒集群搭建,在靈活性、擴展性、容錯性、冗余健壯性等方面具有顯著優勢,符合匯聚、骨干網場景的高性能設備要求,符合實驗室的研究目標。因此,UniNOS 積極支持對分布式解耦
16、機框架構的擴展,目標形成能運載于單個白盒和分布式解耦機框集群的融合統一開放網元操作系統平臺,構建更強大的未來網絡“新基座”。在支持分布式解耦機框架構過程中,紫金山 UniNOS 充分結合了對傳統機框、Disaggregated 和 Multi-ASIC 等設備形態的研究和研發經驗,借助 Linux 內核和數據庫發布/訂閱等通用機制,實現數據面和 6 控制面統一通道,并從架構上將協議控制面從白盒硬件中完全剝離出來,形成管控面和數據面多類不同 NOS 實例,使得總體架構具備簡化、彈性和易于擴展的特點。UniNOS 的管控面實例專注于對網絡的管理和控制,提供設備北向接口、機框可視化和豐富的網絡服務能
17、力;UniNOS 的數據面實例則專注于對設備硬件的統一抽象管理,能靈活快速適配多廠商異構硬件。不同工作實例間分工明確,解耦充分,有利于各實例能針對自身研發重點工作實現快速迭代、不斷創新。下圖1-3 為 UniNOS 支持分布式解耦機框系統邏輯視圖。圖 1-3 UniNOS 支持分布式解耦機框系統邏輯視圖 UniNOS 支持分布式解耦機框架構后,將首先被應用于長三角白盒主干網南京核心節點,該網絡節點的轉發容量將支持從 4T 到 768T的動態彈縮能力,并基于 VOQ/信元交換等先進硬件技術,大幅縮短 7 網絡轉發時延,提升網絡利用率,充分滿足匯聚、骨干網等目標場景下的網絡要求。1.2.3 Dri
18、venets Network Cloud DriveNets 是一家以色列網絡軟件創企,致力于簡化電信公司的網絡部署,幫助其解決如流量的指數級增長、5G 的部署以及低延時人工智能應用的新挑戰。DriveNets 公司的 Network Cloud 產品是業界第一個商用 DDC 產品,其研發了 DDC 設備的整套軟件,包括設備NOS、控制器軟件等,適配通用的白盒設備。從 2019 年至今,該公司已經完成 A 輪、A+輪和 B 輪三輪融資,獲得超 3 億美元投資。DriveNets Network Cloud 是電信級的 web-scale 網絡軟件2,完全改變了電信網絡的架構方式,使其更易擴展、
19、更易管理和更低成本。DriveNets Network Cloud 云原生架構運行在商用硅制造的白盒上,并從白盒中解耦,能夠支持世界上最大的核心和邊緣網絡。作為一個開放平臺,Network Cloud 支持與第三方服務集成,能和遺留網絡無縫集成,并易于遷移。作為全功能路由軟件棧,它運行在標準的 x86 CPU上,支持任何端口上的任何網絡服務。豐富的自動化和管理套件簡化了部署和管理,允許服務提供商在產能增長的同時更快推出服務,提高盈利。DriveNets Network Cloud 架構簡單靈活,支持多種部署模型。它可以運行在單個白盒上(獨立模式),也可以運行在多個白盒上(集群模式)。架構如圖
20、1-4 所示:8 圖 1-4 DriveNets Network Cloud 架構 Network Cloud 架構主要由 DNOS 和 DNOR 兩部分構成。DNOS 即DriveNets Network OS,是用 Docker 技術實現的分布式操作系統,并分布式地運行在下述邏輯組件組成的物理系統之上:(1)NCC:Network Cloud Controller,包含控制和管理平面,部署在獨立的白盒上或集群的裸金屬服務器或虛擬機上;(2)NCP:Network Cloud Packet Processing,負責數據路徑流量轉發過程和分布式邏輯,相當于機箱線卡;(3)NCF:Networ
21、k Cloud Fabric,負責連接集群中的所有 NCP,相當于一個機箱的交換結構;(4)NCM:Network Cloud Management,連接 NCP、NCF、NCC 的內部管理通道。DNOR 即 DriveNets Network Orchestrator,旨在自動化編排和管理整個 DriveNetsNetwork Cloud 解決方案,消除運營復雜性。它的主要任務是管理基礎設施的生命周期,包括 DNOS 的安裝、升級、配置和故障排除,以及管理基礎設施上運行的網絡和第三方服務。與此同時,DNOR 還提供了整個網絡云基礎設施的云資源和托管服務的可見性,可加快故障排除,提高可用性。9
22、 1.2.4 AT&T 分布式解耦機箱白盒項目分布式解耦機箱白盒項目 2019 年 9 月,AT&T 向 OCP 組織提交了分布式解耦機箱(DDC)白盒架構規范3。AT&T 旨在定義一組標準白盒硬件,構建網絡服務提供商級別的大規模路由器,范圍從單線卡系統到大型、分散的機箱集群。2019 年 11 月,AT&T 正式啟動從達拉斯到亞特蘭大的 400Gbps鏈路,該項目采用的正是 AT&T 向 OCP 提交的基于 DDC 架構的由博通 Jericho2 芯片構建的白盒設備。AT&T 的 DDC 白盒設計規范由三個關鍵構建塊組成,用于替代傳統的大容量路由器模塊化機箱設計:(1)線卡系統:支持 401
23、00G 業務端口,加上 13 個 400G 交換矩陣接口。圖 1-5 40100G 線卡系統(2)線卡系統:支持 10400G 業務端口,加上 13 個 400G 交換矩陣接口。圖 1-6 10400G 線卡系統 10(3)Fabric 系統:支持 48400G 交換矩陣接口的 Fabric 系統,包括更小的支持 24400G 交換矩陣接口的 Fabric 系統。圖 1-7 Fabric 系統 AT&T 提交的四種典型的 DDC 配置包括:(1)單線卡系統,支持 4Tbps 容量。(2)小型集群,由 1+1(提升可靠性)Fabric 系統和 4 個線卡系統組成,支持 16 Tbps 容量。(3
24、)中型集群,由 7 個 Fabric 系統和 24 個線卡系統組成的,支持 96Tbps 容量。(4)大型集群,由 13 個 Fabric 系統和 48 個線卡系統組成,支持 192Tbps 容量。線卡系統和 Fabric 系統之間的 Fabric 鏈路以 400Gbps 的速率運行,并使用基于信元的方式在多鏈路上轉發數據包。即使部分 Fabric鏈路故障,該系統設計也保證了可靠性。AT&T 認為這些設備的潛在應用領域是全球 IP 公共骨干(CBB)的邊緣(PE)和核心(P)路由器位置,用于承載網絡上所有 IP 流量。AT&T 公開表示:DDC 白盒的早期實驗室測試非常令人鼓舞。Broadco
25、m Jericho2 芯片具有深度且靈活的緩存設計,大表項支持多種路由規模,運營商級別的端到端隊列調度和滿足運營商當前和未來所需要的端口密度,Ramon 芯片可實現 DDC 設計的靈活水平橫向擴展 11 并提供極低的功耗,非常適合在運營網絡中廣泛的應用于模塊化硬件設計。圖 1-8 全球 IP 公共骨干(CBB)1.2.5 Broadcom StrataDNX 芯片芯片 博通(Broadcom)公司作為全球通信半導體創新解決方案領導者,其產品組合服務于多個關鍵市場,包括數據中心、網絡、運營商、軟件、寬帶、無線、存儲和工業市場等。博通網絡芯片主要分為 StrataXGS和 StrataDNX 兩個
26、家族。StrataDNX 產品線可支撐多種形態的網絡設備如機架式路由器交換機,集中式網絡設備,以及單獨芯片的盒式路由器和交換機,廣泛應用于運營商網絡,數據中心,行業網絡以及企業網絡中。StrataDNX 產品線細分為高速轉發芯片 Jericho 和高速轉發網板芯片 Ramon。除了作為線卡芯片和網板芯片廣泛應用于框式路由器和交換機,Jericho 和 Ramon 還能作為分布式解耦機框的基本組成元素。12 基于一顆或多顆的 Jericho 和 Ramon 芯片,可以靈活的設計 NCP 和NCF 的帶寬以及容量。Jericho 和 Ramon 芯片組成的分布式解耦機框架構可以充分利用 Strat
27、aDNX 芯片家族的全部功能,如:運營商級別的可擴展的大表項、集群內無阻塞轉發、基于 VOQ 的端到端調度、基于信元的負載均衡和基于 HBM 的可配置大緩存等。StrataDNX 產品是博通網絡芯片領域極具代表性的成熟產品,至今已經迭代了九代。通過最先進的制程技術快速迭代出業界領先容量和功能的芯片,為服務提供商提供的成本優化,部署靈活和低功耗選擇,引領網絡技術的進步。Jericho 和 Ramon 產品系列提供多種帶寬的選擇,足以滿足運營商和數據中心對分布式解耦機框架構當前和未來的需求,按需實現前所未有的端口及帶寬規模。1.2.6 SONiC 社區機框式白盒擴展設計社區機框式白盒擴展設計 20
28、20 年,SONiC 社區提出基于虛擬輸出隊列(VOQ)架構下的分布式轉發機框設計5??傮w架構包含以下幾方面:(1)分布式轉發機框的物理接口和 VOQ;(2)分布式轉發機框的邏輯接口,如鏈路聚合組(LAG);(3)分布式轉發機框的內部互連 Fabric;(4)分布式轉發機框的數據平面:實現報文轉發;(5)分布式轉發機框的控制平面:包括分布在機框交換白盒設備內部控制部分和機框通用服務器上運行的集中控制部分。13 圖 1-9 分布式轉發機框總體架構 目前,SONIC 系統針對分布式轉發機框的支持,提出了七個方面的修改思路:(1)系統全局視圖:為了使系統正確運行,需要新增系統全局視圖。該系統全局視圖
29、狀態保存在 SONIC SSI 實例中,所有 FSI 通過內部管理網絡連接到 SSI 中,從 Chassis Redis DB 中獲得該狀態。(2)SAI 接口擴展:在 SONiC 中實現基于 VOQ 轉發需要對 SAI接口進行進一步擴展。社區給出了 SAI 擴展建議以及部分定義。(3)Chassis DB:整個系統的所有全局狀態都存儲在一個新的Redis 實例的 SSI 中,該實例的數據庫名為“Chassis DB”,可通過內部管理網絡訪問。FSI 除了連接自己本地的 Redis 實例外,還連接到Chassis DB 實例來訪問和操作全局狀態。14(4)兩類芯片管理:ASIC(在 SONiC
30、 術語中也被稱為 NPU)和Fabric 芯片。ASIC 執行系統中所有的數據包接收、轉發、排隊和傳輸功能,Fabric 芯片負責將數據包從源轉發地移動到目的轉發地。ASIC通過內部鏈路連接到Fabirc芯片,Fabric芯片不參與報文轉發,初始化后不需要顯式配置。所有的芯片都是基于 SONiC 現有的 Multi-ASIC 范式進行管理,每個芯片都有一個 Syncd(和 SAI)、SWSS 和其他相關代理。(5)SONIC 實例命令和 ASIC 命名:每個 SONIC 實例都有一個全局唯一的名稱標識,例如 FSI 通常命名為“Linecard-N”,其中 N 是線卡設備的編號。對于轉發設備或
31、 Fabric 設備中的多塊轉發芯片,每塊芯片都對應一個 ASIC 名稱。這與任何多芯片 SONiC 設備中用來標識 ASIC 的名稱一致,在分布式轉發機框的所有轉發設備每塊芯片的命名要求全局唯一。因此,當應用于機箱名稱時,通常選擇“Linecard-N.K”,其中 K 是線卡內的 ASIC 編號。(6)四種類型端口的管理:本地端口,是直接連接到每個 FSI 的前向面板接口;系統端口,系統上的每個端口都需要一個全局表示;帶內端口,提供轉發引擎之間的控制平面連接,一端連接轉發模塊本地 CPU,另一端連接內部 fabric;Fabric 端口,是實現 DDC 內部交換矩陣互聯的端口。(7)三種故障
32、場景的預期處理:如果 FSI 故障,SSI 需要將相應的 FSI 所在硬件從轉發資源中拆除,避免故障組件導致流量損失;如果 FSI 和 Chassis DB 失去連接,導致來自其他 FSI 的轉發狀態無法 15 向本 FSI 傳播,為了避免流量損失,FSI 必須與鄰居斷開連接(如終止協議會話),避免任何流量通過該 FSI;如果 SSI 或 OS 系統故障,會導致所有 FSI 失去到機箱 DB 的連接,在所有 FSI 上執行與鄰居斷開連接(如終止協議會話)的操作,避免任何流量通過 FSI,最終實現整個系統與外部網絡斷開連接。1.3 分布式解耦機框的部署價值分布式解耦機框的部署價值 在網絡中選擇部
33、署分布式解耦機框,對網絡建設、運維及整體效率等方面有以下價值:網元設備價格降低網元設備價格降低:相關接口的標準化以及數控平面的解耦大幅減少了設備生產的門檻,使得更多的公司可以進入網元設備生產市場,促進了設備廠商之間的競爭,使得網元設備市場擺脫多家寡頭的格局,促進設備價格的降低。前期建設成本前期建設成本降低降低:使用傳統機框進行網絡建設時,服務提供商采購設備時不僅需要考慮現有網絡容量要求,還需留有一定余量以滿足后續網絡擴容。為此,服務提供商需要采購高性能網元設備,且這些設備需留存一定數量的插槽,這會導致服務提供商支出很多不必要的前期投資成本。采用 DDC 技術后,服務提供商可根據現有網絡容量需求
34、,購置可實現相應容量的白盒設備,由于降低了對單一高性能網元設備的需求,進而減少了設備采購成本。此外,服務提供商不需要預先考慮網絡未來容量需求,在網絡需要升級時,只需對白盒設備進行橫向擴展,便可滿足新的網絡需求??偟膩碚f,DCC 技術大幅減 16 少了服務提供商網絡建設前期成本投入,使得網絡容量可以隨需升級,加快了服務提供商投資回報周期。網絡擴容復雜度降低:網絡擴容復雜度降低:在進行網絡擴容的過程中,不需要將舊有網元設備的業務整體遷移至新網元設備。且,利用統一的控制平面可實現對網元設備的自動配置,減少了人為配置所導致的錯誤。網絡管理費用網絡管理費用降低降低:傳統機框內置了設備廠商所編寫的操作系統
35、,各網元設備之間存在較多差異導致對網絡管理、運維復雜。因此,機框的費用中默認附加了管理服務。而在控制平面使用統一的開放接口后,網絡的管理復雜度得到大幅減少,使得網絡管理者可通過 SDN、容器等技術較好實現自動化運維管理,降低相關管理支出。設備運行相關支出和功耗降低:設備運行相關支出和功耗降低:為配合傳統機框,機房往往需要對放置機框的地面進行加固,還會產生大量電力支出用于機框供電及散熱。采用 DDC 技術可有效降低對機房的要求,降低網元設備運行所帶來的額外支出。傳統的大容量框式設備使用機箱設計,需要購買機箱以及電源,風扇,和網板和控制器,即使沒有滿插線卡,機框也需要持續運行并產生相應的功耗。DD
36、C 將傳統的機箱系統拆解為了多個獨立運行的設備,并各自配有電源和風扇,按需部署的方式使得整個集群的功耗可控可預知。云原生帶來的網絡軟件靈活性增強云原生帶來的網絡軟件靈活性增強:不同層次的網元設備可以做到軟件基礎架構合一,可以按不同的應用場景,選擇啟動/關閉網元相應的軟件功能。兼容舊設備:兼容舊設備:采用 DDC 技術可以兼容現有網元設備,相當于將 17 分布式機框整體作為一個機框添加到已有設備中,增加了原有設備使用年限和資金利用率,從而保障了前期投資收益。集群路集群路由設計極其簡單由設計極其簡單:傳統的 Spine-Leaf 架構,每臺路由器或者交換機都是一個獨立的路由實體,對整網路由設計,路
37、由協議規模和故障造成的路由收斂速度提出很大的挑戰。DDC 架構雖然以 Spine-Leaf 的形式部署,但是作為解耦的框式設備,整個 DDC 集群是一個單一的路由實體,僅僅作為轉發中的一跳。整網路由設計簡單,收斂和規模不受限制,易于管理和運維。業務靈活調度:業務靈活調度:傳統流量調度需靠相關技術人員對單一網元設備進行配置,而采用 DDC 技術后,技術人員可通過集中式的控制平面使用可交互界面等更加友好的方式對流量進行全局調度,滿足不同業務的 QoS 需求,解決傳統網絡調度不靈活的問題。增加新型業務收入:增加新型業務收入:服務提供商可通過 DDC 技術快速部署網絡,并結合 VNF、SDN 等技術以
38、滿足當前時延敏感網絡、算力網絡、邊緣計算等新型網絡應用需求,擴展現有業務范圍,提升業務收入。18 二二、分布式解耦機框技術總體架構分布式解耦機框技術總體架構 隨著網絡功能的不斷演進,網絡設備逐漸成為一臺異常復雜龐大的系統裝置。設備要求的控制參數日益增多,內部交互流程及相互作用關系復雜,在不同的平面/模塊間造成了相互影響的耦合效應?!皬婑詈稀蓖斐上到y控制復雜、性能低下和擴展困難的問題。解耦就是要解除耦合多方的彼此影響,增強各自的功能獨立性,通過不斷減低的系統耦合度,降低系統的復雜性,增強系統的運行性能和擴展性。分布式解耦機框是對網絡設備形態解耦的全新探索。網絡設備由最早的 OEM 廠商研發生
39、產的軟硬一體化的黑盒設備,逐漸發展到通過開放標準接口實現軟/硬件解耦的白盒設備,再到最新出現的控制平面云化、數據平面能靈活擴展的分布式解耦機框,網絡設備形態正處在一個不斷解耦、不斷降低系統耦合度的變化過程中。圖 2-1 網絡設備演進 分布式解耦機框在架構上體現了以下特征:物理機框硬件解耦:物理機框硬件解耦:采用標準的白盒交換機替代原有物理機框線卡板和 Fabric 板,通過光纖互聯,轉發/交換組件獨立;采用標準的 X86 服務器做控制引擎,控制組件獨立;機框硬件進行全方位拆解。19 網絡網絡 OS 云原生化:云原生化:基于云原生架構原則和設計模式,將 OS 中的網絡服務從非業務代碼中最大化剝離
40、,采用云原生基礎設施接管網絡應用中大量的非功能特性(如數據中間件、彈性、熱遷移、安全),使網絡服務專注于協議本身,具備輕量、敏捷、更新升級簡便的特點。數據平面靈活數據平面靈活擴擴縮縮容:容:根據轉發容量的實際需求,基于 CLOS 架構,使用標準化、低成本白盒交換機構建可以水平擴展的數據平面,實現 DDC 轉發容量的驚人擴展力。硬件信元級負載均衡:硬件信元級負載均衡:線卡白盒和 fabric 白盒之間采用 fabric 端口互聯,引入信元級數據轉發、VOQ 隊列技術,保證線卡白盒-fabric白盒-線卡白盒間數據轉發無擁塞;分布式解耦機框在對機框系統深度解耦后可以增強各部分組件獨立工作、獨立修改
41、以及自主演進的能力,讓使用者對系統的各組件,網絡管控平面、數據平面,以及物理硬件上有更大的技術自由度、操作簡便性和靈活擴展性;構建靈活擴縮容轉發資源池的思想,借鑒了云計算 IaaS 層基礎設施層管理,使得分布式解耦機框的總體概念適合構建“網絡云”解決方案。2.1 分布式解耦機框硬件架構分布式解耦機框硬件架構 傳統的交換或路由系統通常將多組件集成至一個物理機框中,例如:線卡板卡、Fabric 板卡、主/備控制引擎,這些組件連接到單一背板,如果轉發流量增大,可以增加線卡板卡和 Fabric 板卡,提升整機轉發能力。但是,背板設計的每個組件的插槽數量是有限的,所以線 20 卡和 Fabric 卡擴展
42、能力有限,導致物理機框的轉發容量有限,擴容成本高。分布式解耦機框對物理機框的組件進行拆解,并做了如下映射:圖 2-2 分布式解耦機框與傳統機框組件映射 通過制作出兩類盒子,線卡白盒和 Fabric 白盒,每個白盒都配備了自己的電源,冷卻風扇,CPU,特定芯片(線卡轉發芯片或 Fabric芯片),使用行業標準光纜,以 CLOS 架構連接,支持可水平擴展的數據轉發平面??刂埔媾c數據平面分離,集中運行通用服務器上,采用云原生架構支持具體網絡協議、網絡服務的安裝、啟動、關閉、重啟、升級,按需配置定義轉發平面功能。下圖是一個分布式解耦機框搭建示例,構建了一個小型的分布式解耦機框物理環境,線卡白盒和 F
43、abric 白盒以及控制引擎運行的服務器資源都能靈活的彈性擴展:21 圖 2-3 分布式解耦機框搭建示例 CC:DDC Chassis Controller,機框控制器,分布式解耦機框的管控引擎,部署于 x86 服務器,可搭建為一主一備、一主多備模式。MSW:Management Switch,管理交換機,用于連接機框控制器、Fabric 白盒和 LineCard 白盒,采用 1G/10G 接口互聯,構建轉控互聯通道。FWB:Fabric White Box,Fabric 白盒,幫助業務流量從入向 LWB轉向出向 LWB,支持信元級負載均衡,Fabric 接口為 400G 接口。LWB:Lin
44、eCard White Box,線卡白盒,實現業務流量接入/輸出,Fabric 接口為 400G 接口,業務接口為 100G。2.2 分布式解耦機框分布式解耦機框 NOS 架構架構 隨著分布式解耦機框對物理機框各硬件部件拆解,運行于其上的網絡操作系統 NOS 軟件也需要做出相應的架構改造,NOS 分解為不同 22 的實例運行于不同部件上,不同實例的功能側重不同。下圖展示了分布式解耦機框 NOS 邏輯視圖。圖 2-4 分布式解耦機框 NOS 邏輯視圖 NOS 管控面實例主要運行于通用服務器上,是分布式解耦機框的總控軟件,劃分為三個層次,包含集中管控層、協議層和基礎設施層。集中管控層主要是分布式解
45、耦機框的用戶管理平面,包含可視化 WEB配置管理服務、傳統的 CLI 命令行配置接口、TELEMETRY 等設備運維功能以及豐富的對接網絡 SDN 控制器的設備北向接口。協議層運行豐富的網絡協議、網絡應用、第三方集成功能模塊等,體現了機框的網絡服務能力?;A設施層主要運行分布式解耦機框基礎組件,包含性 23 能優異的中心數據庫、機框管理模塊、端口管理模塊、報文通道和日志/告警通道等。數據庫作為數據中間件,統一存放了應用和協議模塊的業務數據、配置數據、狀態數據和配置 ASIC 芯片的關鍵信息等。NOS 數據面實例主要運行于轉發白盒和 Fabric 白盒上,是分布式解耦機框的數據面軟件,劃分為四個
46、層次,包含分布式協議層、基礎設施層、硬件抽象接口層和硬件驅動層。分布式協議層是一個可選層,如果不計劃在數據面進行分布式協議處理,該層次可略去,否則這里將駐留部分協議處理容器?;A設施層主要運行分布式解耦機框基礎組件,包含性能優異的中心數據庫、機框管理模塊、端口管理模塊、報文通道,完成和 NOS 管控面實例中的基礎設施層對接,除此以外還包含 ASIC 管理模塊,通過調用硬件抽象接口層完成對轉發芯片的設置。硬件抽象接口層是對轉發芯片功能的統一抽象接口,用于屏蔽轉發芯片的具體實現細節,實現軟硬件解耦,硬件抽象接口存在多種定義方式,當前發展熱度最高、功能抽象最全的要屬 SAI 接口定義。硬件驅動層主要
47、包含廠商芯片驅動接口、外設驅動接口和接口驅動,廠商應實現由硬件抽象接口轉換到芯片驅動接口的代碼,NOS 數據面開發可以不關注具體的廠商芯片驅動接口。2.3 分布式解耦機框切片架構分布式解耦機框切片架構 在網絡構建中,分布式解耦機框可以作為單一路由節點運行,也可以進一步通過資源切片的方式在同一套分布式解耦機框物理基礎設施上啟用多個網元邏輯平面。通過將資源池中的轉發資源和 x86 通 24 用服務器資源劃給多個切片路由器,實現基于單一基礎設施之上的融合網絡軟件平臺,達到更深度的資源虛擬化。圖 2-5 資源切片圖示 資源切片后,多個獨立網絡可以運行在統一的物理基礎設施上,通過容器為不同網絡實現軟隔離
48、,通過端口資源和轉發資源分配為不同網絡實現硬隔離。該方法通過統一融合的物理設施為多個用戶同時提供網絡服務,且不會產生沖突,提升了設備的利用率和復用率。25 三三、分布式解耦機框技術關鍵技術體系分布式解耦機框技術關鍵技術體系 分布式解耦機框技術涉及多個層次的相互配合,不僅包括硬件的選擇與適配,還包括多項新型網絡技術。為了加速分布式解耦機框技術發展,更好的推動該領域的技術研究與生態構建,本章將從機框管理、中央控制面、機框切片、數據面白盒化、數據面彈性擴容架構和交換網負載均衡技術六個方面介紹分布式解耦機框的關鍵技術點,與讀者共同交流和探討。3.1 機框管理機框管理 分布式解耦機框正向“網絡云”方向演
49、進,由于其軟硬資源進一步解耦及硬件資源的豐富性,管理相較單一物理機框更具復雜性。資源管理方面,需要注重總體機框軟/硬件資源狀態管理的維護。分布式解耦機框需要向用戶清晰展示機框內軟件運行情況,對運行在不同硬件組件上的關鍵容器、關鍵服務的列表和運行狀態進行維護和呈現;需要向用戶細粒度呈現虛機機框/設備/端口等分層資源信息視圖,并通過可視化手段展示機框內部組件拓撲連接關系,使用戶可以更直觀的了解到硬件組件的互聯情況。26 圖 3-1 機框資源管理 設備北向接口方面,分布式解耦機框傾向于使用豐富的開放網絡編程接口。通過對分布式解耦機框的數據模型推動建模,基于通用北向接口配置/傳輸協議,完成對分布式接口
50、機框的用戶面配置管理,以便更好地適用于 SDN 軟件定義網絡架構以及網絡自動化。圖 3-2 開放網絡編程接口 新型運維管理技術上,分布式解耦機框引入 INT 技術以及 ZTP 技術。INT 技術是在數據面可編程基礎上發展起來的為不同用戶和業務提供隨流檢測的一種網絡狀態采集新技術。該技術提出了一套可在數據報文轉發途徑設備上精準實時采集設備標識信息、網絡轉發信息、報文統計信息以及細粒度的隊列、緩存占用率等信息,定向高速實時 27 發送到數據中心的運維監控系統,實現能夠滿足網絡狀態測量、網絡失效檢測、故障定位與恢復等運維需求的智能運維測量框架。分布式解耦機框可以結合此技術向用戶更透明的呈現出虛擬機框
51、數據面集群內的細粒度實時數據。ZTP 技術,是指新出廠或空配置設備上電啟動時在無任何用戶干預的情況下采取的一種自動加載版本文件(包括系統軟件和配置文件)的功能。分布式解耦機框結合 ZTP 技術,可快速完成大規模資源池內組件的基礎運行版本下載,完成分布式解耦機框各組件的快速部署工作。3.2 中央控制面中央控制面 用盒式設備組成大型的 Clos 網絡,在互聯網公司或公有云公司已經比較常見,盒式設備組網不僅具備性價比高,功耗低,同時也具備靈活的橫向擴展性等優點。但是目前通過盒式組網的架構還是采用傳統分布式控制面,雖然通過控制器或者統一的運維腳本大大降低了針對每臺設備的配置工作,但是在整網路由控制面,
52、還是每一臺設備作為一個路由節點,需要通過各類路由域管理來縮小路由收斂和同步路由信息等工作,提高整網路由計算效率。而分布式解耦機框技術中偏向于中央控制面,即所有的接入轉發設備不再單獨運行路由協議棧,而是全由控制層的控制器/控制面統一完成,控制面完成路由協議等路徑學習相關處理。所有的接入轉發設備全部被動的從控制器接收表項,僅做“傻瓜式”的轉發動作即可。中央控制面不僅在配置上大大降低了運維人員的工作量,也降低 28 了配置出錯的概率,同時在路由層面,多臺設備僅運行一個路由控制面,對路由的收斂和傳播效率都大大的增加。以云數據中心場景為例,所有的服務器連接在接入轉發設備上,分布式解耦機框可根據服務器的數
53、量,靈活的增加接入轉發設備的數量,當將所有的服務器連接在一起之后,從控制面上看,即所有的服務器均連接在一臺機框設備上,所有服務器的路由均為直連路由,無需配置復雜的路由協議,就可實現大量的服務器三層互聯,并可通過靈活的 ACL 和 QoS 技術實現訪問控制和鏈路帶寬保障。中央控制面同時也帶來了技術上的一些難題,如多臺設備將本地學習的 MAC 上報的時候,控制面如何進行 MAC 的統一管理及機框分布式同步,跨版業務的硬件資源分配一致性等問題。3.3 機框切片機框切片 通過前文介紹,分布式解耦機框架構的設計理念是真正的將網絡的管控面與數據轉發面進行分離。開放的管控面可加載不同業務應用程序,例如防火墻
54、、負載均衡、DDoS 等軟件平臺。集成了不同類型應用的管控面,將數據轉發面看成是一套硬件資源池,為上層提供基礎的物理轉發平臺,通過中間控制層的轉換,實現對不同應用業務的適配。此時分布式解耦機框不再是傳統意義上的路由器和交換機,而是可以劃分為多種設備形態?;诠芸貙拥拈_放接口,用戶可以靈活配置不同業務應用程序,控制層應用程序接收到用戶指令后,通過對轉發層的硬件資源的靈活 29 調配實現上層應用的功能。例如一臺 DDC 內的轉發白盒設備,其中 10個端口可以用于應用層防火墻業務,這 10 個端口的配置由控制層進行定向配置,另外 10 個端口可用于交換機轉發業務,同理,其他設備端口可運行其他如負載均
55、衡、三層路由等業務,互不影響。圖 3-3 機框能力切片 3.4 數據面白盒化數據面白盒化 傳統網絡設備由 OEM 廠商生產,其中主要包括負責處理、轉發數據的芯片硬件以及控制操作邏輯的軟件,控制平面與數據平面緊密耦合于同一設備中。設備廠商出于對利潤的考量,會綜合考慮各服務提供商不同的需求對設備進行定制以滿足市場廣泛需求,這會導致一臺設備中包含眾多功能特性,而部分特性對于服務提供商來說毫無作用,增加了服務提供商運維人員操作設備的難度。此外,不同廠商、不同系列的交換設備對于運維人員來說就好像一個“黑盒子”,增加了運維管理的難度。30 而白盒設備由 ODM 廠商生產,對交換設備的硬件及其管理軟件進行軟
56、硬件解耦4。服務提供商可根據硬件標準化的設備匹配相應的控制軟件。相較于采用黑盒設備,在最終解決方案確認的過程中,服務提供商可以更具主導權。服務提供商無須根據需求去匹配廠商已有的設備,而是根據網絡需求選取一定數量的模塊化硬件并定制相應的控制軟件。白盒設備的提出,顛覆了傳統設備廠商主導網絡設備發展的局面并具有諸多優勢,具體展開如下:白盒設備由網絡服務商根據自身需求提出標準,因此白盒設備具白盒設備由網絡服務商根據自身需求提出標準,因此白盒設備具有開放、標準化等特點。有開放、標準化等特點。相較于傳統設備廠商利用其技術壁壘壟斷設備生產的局面,不同廠商均可根據標準進行生產,大幅降低了硬件生產的門檻。這使得
57、諸如 Intel 等已具備硬件生產基礎的非傳統網絡設備廠商和眾多初創企業能夠進入生產白盒設備的市場,使得白盒市場能夠充分競爭。這不僅刺激了白盒設備的創新活力,也使得白盒設備的價格能夠在競爭下維持一個合理的價格。此外,白盒設備大多采用模塊化設計,在生產過程中只需提供相應的軟件接口,不需根據服務提供商需求定制控制軟件,縮短了企業的研發周期,有利于快速商業化。在后續迭代中,可充分利用已有設計模塊進行迭代升級。同時,模塊化設計也使得白盒設備大幅精簡設備型號和分支數量,不需要根據網絡規?;蚴蔷W絡接入層、匯聚層等不同層的需求匹配不同的設備系列,能夠大批量地生產,增大網絡設備的產量及降低生產成本。同樣,得益
58、于白盒設備軟硬件解耦,白盒設備廠商能夠快速享受發展的 31 芯片成果,以最快速度將更先進的芯片應用于白盒設備生產中,專注于交換能力的提升,使其能夠提供更快更強的轉發能力。數據平面功能簡化,只需專數據平面功能簡化,只需專注于流量轉發,協議處理邏輯減少,注于流量轉發,協議處理邏輯減少,逐漸趨向瘦交換機的形態。逐漸趨向瘦交換機的形態。傳統網絡交換設備不僅需要對輸入的數據進行處理,其協議處理邏輯也集成于設備內,設備廠商在設備出廠前需要根據相關需求在設備中寫入代碼以支持不同的協議。而白盒交換機由于軟硬件解耦,使得協議處理邏輯上移至管理軟件中,白盒設備內無須預置協議處理邏輯。在將白盒設備部署后,通過相關標
59、準化管理接口便可實現對白盒設備的管理,只需使能管理平面上支持的協議,白盒設備接收已經計算出的轉發流表寫入數據面,只需專注于流量轉發,簡化了白盒設備功能。設備廠商的研發人員可利用此優勢,將設備研發聚焦于吞吐量和數據處理速度的提升,有利于實現白盒設備交換能力的突破。NOSNOS 更具開放性,可以快速支持新協議更具開放性,可以快速支持新協議。白盒設備通過硬件層開放抽象接口實現軟硬件解耦,可以選擇使用更具架構開放性的NOS(網絡操作系統)進行白盒控制。傳統網絡設備若要支持新的協議,需要在廠商已有代碼的基礎上增加對新協議的支持且需要在各個設備之間進行兼容。而白盒設備由于采用開放 NOS,只需通過在開放架
60、構上增加對協議的支持,便可快速實現新協議控制層。此外,軟件公司在操作系統開發上具有更大的優勢,在白盒設備分層以及各層接口明確后,傳統軟件公司或是新興公司可就網絡操作系統這一細分方向進行研發及商業化。參照軟件工程、敏捷開發等思想,網絡操作系統的拓 32 展性將更強,更能夠快速敏捷的支持新協議。相較于傳統網絡設備封閉、異構所導致的難以大規模部署新協議、兼容舊設備的弊端,統一的開放性 NOS 可以加快推進新協議的演進以適應未來網絡需要。數據面芯片可編程數據面芯片可編程。隨著數據面的發展,為了更加適應新的交換機流表處理方式和數據平面處理邏輯,不少廠商及研究機構向著可編程交換芯片做出了努力。起初的軟件定
61、義網絡理念通過以 OpenFlow為代表的南向接口協議以支持網絡管理者自定義流表,但對流表的定制都不能擺脫已有協議的限制,只能根據已有協議相關字段進行增刪,不能實現真正的可編程。隨著可編程網絡生態的快速發展,創業公司及傳統芯片巨頭都推出了自己的可編程芯片。數據平面可利用專用編程語言對編程芯片的控制來實現可編程。相較于南向接口協議,專用編程語言更加抽象和通用,可以如設計軟件般任意定義數據面邏輯。相較于原有軟件定義網絡主要集中在控制平面可編程,可編程芯片和協議無關編程語言的出現,使得網絡管理者可以自行定義交換機流表形式,賦予數據平面可編程的能力,將軟件定義網絡的概念延伸至網絡數據平面。圖 3-4
62、白盒產業生態 33 隨著白盒硬件設備的標準化以及相應的開源網絡操作系統的出現,白盒交換機已經具備產業化能力的網絡生態,并逐步走向成熟。在白盒交換機的產業生態中,由上游的設備提供商到下游的云服務提供商、運營商所構成的產業鏈已經初步形成。整個產業鏈圍繞自身已有積累和優勢,對白盒交換機產業進行布局:其中,設備提供商專注于提供白盒交換機解決方案;云服務商專注于研發網絡操作系統;電信運營商專注于借助白盒交換機進行網絡重構及業務創新。在開源生態方面,國內外幾大開源組織分別就幾大方向發力,包括:白盒設備硬件標準的制定、推進 SDN 相關技術在白盒交換機中的落地、重構以白盒交換機為主的網絡架構及基礎設施及數據
63、中心基礎設備。開放的開源生態及初步成熟的產業鏈使得白盒交換機得以蓬勃發展,各種基于白盒的解決方案及網絡技術不斷推陳出新。3.5 數據面彈性架構數據面彈性架構 3.5.1 數據面數據面 Clos 架構架構 Clos 架構由 Charles Clos 于 1952 年提出1,該架構起初應用于多級電話交換系統。隨后,該架構被用來解決網絡高速轉發問題。例如,單臺高端框式交換機路由器內部交換網絡優化時,針對 Crossbar架構部署規模有限、輸入輸出不靈活等缺點,轉為應用 CLOS 架構進行內部交換網絡設計。在所需的內部交換節點數量大幅減少的情況下,實現每個輸入輸出對之間存在冗余鏈路且可實現無阻塞交換的
64、能力。34 再如,近年來大型數據中心網絡架構中廣泛應用 Clos 架構,實現大規模網絡內任意服務器之間的無阻塞交換網絡,使 CLOS 這一古老架構再次大放異彩。DDC 數據平面轉發設備的搭建方式同樣使用 CLOS 架構。Clos 架構應用于 DDC 數據平面的核心思想是利用多個低成本、小規模的網元構建復雜的大規模、可擴展網絡。Clos 架構可分為胖樹架構和 Spine-Leaf 架構,由于 DDC 技術中采用的為 Spine-Leaf 架構,下文中的Clos 架構均專指 Spine-Leaf 架構。圖 3-5 DDC 數據平面 Spine-Leaf 架構 DDC 數據平面轉發設備搭建的 Clo
65、s 架構如上圖 3-5 所示:上方的各 Fabric 白盒為 Spine 節點,下方的線卡白盒為 Leaf 節點。從圖中可以看出,Spine 節點和 Leaf 節點采用全連接,任意兩個 Leaf節點之間的流量通信鏈路均為 Leaf-Spine-Leaf。其中 Spine 節點類似于三層 IP 網絡架構中的核心交換機,但不同于大型機箱式核心交換機,DDC 數據平面 Clos 架構中的 Spine 節點由高吞吐量、端口數量眾多、成本低廉的 Fabric 白盒替換,將網絡流量壓力從由少量 35 核心交換機負載轉變為由眾多 Spine 節點均衡分攤。3.5.2 數據面數據面 Clos 架構優勢架構優勢
66、 降低成本降低成本:整體架構由眾多小規模、低成本的網元設備構成,降低了對單個設備性能要求,相較于由高性能單體交換機箱有效削減了整體組網成本。便于擴展:便于擴展:當 Spine 交換機帶寬不足時,只需增加 Spine 節點數量,當 Leaf 節點接口數量不足時,只需增加 Leaf 節點數量。由于均為橫向擴展,相較縱向擴展不需額外考慮新增設備對整體網絡架構中其他節點設備的影響。簡化管理:簡化管理:由于 Spine 節點與 Leaf 節點之間采用全連接,兩個Leaf 節點之間存在眾多等價路徑,便于借助 ASIC 芯片的硬件技術實現 VOQ 和信元級負載均衡,無須軟件干預,在網絡擁塞時簡化流量調度。避
67、免帶寬浪費:避免帶寬浪費:傳統架構為了避免環路所導致的廣播風暴大多會開啟生成樹協議以避免形成環路。Clos 架構自身避免了環路的形成,不需開啟生成樹協議,從而能夠使得各鏈路帶寬得到充分利用。數據路徑短:數據路徑短:整個網絡架構更加扁平化,在同一個 Clos 架構中的兩個 Leaf 節點只需經過一個 Spine 節點便可進行通信,無須經過多個中間節點進行轉發,有效縮短通信路徑,降低時延??煽啃愿撸嚎煽啃愿撸河捎?Spine 節點與 Leaf 節點之間采用全連接,當某 36 一節點故障時,上層管理平面只需將原有經過該節點的流量轉移至其他節點,不會對整個網絡結構及穩定性造成影響,有效避免了因單一節點
68、故障導致網絡癱瘓。解除瓶頸限制解除瓶頸限制:傳統單一機柜式交換機交換性能受到背板交換能力及插槽數量的限制,當某一交換機成為限制網絡吞吐量的瓶頸時需要使用性能更高的機箱進行整體替換。使用理論上可無限擴展的分布式機框取代單一機柜式交換機,可以解除背板對單一交換機傳輸性能的限制,從而使得單一交換機性能不會成為整體網絡架構的瓶頸。網絡容量靈活:網絡容量靈活:根據不同的網絡需求,基于 Clos 架構可搭建出不同容量的網絡,可以滿足接入網、核心網、骨干網等不同場景對網絡容量的要求。更好滿足接入層需求:更好滿足接入層需求:隨著物聯網業務的興起、工業互聯網等概念的提出,對接入層端口數量的需求不斷激增,Clos
69、 架構能夠在不影響網絡原有架構的基礎上,只需增加 Leaf 節點數量便能滿足接入層端口數量的擴展。3.5.3 數據面容量計算數據面容量計算 下面通過選取三款白盒交換機硬件構建不同規模的 DDC 集群,直觀呈現出 DDC 數據面極具潛力的彈性擴縮容能力。選取的白盒交換機轉發芯片、轉發容量、業務端口和交換矩陣端口形態,如下表 3-1 所示:37 表 3-1 兩款白盒交換機硬件配置 白盒類型白盒類型 轉發芯片轉發芯片 業務端口業務端口 交換矩陣端口交換矩陣端口(FabricFabric 端口)端口)Fabric 白盒 Broadcom DNX Ramon N/A 48*400G QSFP-DD端口
70、Fabric 白盒(高密型)Broadcom DNX Ramon N/A 96*400G QSFP-DD端口 LineCard 白盒 Broadcom Jericho2c+144*100G QSFP28 端口;或 72*200G/36x400G QSFP-DD 端口 36*400G QSFP-DD端 當使用 1 臺 LineCard 白盒進行最小單元的網絡構建時,最后的系統容量為 1 臺 LineCard 白盒的業務端口容量之和,即 14.4Tbps。當使用 2 臺 LineCard 白盒背對背交換矩陣端口互聯,系統容量為 2 臺 LineCard 白盒的業務端口容量之和,即 28.8Tbps
71、 當使用 6 臺 Fabric 白盒及 8 臺 LineCard 白盒進行小規模單元的網絡構建時,每臺 LineCard 白盒通過 400G 的 Fabric 端口與每臺Fabric 白盒的 400G 端口互聯,形成全連接。最后的系統容量為 8臺 LineCard 白盒的業務端口容量之和,即 115.2Tbps。當使用 12 臺 Fabric 白盒及 16 臺 LineCard 白盒進行中等規模單元的網絡構建時,每臺 LineCard 白盒通過 400G 的 Fabric 端口與每臺 Fabric 白盒的 400G 端口互聯,形成全連接。最后的系統容量為16 臺 LineCard 白盒的業務端
72、口容量之和,即 230.4Tbps。當使用 36 臺 Fabric 白盒及 48 臺 LineCard 白盒進行大規模單元的網絡構建時,每臺 LineCard 白盒通過 400G 的 Fabric 端口與每臺Fabric 白盒的 400G 端口互聯,形成全連接。最后的系統容量為 48 38 臺 LineCard 白盒的業務端口容量之和,即 691.2Tbps。當然,也可以通過擴展 Fabric 白盒設備上 Ramon 芯片的數量構造高密型 Fabric 白盒設備,支持超大規模白盒進行超大規模單元的網絡構建。使用 36 臺高密型 Fabric 白盒設備及 96 臺 LineCard 白盒設備的超
73、大規模單元的網絡構建,每臺 LineCard 白盒通過 400G的 Fabric 端口與每臺 Fabric 白盒的 400G 端口互聯,形成全連接。最后的系統容量為 96 臺 LineCard 白盒的業務端口容量之和,即1382.4Tbps。構建不同規模的網絡所需設備資源、Fabric 互聯鏈路,以及所達到的系統容量如下表 3-2 所示:表 3-2 不同規模網絡設備配置 構建規模構建規模 設備資源設備資源 FabricFabric 互聯鏈互聯鏈路路 系統容量系統容量 最小單元 1(LineCard 白盒)N/A 14.4Tbps 背對背小單元 2(LineCard 白盒)N/A 288Tbps
74、 小規模單元 6(Fabric 白盒)+8(LineCard 白盒)400G 115.2Tbps 中規模單元 12(Fabric 白盒)+16(LineCard 白盒)400G 230.4Tbps 大規模單元 36(Fabric 白盒)+48(LineCard 白盒)400G 691.2Tbps 超大規模單元 36(Fabric 白盒高密型)+96(LineCard 白盒)400G 1382.4Tbps 從以上六個構建方案中可以看出:采用 Clos 架構進行分布式解耦機框構建,系統容量從最小單元 14.4Tbps 到最大單元 39 1382.4Tbps,體現了采用 Clos 架構后機框指數級容
75、量增長的潛力,大幅領先現有單機框式交換機的性能。值得一提的是,博通Jericho 家族提供多種帶寬芯片選擇,可以提供更小顆粒度的LineCard 白盒設備形態,均可以基于 Ramon 芯片的 Fabric 互聯,如上文 AT&T 使用的最小規模 4Tbps 的 Jericho2 芯片。3.6 交換網負載均衡技術交換網負載均衡技術 傳統機框一般采用了正交架構設計,雖然正交架構比較傳統的ATCA 機框有諸多優點,但是依然存在局限性:當存在多個交換網板時,從接口板/業務板收到的流量如需跨板轉發,或者跨芯片轉發,需要將報文轉發到交換板,由交換板通過查詢相關表項,找到出接口板。當機框有多個交換網板時,接
76、口板一般采用 HASH 算法選擇將報文轉發到某塊交換網板,同時為了保證報文到出口板不會出現亂序的情況,HASH 的模型選擇為逐流轉發。逐流即根據流量的 IP 五元組進行 HASH 計算,將一條流(IP 五元組相同)轉發到同一交換板。此模式可以很大程度解決接口板到交換板報文負載均衡的問題,但是逐流轉發模式也有天然的問題,當一條流的流量非常大的時候,逐流轉發模式會將流量轉到同一個交換板上,造成單個交換板的負載過載,其他交換板相對空閑。逐包轉發模式可以很好的解決這個問題,逐包模式即接口板將報文轉發到交換板時,將報文按照順序逐一的轉到不同的交換板,不會按照報文的 IP 五元組信息進行區分。此方式很好的
77、解決了逐流 HASH 模式不均勻的問題,但是逐包問題存在一個致命問 40 題,由于多個交換板之間有多條物理鏈路,就會產生同一數據流的第一個數據包在一個交換板的一條物理鏈路上傳輸,而第二個數據包在另外一個交換板的一條物理鏈路上傳輸的情況。這樣一來同一數據流的第二個數據包就有可能比第一個數據包先到達出口板設備,從而產生接收數據包亂序。鑒于逐流和逐包轉發模式的問題,很多廠商提出了改進方案,例如 Mellanox 的 InfiniBand 網絡,可以采用逐包模式,在出口板/出方向設備上,進行報文的排序工作,但是 InfiniBand 網絡方案無法兼容現有以太網。在以太網里,芯片廠商們也提出了相應的解決
78、方案,例如博通芯片,在 DNX Jericho 芯片和 Ramon 芯片中,加入了信元交換技術。Mellanox 的方案雖然在逐包模式上做了增強,但是在特定的情況,不同流的報文長度也不同,可能會造成比較大的報文轉發到了同一交換板的情況發生,博通的方案的是在接口板報文轉發到交換板的同時,將報文切分成等大小的信元,將信元逐個轉發到交換板,這種方式不僅徹底解決了逐流的問題,還將 Mellanox 逐包的方案進行了增強。41 圖 3-6 報文切分轉發圖示 42 四四、典型應用場景典型應用場景 4.1 5G 承載網場景承載網場景 承載網是運營商 4G/5G 網絡架構的主要組成部分,主要負責無線接入網和核
79、心網之間的流量回傳,承載網的技術不同運營商采用的也不盡相同。以中國電信舉例,承載網又稱 IP RAN,IP RAN 是指以IP/MPLS 協議及關鍵技術為基礎,主要面向移動業務承載并兼顧提供二三層通道類業務承載,以省為單位,依托 CN2 骨干層組成的端到端的業務承載網絡。在 IP RAN 網絡中主要包括接入層、匯聚層和核心層,而核心層又分為城域核心層、省核心層。隨著 5G 業務的發展,各大運營商開始布局新型承載網,新型承載網是面向未來新型網絡業務,基于SR-MPLS/SRv6、EVPN、網絡切片、確定性網絡等技術,對固網和移網業務進行綜合承載的新型城域網絡,其架構如圖 4-1 所示。圖 4-1
80、 新型承載網架構 43 新型承載網的主要業務場景共包括兩類,第一類是 5G 移動回傳業務,實現將基站流量接入到核心網網元;第二類為固網寬帶業務,包括家庭寬帶、IPTV、互聯網專線、VOIP 等業務等。與現有的網絡不同,新型承載網強調網絡協議與網絡功能的可編程、確定性、定制化、高性能需求,能提供軟硬切片和 QoS 保證的專線服務,分布式解耦機框因具備控制面的統一管理,以及硬件資源虛擬化等技術,正在弱化交換機和路由器的設備形態,從接入承載網絡到新型骨干網絡,分布式解耦機框可以做到全場景全兼容。5G 移動回傳業務涉及的網絡架構如圖 4-1 所示,分布式解耦機框主要可應用在接入部分和 UPF 部分。移
81、動回傳業務通過 MPLS/BGP L3VPN over SR/SRv6 隧道進行承載,部分需要專線承載的業務通過EVPN L2VPN over SR/SRv6 隧道進行傳輸。在保證電信級的網絡可靠性方面,運用網絡保護/恢復技術,在部署過程中要求設備支持主控冗余,支持 NSR 功能,VPN/EVPN FRR、Ti-LFA、SR-TE HSB 等功能。同時,要求支持 BFD、RFC2544、RFC1564 等層次化的 OAM 機制,實現故障的檢測和性能的檢測。為滿足業務確定性、高性能要求,設備需要支持 10GE、50GE、100GE 端口以及 FlexE 子端口,具備 SyncE、1588v2 等
82、時鐘同步、時間同步功能。綜上,針對 5G 回傳業務,設備需具備 NSR、硬切片、高精度時鐘同步等新型網絡的功能。固網寬帶業務涉及的網絡架構如圖 4-1 所示,分布式解耦機框主要可應用在骨干網傳輸部分。其中,寬帶業務采用控制面和數據面解耦的結構。在控制面中,網絡應用以 NFV 的形式部署于省或地市通信 44 云中。在數據面中,為滿足固網寬帶高可靠、高帶寬、確定性等業務需求,新型承載網引入 SR-MPLS、SR-POLICY、IGP for SR、BGP-LS 等多種新型協議,支持無縫 BFD 路徑快速檢測、故障快速保護倒換、全網路徑探測和性能測量等多種特性,實現電信級可靠性、確定性網絡傳輸質量保
83、障、智能運維、集中式算路引擎等功能。4.2 數據中心網絡數據中心網絡 數字經濟時代,算力正在成為一種新的生產力,數據中心作為算力的物理承載載體,已經成為推動數字經濟時代發展的新型基礎設施,具有空前重要的戰略地位。數據中心網絡分為數據中心內部網絡和數據中心 DCI 互聯網絡兩大組成部分,這兩部分網絡和分布式解耦機框技術相結合,給我們帶來了全新思考和啟發。4.2.1 數據中心內部網絡數據中心內部網絡 為應對體量龐大的云應用,數據中心網絡總體架構采用CLOS架構搭建,并通過云內SDN控制器實現網絡自動化和智能運維。數據中心網絡在物理拓撲上采用二級或三級CLOS架構構建,該架構拓撲結構明確,具備超強的
84、水平擴展能力,便于通過積木方式完成網絡水平擴展,應對不斷擴大的流量規模要求。在網絡彈性方面,CLOS架構本身的無阻塞多路徑并行轉發特性,使得相同網絡層次的物理鏈路具有完全相同的轉發意義,只要同層的網絡路徑還有部分正常,數據中心流量就可以繼續轉發,通過ECMP方 45 式提升了每條鏈路的利用率,也解決了網絡環路和網絡可靠性等復雜問題,增強了網絡彈性和魯棒性。下圖所示是一個典型數據中心網絡主體架構,在這個網絡中,所有的交換機被分為 Spine交換機、Server Leaf交換機、Border Leaf交換機三種不同的角色,交換機在不同位置上扮演不同角色,作用不同,所需具備的關鍵功能也有所不同。圖
85、4-2 典型數據中心網絡主體架構 關鍵組件技術路線要求:SDN控制器:通過VLAN、VXLAN或GENEVE等隔離技術實現多租戶網絡,利用上述技術快速實現算力服務器間的多租戶網絡部署和拆除。通過豐富的南向接口來控制軟、硬件數通設備上的租戶轉發信息。Spine交換機:該交換機承載來自Leaf設備的高速轉發流量,Spine交換機和所有Leaf層交換機進行Full-Mesh連接。Spine只用 46 于Underlay網絡匯聚,不做Overlay功能,網絡特性要求簡單,只要支持基本的三層網絡路由,如ISIS、OSPF、BGP或靜態路由等。Spine交換機的端口密度和轉發能力要求較高,需要有大量高密度
86、高速接口。當下行Leaf流量增長導致Spine交換機轉發帶寬不足時,可橫向擴展Spine交換機,實現靈活擴容。Server Leaf交換機:也稱Leaf交換機,負責計算服務器資源上的流量接入,Server Leaf交換機能為服務器提供可靠的接入方式,比如MC-LAG、堆疊或EVPN multihoming等,用來實現用戶流量接入的高可靠。在硬件Overlay的場景下,服務器Leaf交換機還要相應支持overlay網絡的搭建,提供VXLAN、GENEVA、BGP EVPN等Overlay網絡相關功能,提供多租戶網絡靈活搭建能力。Border Leaf交換機:也稱網關Leaf交換機,該網絡交換機是
87、業務對外提供服務的轉發通道,主要作用是實現南北向網關,一方面在數據中心內部域內建立業務流量的overlay通道,一方面需要實現內部流量到外部網絡的路由轉發,需要盡可能多地將資源劃分給三層路由表;同時設備自身最好能具備一定L4-L7服務能力,如NAT、LB等,實現網絡地址轉換、負載均衡等功能;設備還可以兼做LB、FW、WAF等旁掛專用網絡設備的接入交換機,將數據中心出入流量引導至專用設備,完成流量清洗、負載均衡等服務。數據中心網絡在當前應用中體現了超強的水平擴展能力、高帶寬、網絡彈性和魯棒性等優點。在流量負載分擔方面,也通過路由 ECMP的方法提升了鏈路可靠性,實現了一定的鏈路并發能力,但是這種
88、建 47 立于 ECMP 之上的鏈路并發能力還有可優化之處。首先,ECMP 選路是建立在單設備轉發路由表選路基礎之上的,為單跳行為決策,不能動態感知完整轉發路徑上的鏈路擁塞情況,無法實現端到端級別的流量合理調度。其次,基于路由 ECMP 的鏈路負載均衡是將業務流量按照五元組逐流 hash 到多條等價鏈路進行傳輸,由于業務流量的大小差異,以及發生 hash 沖突等算法原因,流量并不能絕對均衡的負載到多條鏈路上,容易導致部分鏈路擁塞、部分鏈路空閑,網絡總體利用率上不去,應用性能下降的問題。所以,在數據中心多路徑網絡環境下,如何實現高效的網絡流量負載均衡機制,就成為一個重要的研究方向。分布式解耦機框
89、數據平面在流量控制方面基于信元級的負載均衡的方案可以很好的解決傳統 CLOS 集群帶寬利用不均甚至鏈路阻塞的問題,將數據中心鏈路利用率提升到一個更高的水平,同時也實現了路徑流量動態分擔。分布式解耦機框數據平面還支持基于 VOQ 的端到端調度,實現無阻塞轉發。VOQ 技術在一個物理通道上面向多個輸出方向實現多個虛擬輸出隊列,因此可以實現對流量基于優先級調度,同時還可以支持交換網級的端到端流控。在 Ingress NCP,數據包經過分類和轉發查找,根據目的出端口進入虛擬輸出隊列。入口NCP不是將數據包推送到 NCF 和出口 NCP,而是通過VOQ機制與出口NCP聯動以查看是否有足夠的可用帶寬。如果
90、答案是肯定的,出口NCP將向入口NCP發出credit,入口NCP會將數據包分割成信元并在所有可用NCF之間進行負載平衡。該機制更像是根 48 據分布式解耦機框集群的出向帶寬情況合理的“pull”入向NCP的流量,而非傳統CLOS架構入向設備往出向設備“push”流量??梢奦OQ機制可針對端口級別進行速率適配,從而真正實現了無阻塞交換。圖 4-3 數據中心 IP Clos 流量轉發與 DDC 數據平面流量轉發 圖4-3示意了數據中心IP Clos流量轉發和DDC數據平面流量轉發的差異。在數據中心IP Clos架構下,數據中心業務的三個數據包需要轉發到另一個Leaf節點下的計算資源,網絡中存在的
91、紅色鏈路表示該鏈路已經擁塞,入向Leaf并未感知到該事件,在進行ECMP多路分發時數據包2被傳輸到了這一擁塞鏈路所連接的spine設備上,導致最終因為鏈路擁塞丟包,數據包2沒有到達出向Leaf。同樣的轉發需求和網絡環境,在DDC的基于VOQ的信元級交換架構下,數據通過VOQ機制能正確避讓擁塞鏈路,并通過更細粒度的信元傳輸,報文能毫無損失的傳輸到出向白盒設備。分布式解構機框架構中數據平面應用的轉發技術,解決了原數據中心IP Clos網絡架構中東西向業務流量端到端 49 調度缺失和流量負載不均的問題,能有效提升網絡利用率、增加網絡吞吐量、加強網絡數據處理能力、提升應用性能。4.2.2 數據中心數據
92、中心 DCI 互聯網絡互聯網絡 大型數據中心通常包含多個分支,由于各分支所處地理位置不同,需要通過網絡互聯起來,多地資源協同共同完成業務部署,這些數據中心分支間互通的網絡即稱為數據中心互聯(簡稱 DCI)網絡。該網絡的核心要義是建設大規模網絡之上的智能化定制交通,為各數據中心間流量構建專門的轉發面,負責數據中心間流量智能調度和快速轉發,基于可編程路由、確定性網絡、軟/硬切片和性能監測等領先技術,全面提升網絡路徑傳輸質量,實現路徑快速重建和流量工程管理能力。為不同類型云業務流量,實現服務區分,提供滿足不同傳輸 SLA 要求的高速遠距網絡,解決多云之間,以及多個異構環境間的互聯互通。當前 DCI
93、網絡的互聯帶寬高,多采用轉發容量高的機框式設備構建,網絡擴容存在困難:機框背板設計限制了最大轉發能力,增加設備擴容,面臨擴容成本高,設備利用率下降的問題;單臺機框為 1 米多高的巨無霸設備,電力功耗大,對機柜空間和電力要求高,一旦擴容,除非對機柜擺放位置和機柜電力提前做好規劃,否則難以部署。另外,單臺 DCI 設備接口數量大,轉發容量高,一旦出現故障,將對經過該設備的網絡流量產生重大影響,造成巨大的運營損失。將分布式解耦機框應用于 DCI 網絡構建,以其標準化小型白盒交 50 換機構建的可靈活擴展的轉發平面,可以不受基于機箱的系統空間和功率限制。每個集群配置實際上都是一臺轉發容量大小不同的路由
94、器,添加線卡白盒和 Fabric 白盒、獨立于數據平面擴展控制平面的容器、獨立于控制面擴展端口數量的分布式數據平面,這幾要素支撐了將DDC 系統快速擴展到幾乎任何容量的敏捷性。機框的接口數量巨大,但故障域在單個白盒設備,縮小了故障影響范圍,減輕了運維和管理上的難度。提高網絡的高可用性、可管理性,降低設備成本。4.3 HPC 計算計算 隨著互聯網和云計算的發展,作為計算載體的數據中心要求也越來越高,同時 AI 和大數據等計算業務的加持,讓數據中心不在是單純的增加服務器的數量來滿足業務計算要求,而是逐步轉移到對數據中心的規劃和設計層面上來,數據中心需要高性能的計算能力才能滿足現網的業務發展需求。高
95、性能計算(HPC,High Performance Computing)在計算領域得到了普遍的應用。高性能計算顧名思義就是通過集群計算,將多臺具備計算能力的服務器并行工作,增加整體的計算能力。集群服務器可以提供很好的可擴展性、冗余性等優點。由于 HPC 能準確的計算出結果,有助于解決商業和科學研究等業務的需求,所以現在 HPC 被越來越多的數據中心采用,很多數據中心對 HPC 業務也是單獨的進行物理部署。HPC 業務中需要一個計算集群支持多種類型的數據流,在同一集 51 群中可同時采用不同類型的互聯網絡,一般這些網絡又擁有各自的網絡協議,這就意味著,網絡性能和特性會有不同。對于高性能計算需求,
96、各種高速的 I/O 標準相繼登場,例如 RDMA 技術,RDMA 是 Remote Direct Memory Access 的縮寫,意思是遠程直接數據存取,是為了縮短網絡傳輸中服務器端數據處理的延遲而產生的。RDMA 是通過網絡把資料直接傳入計算機的存儲區,將數據從一個系統快速移動到遠程系統存儲器中,而不對操作系統造成任何影響,這樣就不需要用到多少計算機的處理功能。它消除了外部存儲器復制和文本交換操作,避免了過去由系統先對傳入的信息進行分析與標記,然后再存儲到正確的區域的過程,因而騰出總線空間和 CPU 周期用于改進應用系統性能。在采用了 RDMA 技術后,HPC 計算對網絡也提出了更高的要
97、求,對轉發時延、丟包率都提出了嚴格的要求,InfiniBand 就是專門為了應用 RDMA 技術的網絡方案,InfiniBand 技術是一種開放標準的互聯網絡技術,是一種將服務器、網絡設備和存儲設備連接在一起的交換結構的 I/O 技術,InfiniBand 網絡的解決方案也是目前 RDMA 中常用的方案。InfiniBand 網絡方案采用的協議是專用協議,所以方案中需要使用專用的智能網卡、交換機、互聯線纜,目前市面上比較成熟的就是 Mellanox 廠商的產品,因方案不能與傳統的以太網直接互聯,并且對應提供的產品和方案的廠商也是風毛菱角,所以方案不僅價格比較高昂,且后期投入的運維成本也較高。因
98、為 InfiniBand 網絡方案的弊端,以及傳統的以太網技術依然 52 占據主導地位,在 IETF 發布了的 DCB(Data Center Bridging)標準中,基于 RDMA 的無損網絡得以解決,以太網終于在專有網絡領域有了自己的標準,同時也提出了 RoCE(RDMA over Converged Ethernet)的概念,經過版本的升級(從 RoCEv1 到 RoCEv2),RoCE 已經具備為以太網絡提供端到端無損零丟包及超低延時的能力。RoCE的技術方案是將以太網通過 PFC 和 ECN 技術進化成“無損網絡”,用來支持在以太網上承載 RDMA 業務。RoCE 網絡方案需要網絡
99、具備 PFC 和 ECN 功能外,還需要網絡設備具備大 Buffer,低時延轉發的要求,在傳統數據中心,一般都采用普通的盒式交換機和框式設備組成,通過整網配置 PFC 和 ECN 可滿足無損的要求,但是在實際部署中,需要結合業務特征調整 PFC/ECN 的水線,達到低延遲無損的同時,也要注意流控對整個集群對吞吐的影響,并需要考慮大帶寬以解決流轉發 hash 極端化的情況。分布式解耦機框方案也可應用在 HPC 的計算場景,不僅支持 PFC和ECN功能,還很好滿足HPC/AI/ML等RDMA業務特征對網絡的需求,提供單跳無阻塞轉發,極高的鏈路利用率,端到端的隊列調度,以及極低的時延和便捷的管理。鏈
100、路利用率高:鏈路利用率高:HPC/AI/ML等RDMA業務其流量特征往往是由較少數量的流組成,但是每條流的帶寬較大,持續時間也較長。這樣的流量模型對傳統基于五元組逐流轉發的ECMP負載均衡帶來了巨大的挑戰。傳統的Spine-Leaf架構基于流的五元組進行ECMP負載均衡轉發,很容易把一條大容量的流哈希到一條鏈路上,而Spine-Leaf之間其他 53 鏈路空閑,這就需要預留出較大的帶寬并合理設置收斂比。在極端情況下,還會造成某些鏈路擁塞而觸發流控,影響業務FCT(Flow Completion Time).DDC架構線卡設備和矩陣設備之間的ECMP轉發是基于信元而不是流,即使同一個五元組的大流
101、量進入DDC集群,也可以在入向設備上被分割為信元,均勻的hash到Spine-Leaf之間的不同鏈路上,整網鏈路利用率極高,帶寬設計不受限提供極高的性價比。無阻塞轉發和端到端的隊列調度:無阻塞轉發和端到端的隊列調度:在分布式解耦機框中,部分芯片支持 VoQ 技術,結合芯片的緩存可以在入向設備上分布的緩存突發流量,而不是都涌向出向設備,并基于 credit 實現端到端的調度以及靈活的隊列控制。此技術原理如下:1.入向接入轉發設備對報文進行查表操作,當判斷出接口不在本板時,芯片調度器會向出接口板的端口申請 credit 通知,通知出接口端口有數據要發送;2.當出接口收到 credit 通知后,會進
102、行資源的判斷與分配,只有出端口有足夠帶寬資源時,才會給入向端口分配 credit;3.入向端口收到 credit 后,開始轉發數據包到出端口;4.出端口沒有資源轉發時,不給入端credit,入端口沒有 credit不能轉發數據到出端口,而是在本地進行緩存,直到申請到了credit,實現了報文的分布式緩存機制,從而避免 fabric 內丟包。54 圖 4-4 VoQ 機制 在 HPC 應用中,通常會出現多個服務器/GPU 的流量到達相同目的服務器/GPU 的情況,形成 many-to-one 的通信模式,造成網絡Incast 現象。傳統的 Clos 架構只能通過出向設備的緩存去吸收Incast
103、流量,超過水線則觸發 PFC/ECN 等流控機制。頻繁的流控會影響整個集群的轉發性能和業務完成時間。VOQ 機制可以有效的提供入向分布式數據包緩沖區,分布式的吸收 Incast 流量,而不是把壓力都推向出向設備,把整個集群的轉發性能受 Incast 流量的影響降到更低水平。55 五五、實踐案例實踐案例 5.1 紫金山長三角白盒主干網核心節點紫金山長三角白盒主干網核心節點 DDC 部署方案部署方案 為滿足全息通信、天地一體化網絡、泛 IoT 及安全等方面需求,針對當前我國互聯網體系結構在擴展性、安全性、實時性、移動性、管理性等方面存在的重大技術挑戰,紫金山實驗室主導構建了一套長三角一體化網絡試驗
104、設施與平臺,服務網絡 2030 新型體系架構的創新試驗驗證。紫金山實驗室長三角一體化網絡拓撲由兩個平面進行構建,一個是 SDN 平面,一個是白盒主干網平面。其中白盒主干網平面完全采用裝載自研 UniNOS 系統的白盒交換機搭建,具備 SDN 能力、北向開放能力和軟硬件解耦能力,服務于科學試驗用戶。該平面基于光傳輸網絡和交換設備,建成連接江蘇省及泛長三角地區主要城市的主干網絡,首批接入:南京、鎮江、揚州、常州、無錫、蘇州、泰州、南通、上海 9 個城市,以這些城市節點輻射各市下屬轄區,提供邊緣網絡和接入服務。整體組網以南京、蘇州兩個城市為主干網的核心節點,其他7 個城市作為區域節點雙歸接入核心節點
105、。56 圖 5-1 紫金山實驗室長三角白盒主干網平面 當前,紫金山實驗室正在對分布式解耦機框進行整體研制,已經完成硬件選型、方案設計和關鍵功能開發,正處在技術測試的最后階段。計劃在今年年底,對現有長三角白盒主干網進行網絡升級,將分布式解耦機框試點應用于現網網絡,將南京核心網絡節點從傳統網絡架構演進成分布式解耦機框架構。57 圖 5-2 南京核心節點傳統網絡與 DDC 架構 通過 DDC 架構,南京核心節點在網絡轉發容量上具備更大的彈縮范圍,體現了巨大容量潛力,在數據平面能提供基于信元交換無阻塞轉發能力,為科研用戶提供更優質的 SLA 網絡服務質量。5.2 HPC 測試案例測試案例 HPC 是分
106、布式解耦機框非常重要的應用場景,分布式解耦機框通過無阻塞、低時延的轉發架構、VoQ、Cell 交換等技術加持,實現了比傳統方案更優的總體轉發性能和極高的帶寬利用率,下面描述的是一則 HPC OpenMPI Benchmark 測試案例。測試設備類型:1)接入轉發設備(NCP):Edge-Core 550(基于博通 Jericho2 芯片)58 2)信元交換設備(NCF):Edge-Core 580(基于博通 Ramon 芯片)3)控制面服務器(NCC):HPE DL380 Gen10 4)管理互聯交換機(NCM):H3C S6850-56 測試網絡拓撲:圖 5-3 測試網絡拓撲 64 臺服務器
107、分為 4 組,連接到 4 臺的 NCP 上,4 臺 NCP 分別連接到 2 臺 NCF 上。其中服務器通過 100G 端口與 NCP 互聯,NCP 與 NCF之間采用 400G 鏈路互聯。測試目的:測試分布解耦機框在 OpenMPI Benchmark 測試中,對不同 Meassage Size(4M、100M、200M)的最終處理完成時間。測試步驟:1、通過腳本同時在 64 臺服務器上開始運行 OpenMPI 的 All2All測試用例,測試的 Message size 設為 4MB。用例運行結束后,記錄完成時間,采集服務器端口的計數器,NCP 和 NCF 的端口計數器,服務器的 NCP 端
108、口的 PFC 計數器。59 2、測試的 Message size 設為 100MB。用例運行結束后,記錄完成時間,采集服務器端口的計數器,NCP 和 NCF 的端口計數器,服務器的 NCP 端口的 PFC 計數器。3、測試的 Message size 設為 200MB。用例運行結束后,記錄完成時間,采集服務器端口的計數器,NCP 和 NCF 的端口計數器,服務器的 NCP 端口的 PFC 計數器。測試結果:圖 5-4(a)不同 Message size 的任務完成時間測試結果 如圖 5-4(a)所示,通過觀察 3 次不同 Message Size(4M、100M、200M)的任務完成時間,可以
109、判斷出在分布式解耦機框多項技術加持下,HPC 業務的總體性能相對于傳統方案,隨著 Message Size 的增大,時間優勢更加明顯,大大的提高了 HPC 業務的處理效率。4MB100MB200MBAverage Job Completion TimeDDCClassic 60 圖 5-4(b)不同 Message size 的帶寬利用率測試結果 在本測試中還可觀察到,如圖 5-4(b)所示,DDC 架構下的帶寬利用率要明顯高于傳統方案,由于分布式解耦機框架構是基于 cell 轉發,可實現非常均勻的鏈路負載均衡效果,不會出現某些大流哈希到某一條鏈路帶來的擁塞,并大大提高有效帶寬利用率。這一點也
110、可以通過觀察集群中設備接口出入方向的流量分布得到進一步的驗證。下圖 5-4(c)為測試中兩臺 NCF 設備端口出入方向的流量統計情況,可見基于信元轉發的流量負載極其均衡。4MB100MB200MBCalculated Effective BandwidthDDCClassic 61 圖 5-4(c)NCF 設備端口出入方向流量統計情況 62 六六、未來網絡分布式解耦機框技術發展建議未來網絡分布式解耦機框技術發展建議 大數據、人工智能、機器學習、5G 通信、遠程醫療、4K/8K 視頻等新業務形態層出不窮、日新月異,使得網絡基礎設施面臨的規模、性能問題越來越突出,網絡運維的難度越來越大。分布式解耦
111、機框技術提供了一種顛覆原有網絡架構的思路,可實現網絡基礎設施硬件統一架構、轉發容量靈活擴展、軟件功能快速引入、網絡單 bit 轉發成本降低等多方面的提升,實現總體網絡“降本增效”。為了推動分布式解耦機框的技術落地,促進網絡技術的發展和變革,本文針對分布式解耦機框技術的發展提出以下建議:聚焦分布式解耦機框聚焦分布式解耦機框關鍵技術及關鍵技術及難點技術難點技術進行攻關與突破。進行攻關與突破。重點突破機框管理、統一控制面、控制面微服務化、機框內部通信通道、數據面白盒化、數據面彈性擴容架構、交換網負載均衡等關鍵技術,支撐多樣化網絡需求,搶占技術創新高地,引領網絡架構形態變革。逐步逐步構建構建包含網絡高
112、級應用、網絡云化包含網絡高級應用、網絡云化 N NOSOS、白盒交換機和、白盒交換機和 A ASICSIC配套芯片在內配套芯片在內的的分布式解耦機框分布式解耦機框生態體系生態體系。通過建立網絡細分行業,促進各行業的快速創新和繁榮,堅持查缺補漏,補齊短板,集中資源攻克交換芯片“卡脖子”技術,支撐分布式解耦機框前沿技術,構建開放、多元、共贏的網絡生態環境。加強加強分布式解耦機框分布式解耦機框應用應用實踐實踐,開展基于重大場景的一系列示范開展基于重大場景的一系列示范應用應用。分布式解耦機框的實踐探索當前還處在初級階段,國內網絡中還鮮有對該技術的部署和應用。需要加強面向新型承載網、數據中心、63 HP
113、C 等重大場景的示范應用成果輸出,開展核心技術在這些重大場景的一系列示范應用。通過加強技術和示范應用的發展和推廣,整合我國電信運營商、設備廠商、互聯網公司、研究機構及人才的資源優勢,集中力量創造適應經濟社會長遠發展的未來網絡,賦能國家新基建和新產業發展。64 附錄 A:術語與縮略語 中文中文名稱名稱 英文縮英文縮寫寫 英文全拼英文全拼 訪問控制列表 ACL Access Control List 應用型專用集成電路 ASIC Application Specific Integrated Circuits 先進電信計算架構 ATCA Advanced Telecom Computing Arc
114、hitecture 雙向轉發檢測 BFD Bidirectional Forwarding Detection 邊界網關協議 BGP Border Gateway Protocol 命令行界面 CLI Command-Line Interface 中國電信下一代承載網 CN2 ChinaNet Next Carrying Network 控制面板策略 COPP Control Plane Policing 數據中心橋接 DCB Data Center Bridging 分布式拒絕服務 DDoS Distributed Denial of Service 動態主機配置協議 DHCP Dynami
115、c Host Configuration Protocol 等價多路徑路由 ECMP Equal-Cost Multi-Path 顯式擁塞通知 ECN Explicit Congestion Notification 下一代虛擬專用網絡 EVPN Ethernet Virtual PrivateNetwork 靈活以太網 FlexE Flexible Ethernet 高性能計算機群 HPC High Performance Computing 基礎設施服務平臺 IaaS Infrastructure as a Service 物聯網 IoT Internet of Things 中間系統到中
116、間系統 ISIS ISIS-Intermediate System to Intermediate System 帶內網絡遙測 INT Inband Network Telemetry 帶內操作管理維護 IOAM Inband Operation Administration and Maintenance 鏈路聚合組 LAG Link Aggregation Group 負載均衡 LB Load Balance 介質訪問控制 MAC Media Access Control 多協議標簽交換 MPLS Multi-Protocol Label Switching 網絡地址轉換 NAT Netw
117、ork Address Translation 網絡質量分析 NQA Network Quality Analysis 不間斷路由 NSR Non-Stopping Routing 操作維護管理 OAM Operation Administration and Maintenance 開放計算項目 OCP Open Compute Project 原始設計制造商 ODM Original Design Manufacturer 原始設備制造商 OEM Original Equipment Manufacturer 開放式最短路徑優先 OSPF Open Shortest Path Firs 協
118、議無關的可編程包處理器 P4 Programming Protocol-independent Packet Processors 65 基于優先級的流量控制 PFC Priority-based Flow Control 服務質量 QoS Quality of Servic 無線接入網 RAN Radio Access Network 遠程直接數據存取 RDMA Remote Direct Memory Access 交換機抽象接口 SAI Switch Abstraction Interface 軟件定義網絡 SDN Software-defined Networking 云開發網絡軟件
119、SONiC Software for Open Networking in the Cloud 基于 MPLS 轉發平面的段路由 SR-MPLS Segment Routing MPLS 基于 IPv6 轉發平面的段路由 SRv6 Segment Routing IPv6 服務器系統架構 SSI Server System Infrastructure 交換狀態服務 SWSS Switch State Service 用戶平面功能 UPF User Plane Function 網絡功能虛擬化 VNF Virtualised Network Function 網絡電話 VOIP Voice o
120、ver Internet Protocol 虛擬輸出隊列 VoQ Virtual Output Queue 虛擬專用局域網業務 VPLS Virtual Private Lan Service 虛擬專線業務 VPWS Virtual Private Wire Service 虛擬可擴展局域網 VXLAN Virtual eXtensible Local Area Network Web 應用防火墻 WAF Web Application Firewall 零接觸配置 ZTP Zero Touch Provisioning 66 參考文獻 1 Ruijie Networks.CLOS 架構新一代
121、數據中心的網絡架構EB/OL.(2012-10-24)2022-7-15.https:/ DriveNets.INTRODUCING DRIVENETS NETWORK CLOUD:From Traditional Chassis to Disaggregated Software-Based NetworkingR/OL 3 AT&T.AT&T Submits White Box Design to the Open Compute ProjectEB/OL.(2019-9-27)2022-7-15.https:/ 4 網絡通信與安全紫金山實驗室.未來網絡白皮書:白盒交換機技術白皮書(2021 版)R/OL(2021-6)5 SONiC.Distributed Forwarding in a Virtual Output Queue(VOQ)ArchitectureEB/OL.(2020-9-17)2022.7.15.https:/