《開放數據中心委員會:DDC技術白皮書(2021)(29頁).pdf》由會員分享,可在線閱讀,更多相關《開放數據中心委員會:DDC技術白皮書(2021)(29頁).pdf(29頁珍藏版)》請在三個皮匠報告上搜索。
1、 DDC 技術白皮書 編號 ODCC-2021-03002 開放數據中心委員會 2021-09-15 發布 ODCC-2021-03002 DDC 技術白皮書 i 目目 錄錄 前 言.iii 版權說明.iv DDC 技術白皮書.1 1.項目背景.1 2.項目目標.2 3.專用術語.2 4.DDC 方案論證.2 4.1.DDC 的行業現狀.2 4.2.應用場景.3 4.3.DDC 技術原理.3 4.4.DDC 方案.4 4.4.1.DDC 芯片說明.5 4.4.2.組網結構.6 4.4.3.DDC Cell 交換原理.7 4.5.CLOS 架構方案.8 4.5.1.芯片說明.8 4.5.2.組網
2、結構.10 4.5.3.組網分析.13 4.6.DDC 設備在 DCI 網絡的組網方式.14 4.7.DDC 與 CLOS 方案對比.15 4.8.論證結論.15 5.DDC 產品研發.16 5.1.設備 OS 功能需求.16 5.2.DDC 硬件設計.19 5.2.1.Fabric 設計.19 ODCC-2021-03002 DDC 技術白皮書 ii 5.2.2.Forwarder 設計.19 5.2.3.管理模塊設計.20 5.3.Fabric 互聯.20 5.4.功耗和機柜空間需求.21 5.5.DDC 自研 OS 系統.22 5.5.1.SONiC 社區對多芯片分布式轉發架構的支持情況
3、.22 ODCC-2021-03002 DDC 技術白皮書(中文版)iii 前前 言言 隨著大數據、AI、云業務的不斷發展,DCI 網絡的流量飛速增長,近幾年正在以 50%100%的速度快速增長,這對 DCI 網絡的設備造成巨大的壓力。傳統的機框式交換機隨著交換芯片技術的不斷提升,交換容量越來越大,端口從 100G 逐步過渡到 400G。但隨之而來的是交換機功耗的大幅提升,16 槽位的機框交換機,全 400G 端口需要 4-5 萬瓦的電力供應,這對老機房的設備迭代升級帶來巨大挑戰,部分機房機柜電力無法滿足需求。DDC 技術通過對大機框設備進行分布式解耦,采用白盒盒式交換機作為轉發線卡和交換網板
4、,靈活分布式部署在多個機柜,解決 DCI 網絡的升級迭代問題。同時,DDC 可組建更大規模交換容量集群,不受機柜最大空間限制,突破機框交換機的容量瓶頸。本白皮書的內容涵蓋 DDC 方案的原理、組網分析、硬件形態設計以及自研OS 系統路線。DDC 設備是未來骨干網設備迭代的一個方向,我們將持續推動 DDC 設備的研發以及在 DCI 網絡的落地應用。起草單位:百度時代網絡技術(北京)有限公司、中國信息通信研究院(云大所)起草者:王維 ODCC-2021-03002 DDC 技術白皮書(中文版)iv 版權說明版權說明 ODCC(開放數據中心委員會)發布的各項成果,受著作權法保護,編制單位共同享有著作
5、權。轉載、摘編或利用其它方式使用 ODCC 成果中的文字或者觀點的,應注明來源:“開放數據中心委員會”。對于未經著作權人書面同意而實施的剽竊、復制、修改、銷售、改編、匯編和翻譯出版等侵權行為,ODCC 及有關單位將追究其法律責任,感謝各單位的配合與支持。ODCC-2021-03002 DDC 技術白皮書(中文版)1 DDC 技術白皮書技術白皮書 1.項目背景項目背景 當前 DCI 網絡采用大機框式設備有以下弊端:擴展能力差,機框大小限制了最大的轉發能力,擴容機框,機柜電力難以滿足要求;設備功耗大,機框內線卡都是多芯片,網板、風扇等都需要消耗大量電力,對機柜電力要求高;單設備端口數量高,故障域大
6、 DCI 的架構升級迭代困難,需要有更靈活的組網方案,更易擴展,更易維護。新的設備形態思考:DDC-distributed disaggregated chassis,將大機框分解,采用盒式交換機搭建大轉發能力 DCI 角色設備。圖 1 DDC 結構 DDC 的優勢:ODCC-2021-03002 DDC 技術白皮書(中文版)2 單設備功耗低,分散部署,無需高電機柜;縮小故障域,單臺設備故障影響范圍更??;分平面集群設計,容量更大 便于自研開發,統一管控;2.項目目標項目目標 DDC 項目的規劃目標:提升 DCI 網絡設備的可用性,單設備故障影響范圍由 25%降至 6.25%部署周期從周級降至小
7、時級 單平面核心交換機 NOS 一致,具備端到端運維可視化的硬件能力 3.專用術語專用術語 如下是本文檔涉及的專業術語說明:ASN Autonomous system number,BGP 的自制系統號 BGP Border Gateway Protocol CLOS 一種用小型交換機組建的多級無阻塞交換網絡架構,命名由Charles Clos 博士的名字而來 DDC distributed disaggregated chassis ES Edge Switch 對 RC 至 SC 互聯做帶寬匯聚收斂 ISIS Intermediate system to Intermediate syst
8、em 協議,IGP 路由協議 RC Regional Core 區域核心 SC super core,超級核心角色 VOQ virtual output queue 4.DDC 方案論證方案論證 4.1.4.1.DDC 的行業現狀的行業現狀 DriveNets 公司的 Network Cloud 產品是業界第一個也是唯一一個商用的DDC 產品。DriveNets 研發 DDC 設備的整套軟件,包括設備 OS,控制器軟件等,DDC 軟件適配通用的白盒設備。2019 年 AT&T 提交 DDC 白盒架構設計到 OCP,2020 年 AT&T 在 IP 骨ODCC-2021-03002 DDC 技術
9、白皮書(中文版)3 干網部署 Drivenets DDC 設備。圖 2 DriveNets DDC 4.2.4.2.應用場景應用場景 分布式機框解耦在百度的主要應用場景是 DCI 網絡。DCI 網絡的互聯帶寬高,對設備的交換容量要求高。DCI 網絡有不同規模的數據中心接入,有較高的網絡帶寬收斂比,需要大 buffer、大交換容量的設備來滿足互聯需求。當前骨干網部署了大量機框式設備,對機柜電力容量要求高,單設備故障影響范圍大。涉及多廠商的設備,在管理和運維上都有很大的挑戰。采用 DDC 方案來實現自研白盒化,統一 DCI 網絡設備 OS,提高網絡的高可用性、可管理性,降低設備成本。4.3.4.3
10、.DDC 技術原理技術原理 圖 3 DDC 原理 ODCC-2021-03002 DDC 技術白皮書(中文版)4 DDC 顧名思義是一種分布式解耦機框設備的解決方案。首先它解耦了硬件和軟件:采用標準的白盒交換機做轉發和 Fabric,組件獨立,通過光纖互聯;標準的 X86 服務器做控制引擎,集中控制平面,管控所有的轉發交換機、fabric 交換機;統一的 OS 系統運行在轉發交換機和 fabric 上,OS 與硬件解耦,適配通用的白盒交換機;第二 DDC 解耦了路由交換機的架構:控制平面和數據平面分離??刂破矫嬗?X86 的控制器集中管控,白盒交換機左右分布式的數據轉發平面做數據轉發;數據平面
11、靈活伸縮。能夠根據轉發容量的需求,靈活擴縮容轉發交換機和 fabric。Fabric 和轉發交換機之間采用 fabric 端口互聯,采用基于cell 的轉發,有 distributed VOQ,保證 fabric 數據轉發無擁塞丟包;4.4.4.4.DDC 方案方案 DDC 是對大機框的解耦,需要大 buffer,有 fabric 端口能力的芯片,可選芯片如下:Broadcom:Jericho2C+、Ramon(fabric)設備 OS:基于 Sonic 自研 OS 商用 OS 控制器:自研控制器 商用控制器 ODCC-2021-03002 DDC 技術白皮書(中文版)5 設備接口能力:100
12、G 端口(長途、小規模 DC)400G 端口(城域互聯)4.4.1.4.4.1.DDC 芯片說明芯片說明 Jericho2C+芯片:7.2T 前端 I/O 9.6T Fabric I/O 8GB HBM(High bandwidth memory)64MB On chip buffer(OCB)芯片功耗 350W 圖 4 Jericho2c+芯片結構 Ramon 9.6Tbps Fabric I/O ODCC-2021-03002 DDC 技術白皮書(中文版)6 圖 5 Ramon 芯片結構 4.4.2.4.4.2.組網結構組網結構 DDC 集群的結構如下:圖 6 DDC 集群結構 結構說明:
13、1.LC 轉發設備采用 2 顆 Jericho2c+芯片,具備 14.4T 轉發能力;2.Fabric 設備采用 Ramon fabric 芯片,單芯片具備 9.6T 轉發能力,192*50G Serdes,使用 2 顆芯片可實現 19.2T 轉發能力的 fabric 設備;3.LC 與 Fabric 之間通過 400G 的 Fabric 端口互聯,Fabric 設備具備 N+1 冗余能力;4.集群配備至少 2 臺互備冗余的管理交換機,管理交換機互聯所有 fabricODCC-2021-03002 DDC 技術白皮書(中文版)7 設備、LC 轉發設備、控制引擎,控制面的數據流通過管理交換機轉發
14、;5.集群至少包含 2 臺 X86 Server 做控制引擎,主備工作,控制引擎作為集群的控制器,集中管控所有 LC、FAB;4.4.3.4.4.3.DDC Cell 交換原理交換原理 DDC 設備和框式交換機一樣采用 CELL 交換方式,CELL 交換使 fabric 的流量轉發更加均衡,高效。圖 7 Cell 轉發原理 數據轉發過程原理:1.數據包從一個 LC 白盒的接口進入 cluster;2.流量進入的LC白盒的轉發芯片處理數據包,IP數據包查詢FIB表中的LPM,決定下一跳的出接口;查詢到轉發信息后,包被發到出接口的 VoQs 中,如果出接口在其它 LC 白盒上,包將被切成 fabr
15、ic cells,cells 被發往互聯目地LC 的所有 fabric 上;3.Fabric 從流量入口 LC 白盒收到 cells,基于對在 reachability table 中 cell destination 的查詢來決定如何轉發。所有的 Fabric 維護 reachability table,從而知道哪個 fabric port 互聯哪個 LC。Reachability table 基于內部的 reachability protocol 在 LC 和 Fabric 之間交換 control cells 構建;4.Egress LC 收到 cell 包后,重新組裝數據包,處理數據包
16、從 egress port 轉發;VOQ 機制保證數據在集群內轉發不丟包,cell 轉發能夠保證數據流在集群ODCC-2021-03002 DDC 技術白皮書(中文版)8 內的轉發負載更加均衡。Fabric 層面的 cell 轉發會增加網絡延遲,但這個延遲和 DCI 網絡的數據轉發延遲相比很微小,DCI 網絡本身不是一個延時敏感的網絡部分。VOQ 原理說明:交換機的每個 input 端口的物理 buffer 為每個 output 端口維護一個單獨的虛擬隊列,output queue 和 input 端口 buffer 是 1 對 1 的,因此每個 output queue從 input 端口
17、pipeline 收到 buffer 空間。VOQ 保證 input buffer 在轉發芯片上是專門給 output queue,避免任何兩個端口的通信不影響其它端口。VOQ 是基于 credit 機制,cell 轉發機制說明如下:1.芯片 Input 端口調度器向 output 端口申請 credit,通知 output 端口有數據要發送;2.output 接口有帶寬轉發數據時,出接口給 input 端口分配 credit,只有 output端口有足夠帶寬資源時,才會給 input 端口分配 credit,3.input 端口收到 credit 后,開始轉發數據包到 output 端口,4
18、.output 端口沒有資源轉發時,不給 input 端口 credit,input 端口沒有 credit 不能轉發數據到 output 端口,從而避免 fabric 內丟包。4.5.4.5.CLOS 架構方案架構方案 采用 CLOS 架構組建集群,實現近似大機框的轉發能力和組網能力。Fabric層和轉發層都采用普通白盒設備,Fabric 和轉發層之間通過路由轉發,Fabric 只在后端做數據轉發,對外呈現只有轉發器,所有設備獨立運行,無集中控制平面。4.5.1.4.5.1.芯片說明芯片說明 從端口密度和成本兩方面考慮,設備的芯片選擇如下:1.Jericho2、Jericho2c+芯片做轉發
19、層白盒,Fabric 層采用 Tomahawk3、5 芯片白ODCC-2021-03002 DDC 技術白皮書(中文版)9 盒。2.轉發層和 Fabric 層全部采用 Silicon One 芯片;對轉發層設備的要求:無 fabric 設計 Jericho2、Jericho2C+或 Silicon One(Q200)大 buffer 芯片 體積小、低功耗 插卡式,支持 100G、400G 端口卡 Silicon One Q200 12.8T 轉發能力 無固定 fabric port,可動態調整 fabric 和前端轉發 I/O 的端口分配 8GB HBM 108MB on chip buffe
20、r(OCB)圖 8 Silicon One 芯片結構 Silicon One 芯片是一款無固定 fabric 設計的芯片,芯片支持 P4 編程。單芯片轉發容量較大,適合做大 buffer 的盒式設備。支持 VOQ,但不是基于 cell 轉ODCC-2021-03002 DDC 技術白皮書(中文版)10 發。VOQ 機制保證芯片轉發無丟包,基于包的轉發,數據流在多芯片的轉發沒有 cell 轉發那樣均衡,但沒有切 cell 的過程也大大縮短了芯片的轉發延遲。與jericho2c+相比具有更低的轉發延遲。設備形態:圖 9 Jericho2c+芯片端口形態 圖 10 Silicon One 芯片端口形
21、態 4.5.2.4.5.2.組網結構組網結構 100G Fabric 集群:設 備名稱 角色 芯片 端口形態 設備配比 最大轉發容量 4 平面最大容量 T1 Fabric Tomahawk3 128*100G 固定端口 48 614.4T 2457.6T ODCC-2021-03002 DDC 技術白皮書(中文版)11 T0 Forwarder 2*Jericho2 插卡式:2*48*100G或 12*400G+48*100G 128 圖 11 100G fabric Jercho2+TH3 集群 設 備名稱 角色 芯片 端口形態 設備配比 最大轉發容量 4 平面最大容量 T1 Fabric
22、Silicon One Q200 128*100G 固定端口 64 819.2T 3276.8T T0 Forwarder Silicon One Q200 插卡式:32*100G 或 16*400G 線卡 128 ODCC-2021-03002 DDC 技術白皮書(中文版)12 圖 12 100G fabric Silicon One 集群 400G 集群:設備名稱 角色 芯片 端口形態 設備配比 最大轉發容量 4 平面最大轉發容量 T1 Fabric Tomahawk5 128*400G 固定端口 18 921.6T 3686.4T T0 Forwarder 2*Jericho2c+插卡式
23、:36*400G 或 18*400G+72*100G 128 集群結構:圖 13 400G CLOS 架構集群 ODCC-2021-03002 DDC 技術白皮書(中文版)13 Tomahawk5 芯片 2022.7 月發布,Jericho2c+2021 年底量產。4.5.3.4.5.3.組網分析組網分析 CLOS 架構的集群做 BGP 聯盟配置,對外呈現一個自治域 AS 圖 14 CLOS 架構組網分析 轉發層和 fabric 層之間的路由設計分析:T0 和 T1 配置 BGP confederation,T1 層一個 AS,每臺 T0 一個 AS;聯盟內 EBGP 打通路由,對外一個 AS
24、64600,和上下游設備 EBGP 配置,如圖,對外 DC1 和 DC2 經聯盟內相同互聯節點 T0-3,與不重合節點 T0-1、T0-5 的互聯,路由的 as-path 長度是一致的,可以負載均衡;BGP 聯盟方式的 CLOS 集群,對外呈現與一個大機框相似,對外互聯結構沒有約束,可任意做非對稱互聯,實現路由的等價負載均衡;組網結構分析:CLOS 架構分布式控制平面 Fabric 和 forwarder 之間采用三層路由方 式互聯,無法使用 Jericho2c+的 fabric 端口,芯片有一半的轉發端口用于互聯ODCC-2021-03002 DDC 技術白皮書(中文版)14 Fabric
25、層設備,構建同等轉發能力的 DDC 集群,需要比集中控制面的 DDC增加一倍的設備,成本上分析比機框式設備組網成本高一倍以上;Fabric 層采用成本較低的 Tomahawk 芯片,基于包轉發,Tomahawk 芯片buffer 較小,無 VOQ 機制,在多訪問 1 場景 fabric 層有丟包風險;CLOS 架構分布式控制平面具備了組網靈活的優勢,同時控制平面和轉發平面均為分布式,分散故障域,避免全局故障;4.6.4.6.DDC 設備在設備在 DCI 網絡的組網方式網絡的組網方式 DDC 設備在 DCI 網絡 SC 角色部署的組網方式如下:圖 15 DDC 設備 DCI 組網結構 組網說明:
26、超核角色設計使用 DDC 設備,超核分 4 平面;每平面一個 DDC 集群,T1 Fabric 按 DDC 轉發能力 2 倍部署,以滿足集群擴展能力 ODCC-2021-03002 DDC 技術白皮書(中文版)15 每 DDC 的轉發設備按轉發容量需求靈活部署 城域網與超核四平面全互聯,ES 每臺設備與 SC 每平面對應編號設備互聯;超核之間分平面互聯;故障場景分析(DDC SC 配置 8 臺轉發交換機):故障點故障點 故障影響故障影響 ES-SC link 單 link down,影響跨 region in 1/4 帶寬,region out 1/4 帶寬 SC 1 SC 轉發白盒故障,影響
27、跨 region in 1/4 帶寬 跨 region out 1/4 帶寬 4.7.4.7.DDC 與與 CLOS 方案對比方案對比 DDC 方案和 CLOS 架構方案對比如下:對比項對比項 DDC 方案方案 CLOS 架構方案架構方案 故障域故障域 故障域大,控制面故障將導致整集群不可用 故障域小,單白盒設備故障不影響全局轉發 擁塞避免擁塞避免 轉發與 fabric 層之間信元交換方式,有 VOQ 機制保證fabric 轉發不丟包,基于 cell轉發,流量負載更加均衡 轉發與 fabric 層之間 packet交換方式,采用 tomahawk 芯片無 VOQ 機制,在多訪問 1的場景,fa
28、bric 有丟包風險 硬件成本硬件成本 同等轉發容量比機框交換機高 25%左右,Fabric 采用專用的 fabric 芯片,相對轉發芯片成本更低 有一半轉發容量用于上聯fabric,單設備轉發能力降低一半,同等轉發能力比機框交換機高 100%以上 運維風險運維風險 集中控制平面,控制面升級、故障診斷復雜 分布式控制面,升級維護簡單 管理風險管理風險 集中控制管理配置簡單 分布式控制面,轉發層配置不對稱,管理維護相對復雜 4.8.4.8.論證結論論證結論 從上述方案對比分析:采用 DDC 方案,互聯組網最靈活,投入成本適中,研發難度較高,控制面集中故障域相對較大;采用 CLOS 架構方案,實現
29、復雜,成本與現有機框式設備相比大幅升ODCC-2021-03002 DDC 技術白皮書(中文版)16 高,fabric 層有擁塞丟包風險;結論:DDC 方案最優,適用于 DCI 核心設備。DDC 方案,可解決擴容機柜電力問題,轉發容量更大,擴展性好。5.DDC 產品研發產品研發 5.1.5.1.設備設備 OS 功能需求功能需求 DDC 設備主要應用于 DCI 網絡,功能上要支持 ISIS、BGP、SR 等協議。DDC 設備作為 DCI 骨干網絡的新的設備形態要滿足百度下一代骨干網的功能、性能需求:1.路由快速收斂 BGP FIB 表收斂速度20k/s 支持 link delay up/down
30、,傳輸設備出現故障或抖動,減少對路由層面的收斂影響 支持 BGP 路由延遲發布,在鏈路故障恢復時縮短丟包時間 ISIS/BGP 與 BFD 聯動 TE 隧道 BFD 聯動 2.SRv6 的流量工程能力,基于帶寬、時延的靈活算路 支持靈活的路徑計算方法(flexible algorithm);支持對數據流的染色功能;網絡控制器通過 BGP LS 搜集拓撲信息、鏈路帶寬、SID 信息;NQA 獲取鏈路的時延信息;控制器能夠根據網絡的時延、帶寬、color 等信息計算業務的最優路徑;3.基于 SRv6 的 L3VPN 能力 基于 IPv6 的數據轉發平面實現對 IPv4、IPv6 流量的 VPN 服
31、務。SRv6 的ODCC-2021-03002 DDC 技術白皮書(中文版)17 SID 包含 locator 和 Function 兩部分,Locator 識別 SRv6 節點的地址,function 識別在特定節點上需要執行的網絡指令,如 L3 VPN 功能。舉例說明如下:一個 SRv6 的 PE 節點,配置 locator 為 2021:abcd:0:a1:/64,關聯 IPv4VPN路由 10.1.1.0/24 的 End.DX4 功能的 SID 為 2021:abcd:0:a1:1:/64。END.DX4 是BGP 的一個功能,END.DX4 是 BGP SID 在 vpnv4 ad
32、dress family 下,標識一個IPv4 CE。END.DX4 代表 PE 端點需要解封裝 IPv6 SID,轉發原始的 IPv4 報文到綁定這個 SID 的三層接口。同樣 END.DX6 是基于 SRv6 網絡的 IPv6 VPN,END.DX6 是 BGP SID 在 vpnv6 address family 下。MP-BGP 編碼 SRv6 SID 到 L3 VPN NLRI 中,通過 IPv6 網絡發布給它的 Peer。SRv6 網絡的節點將把 SID 安裝到它的轉發表中,轉發報文到目的 PE。具體功能需求如下表:功能要求功能要求 子功能子功能 功能參數功能參數 優先級優先級 B
33、GP ECMP 128 paths,support ecmp as-path-relax,高 Peer group 支持配置對等體組 高 import routes 支持引入其它路由協議路由(靜態、OSPF)高 4 bytes AS 支持 4 字節 ASN 高 RR(route reflector)支持路由反射器功能 高 path select attributes BGP 選路屬性支持:weight、local preference、MED、community 高 route aggregation 支持路由聚合,支持抑制明細,并支持聚合路由的路由策略(attribute-policy,su
34、ppress-policy)高 timers setting 支持 BGP hello 和 hold time 調整 中 Add path 8 paths 高 BGP LS(link state)get ISIS topoloy info,compute TE path 中 route policy 支 持 靈 活 的 收、發 路 由 策 略(基 于 acl/prefix-list/community 的路由過濾,as-path/LP/MED/weight 操作等)高 IPv6 support IPv6 address-family BGP 高 NSF Non stop forwarding/
35、routing 高 BFD 聯動 中 Interfaces LACP 100 AGG ports,each AGG port support 48 member ports max 高 link-delay/carrier-delay 高 ODCC-2021-03002 DDC 技術白皮書(中文版)18 MTU max 10000 bytes 高 LLDP discover neighbor hostname/interface/IP,support management IP discovery 高 flow interval 接口統計信息采集頻率設置 中 ISIS ECMP 128 pat
36、hs 高 ISIS TE segment-routing mpls 高 Peer authentication 中 IPv6 支持 IPv6 的路由 高 NSF non stop forwarding/routing 高 Fast reroute 中 cost adjustment 支持 wide-metric,支持接口開銷調整配置 高 routing manipulation 支持路由過濾、引入外部路由、發布缺省路由 中 route aggregation 支持路由聚合 高 BFD 聯動 高 Load balancing IP load balancing per-flow,src/dst
37、IP,source/dst port,protocol;per port 高 link aggregation src/dst IP,src/dst port,protocol,per port 高 Management SSH v2 高 telnet 高 login source IP filter 高 netstream/sflow 高 Sampler traffic sampler.支持 1:1024 采樣比 高 ZTP 中 TACACS+AAA 高 Netconf/YANG 高 gRPC 中 SNMPv2/v3 高 Inband telemetry 中 Policy based rou
38、ting load-balance next-hop 支持重定向下一跳負載均衡 中 NQA 聯動 支持與 NQA 聯動 中 QoS WRR/WFQ 高 ECN support fast ECN/CNP 中 DSCP/IPP remarking DSCP to dot1p mapping 高 MQC 支持 MQC(module qos command-line)方式配置(流分類、流行為、流策略)高 CAR policies 中 Security L3/L4 ACL 高 Prefix-list 高 community-filter 高 ODCC-2021-03002 DDC 技術白皮書(中文版)1
39、9 Route policy 高 as-path filter 中 SRTE MPLS SR 高 SRv6 中 SR TI-LFA 支持 TE 隧道熱備份 高 direct traffic to tunnel 支持靜態路由、策略路由、IGP 自動路由方式引流到隧道 高 diff-service group 支持 TE 隧道的服務等級,匹配業務報文的優先級 tag,將流量引導到對應服務等級隧道 中 BFD for SR-TE LSP 支持 BFD 與 TE LSP 聯動 高 Static route null0 route/default route 中 5.2.5.2.DDC 硬件設計硬件設計
40、 5.2.1.5.2.1.Fabric 設計設計 設計 DDC 的硬件形態,Fabric 設備設計一種硬件形態:圖 16 Fabric 硬件形態設計 Fabric 采用 Broadcom Ramon 芯片,設計固定 48*400G 端口,采用 2 顆 Ramon芯片,單芯片 192*50G Serdes,兩顆芯片組合可出 48*400G 端口。48 端口 fabric最大可組建 691.2T 轉發能力的 DDC 設備。5.2.2.5.2.2.Forwarder 設計設計 轉發設備設計 100G 和 400G 兩種形態,100G 的轉發設備設計如下:圖 17 100G 轉發交換機硬件形態設計 O
41、DCC-2021-03002 DDC 技術白皮書(中文版)20 100G 的轉發設備采用單顆 Jericho2 芯片,單設備 48*100G 端口,具備 4.8T轉發能力,Jericho2 芯片有 112*50G Serdes fabric I/O,設計 14*400G Fabric 端口上聯 Fabric 設備,2 端口冗余。400G 的轉發設備設計如下:圖 18 400G 轉發交換機硬件形態設計 400G 轉發設備采用兩顆 Jericho2c+芯片,單設備 36*400G 端口,具備 14.4T轉發能力。Jericho2c+芯片有 192*50G Serdes fabric I/O,設計
42、2*20*400G Fabric端口,4 端口冗余。5.2.3.5.2.3.管理模塊設計管理模塊設計 DDC 的 fabric 和 forwarder 白盒設備設計統一的管理模塊:1.2 個 10G SFP+接口,用于和控制平面的控制引擎通信;2.1 個 Console 接口,用于遠程控制臺管理設備;3.1 個 RJ45 帶外管理接口,用于遠程帶外管理;5.3.5.3.Fabric 互聯互聯 設計 DDC 的 forwarder 和 fabric 之間的互聯統一采用 400G 端口。Broadcom fabric 轉發延遲的限制要求光纖互聯長度最長不能超過 100m。百度對 DDC 的 Fab
43、ric 互聯線纜要求如下:ODCC-2021-03002 DDC 技術白皮書(中文版)21 圖 19 AOC 線纜 400G QSFP-DD AOC,最長不超過 50 米 400G QSFP-DD DAC,最長 3 米 圖 20 DAC 線纜 5.4.5.4.功耗和機柜空間需求功耗和機柜空間需求 設備硬件說明:參數參數 Forwarder Fabric 設備尺寸設備尺寸 2 Rack Unit 2Rack Unit 芯片芯片 2*Jericho2c+2*Ramon 端口端口 36*400G 48*400G 功耗功耗 最大功耗 2600w 最大功耗 2000w 搭建一個 230.4T(576*4
44、00G)轉發能力的 DDC 集群,配置 20 臺 Fabric,16 臺 Forwarder,Fabric 冗余 2 臺,并且最大支持 24 臺 Forwarder,擴容到 345.6T。按單機柜 80A,17600W 功率計算:需要 5 個機柜:ODCC-2021-03002 DDC 技術白皮書(中文版)22 圖 21 DDC 部署機柜圖 DAC 線纜需求:126 條 AOC 線纜需求:514 條 DDC 產品占用機柜空間較大,集群總功耗較高。5.5.5.5.DDC 自研自研 OS 系統系統 將基于 Sonic 做 DDC 設備的 OS 研發。DDC 是一個控制平面和數據轉發平面分離的分布式
45、系統,基于容器和微服務開發一套分布式 OS 系統:網絡控制器,運行控制平面協議、計算、功能程序,管理協議等;白盒轉發交換機和白盒 Fabric 交換機 OS,與控制器協同,執行數據轉發任務;5.5.1.5.5.1.SONiC 社區對多芯片分布式轉發架構的支持情況社區對多芯片分布式轉發架構的支持情況 DDC 自研 OS 基于 SONiC,依賴于 SONiC 社區的支持。百度將持續關注跟蹤 Sonic 社區的支持情況。Sonic 社區目前沒有針對 DDC 架構設備的支持,但對通過交換網板做數據轉發的多芯片 Chassis 交換機有相關設計和開發:1.2020.5.19 發布 Distributed
46、 forwarding in a VOQ architecture,在 SAI 1.7.1 中支持。ODCC-2021-03002 DDC 技術白皮書(中文版)23 圖 22 VOQ 分布式轉發架構 說明:1)每個轉發設備運行一個獨立的 Sonic 實例,控制設備上 NPU 的運行操作;一個轉發設備具備完整的路由交換功能,就像一個獨立的 Sonic 交換機一樣;通過一個集中的 Supervisor SONiC 實例來管理轉發設備的系統,這個 Supervisor SONiC 實例同時管理內部 fabric;2)每個 FSI(forwarding Sonic Instance)通過內部的 fab
47、ric 與其它 FSIs 互聯,實現整個系統運行一套路由協議,如 BGP;此連接必須與數據路徑共享,以便內部結構中連通性的丟失也反映為內部控制平面連通性的丟失。3)每個FSI必須有一個管理接口,用于和supervisor、系統外部的網絡互通;4)每個 SONiC 實例必須能夠通過標準的 SONiC 管理接口獨立的配置和管理;所有的端口在啟動時被靜態配置。任何對物理端口的配置變更需要整個系統重啟;5)系統全局的狀態存儲到 SSI,所有的 FSIs 通過內部管理網絡可以訪問到這個狀態;State 存儲在 SSI 的 Redis 實例中的數據庫中,叫做Chassis DB;2.2020.6.30 S
48、onic distributed VOQ revision1.0 設計發布,但在 2021.6.30發布的 SAI version 1.8.1 未包含此功能,在 2021.11 的版本排期中未安排,目前ODCC-2021-03002 DDC 技術白皮書(中文版)24 處于延遲排期狀態。SONIC 分布式 VOQ 設計。系統中的每個 ASIC 芯片有一個單獨的 SONIC 網絡棧的實例控制。建立一個新的 VOQ system Database。這個數據庫包含 VOQ-SAI 信息(system port,routing interface on system port,neighbor with
49、 Encap Index).圖 23 Sonic 分布式 VOQ 功能需求:1.Distributed VOQ System.2.IPv4 and IPv6 unicast routing across any ports in the system 3.Each switch in the system is controlled by a separate asic instance of SONiC.4.Host IP reachability to/from the interface IP addresses of any SONiC instance in the system u
50、sing any network port in the system.5.Host IP reachability between the SONiC instances in the system over the datapath.6.Routing protocol peering between SONiC instances over the datapath.7.Static provisioning of System Ports in the VOQ System Database.8.Dynamic discovery of Routing Interfaces and Neighbors on other asics via the VOQ System Database.9.Automatic determination of Switch_Id for each asic(optional).