1、新型新型智算中心以太網物理智算中心以太網物理層安全層安全(PHYSec)(PHYSec)架構白皮架構白皮書書(20242024 年)年)發布單位:發布單位:中移智庫中移智庫編制單位:中國移動通信研究院編制單位:中國移動通信研究院前前言言隨著 AI 大模型對算力的需求呈現指數級增長,具有大規模算力的智算中心正在全球范圍內進行大規模建設與部署。智算中心通過以太網傳輸涉及到企業安全生產的 AI 模型參數以及敏感數據,其在傳輸的過程中面臨著泄露的風險,具有極高的安全訴求。本白皮書面向未來智算中心規模建設和 AI 大模型發展及部署需求,提出以太網物理層安全(PHYSec)體系架構及技術方案,解決 RDM
2、ASec、MACSec 等現有安全方案在智算中心場景下面臨的安全漏洞與性能瓶頸問題,為智算中心的網絡保駕護航。本白皮書旨在提出中國移動及產業合作伙伴對以太網物理層安全 PHYSec 技術的愿景、架構設計和能力要求。希望能夠為產業在規劃設計以太網物理層安全相關技術、產品和解決方案時提供參考和指引。本白皮書由中國移動通信有限公司研究院中國移動通信有限公司研究院主編,騰訊云騰訊云、清華大清華大學、東南大學、華為技術有限公司、中興通訊有限公司、博通公司學、東南大學、華為技術有限公司、中興通訊有限公司、博通公司、默升科技默升科技(上海上海)有限公司有限公司、上海橙科微電子科技有限公司上海橙科微電子科技有
3、限公司、烽火通烽火通信科技股份有限公司信科技股份有限公司、新華三技術有限公司新華三技術有限公司、銳捷網絡股份有限公司銳捷網絡股份有限公司、英特爾英特爾(中國中國)有限公司有限公司、蘇州盛科通信股份有限公司蘇州盛科通信股份有限公司、杭州云合智杭州云合智網技術有限公司、深圳市楠菲微電子有限公司、網技術有限公司、深圳市楠菲微電子有限公司、篆芯半導體(南京篆芯半導體(南京)有限公司有限公司、蘇州旭創科技有限公司蘇州旭創科技有限公司、索爾思光電索爾思光電、蘇州卓昱光子科技蘇州卓昱光子科技有限公司有限公司、武漢光迅科技股份有限公司武漢光迅科技股份有限公司、邁普通信技術股份有限公司邁普通信技術股份有限公司(
4、中國電子中國電子-邁普通信邁普通信)、思博倫通信科技思博倫通信科技(北京有限公司北京有限公司)、是德科技是德科技(中國(中國)有限公司有限公司、唯亞威通信技術唯亞威通信技術(北京北京)有限公司有限公司、珠海星云智珠海星云智聯科技有限公司聯科技有限公司、中科馭數中科馭數(北京北京)科技有限公司科技有限公司、上海云脈芯聯科上海云脈芯聯科技公司、深圳云豹智能有限公司技公司、深圳云豹智能有限公司聯合編撰。本白皮書不包含我國科技發展戰略、方針、政策、計劃等敏感信息。不包含涉密項目的背景、研制目標、路線和過程,敏感領域資源、數據,關鍵技術訣竅、參數和工藝信息。本白皮書的版權歸中國移動所有,未經授權,任何單
5、位或個人不得復制或拷貝本建議之部分或全部內容。中國移動新型智算中心以太網物理層安全(PHYSec)架構白皮書(2024)目目錄錄1.技術背景與需求.12.以太網物理層安全技術架構.52.1 技術愿景.52.2 設計原則.62.2.1 兼容性原則.62.2.2 互通性原則.72.2.3 一致性原則.72.3 技術體系與關鍵機制.72.3.1 物理層身份認證機制.102.3.2 物理層密鑰管理機制.112.3.3 物理層數據加解密機制.142.4 技術優勢.173.應用與部署.223.1 應用場景.223.2 部署架構.244.總結與展望.26縮略語列表.27參考文獻.29中國移動新型智算中心以太
6、網物理層安全(PHYSec)架構白皮書(2024)11.1.技術背景與需求技術背景與需求隨著 AI 大模型的迭代速度呈指數級增長,AIGC(AI-GeneratedContent)等應用預計將在全球范圍內產生數萬億美元的經濟價值。作為 AI 技術發展的基礎設施底座,智算中心也逐漸在全球范圍內大規模建設和部署。傳統數據中心網絡存在時延及吞吐受限、負載分擔不均、擁塞控制精度低、安全保護機制難部署等問題。針對這些問題,全調度以太網(GSE)在兼容現有以太生態前提下,提出基于虛擬容器的調度轉發,逐包的動態負載均衡機制,以及精細流控反壓等創新技術,獲得業內廣泛認可,并在中國通信標準化協會(CCSA)TC
7、3 工作組推動全調度以太網總體技術要求和智能計算中心網絡協議能力總體技術要求 立項,為智算中心提供開放標準的網絡解決方案。當前,智算中心以大量數據為資源,利用強大算力驅動 AI 大模型對數據進行深度加工,產生各種智慧計算能力,以云服務形式提供給組織及個人。在此過程中,涉及大量數據資源在入算、算內和算間網絡場景的處理和傳遞。這些數據已成為企業十分重要的商業資產,一旦被竊聽攻擊或泄露,將產生難以估計的經濟損失,因此如何保障數據安全將是智算中心發展的核心問題。對于入算場景,互聯網或者用戶設備實時上傳的敏感或隱私數據須經過廣域網或城域網等入算網絡到達智算中心用于 AI 大模型訓練,這些數據在傳輸過程中
8、存在泄露的風險。對于算內場景,AI 訓練與推理過程中使用到的模型、參數以及用戶數據需要在計算節點間頻繁傳遞,同樣存在泄露或被竊中國移動新型智算中心以太網物理層安全(PHYSec)架構白皮書(2024)2聽的風險。對于算間場景,用于傳輸智算中心間算力資源的高速互聯光纖鏈路以及相關設施暴露在物理環境中,存在被攻擊竊聽的風險。綜上所述,用戶數據在入算上傳、算內傳遞以及算間傳輸這三個場景都存在安全加密的需求。上述智算中心三個網絡場景的底層承載網絡主流技術是以太網,為此須對以太網提供安全認證、密鑰管理以及數據加解密能力,以應對日益嚴峻的安全挑戰??紤]到智算中心場景所承載的 AI 與 HPC 業務對時延、
9、帶寬等網絡性能的極致追求,智算中心以太網安全技術需要具備如下核心能力:一是存量設備和芯片的兼容能力。為了使加密流量可以達到線速,加密模塊會在芯片中硬化實現。以太網已部署的存量設備可能存在硬件芯片無法更換的情況,因此以太網數據加密技術需要利舊現有網絡設備,具備向下兼容能力。二是低時延、低開銷的數據加解密能力。隨著 AIGC 等應用的發展,對海量算力芯片間高吞吐、低時延數據傳輸的需求更為迫切。因此在對以太網鏈路提供安全加密的同時,也需要關注數據加解密帶來的時延與開銷。三是以太幀和管控協議的全加密能力。以太網鏈路會發送一些特殊的協議幀,如基于優先級的流量控制幀等。這些特殊的協議幀無法被傳統的網絡安全
10、機制所保護。針對隱私保護要求高的場景,也需要對以太幀進行全加密保護,包括加密幀頭部以及掩蓋幀發送頻率、幀長等流量特征,以防止流量分析攻擊。中國移動新型智算中心以太網物理層安全(PHYSec)架構白皮書(2024)3四是簡單高效的認證和密鑰管理機制。認證和密鑰管理涉及大量的安全會話,需要消耗計算節點的 CPU 以及網卡內存資源,影響計算節點的算效。因此需要簡單高效的認證和密鑰管理機制降低安全會話數量?,F有安全加密機制可以提供不同網絡層級的數據安全防護,但是無法同時滿足上述的關鍵能力需求。在傳統數據中心網絡中,RDMA技術得到了廣泛應用。部分標準組織提出在 RDMA 的網絡層實現端到端的數據加密機
11、制(RDMASec)1。業界已有廠家發布基于 IPSec 的改進方案,來嘗試滿足智算中心的安全需求2。此外,基于 IEEE802.1AE 標準的 MACSec 可以為以太網設備之間提供數據鏈路層逐幀的安全加密通信,在園區辦公場景得到較廣泛應用3。然而 RDMAsec及 MACSec 應用于智算中心場景時仍存在如下問題:1)難以兼容全部存量設備。業界現有芯片硬化的 RDMASec 及 MACSec 方案,需要在 PHY芯片中進行比特流到包或幀的背靠背轉換,將引入額外的實現復雜度與轉換時延,也需要對設備硬件進行替換。2)引入封裝開銷。尤其是對短幀場景,會明顯擠占業務帶寬,影響 AI 業務算效。3)
12、暴露以太幀頭部信息,且無法完全掩蓋報文長度、發包頻率等流量特征,易被利用進行流量分析攻擊3,4。無法保護基于優先級的流量控制幀(PFC)或 pause 幀等以太幀。4)認證機制僅限于服務器、交換機等網絡設備,無法對光模塊進行認證;密鑰管理機制安全復雜度高,需要消耗大量的 CPU 資源及網卡內存資源來維護節點間建立的安全會話,影響算效。中國移動新型智算中心以太網物理層安全(PHYSec)架構白皮書(2024)4針對上述智算中心安全需求以及 RDMASec、MACSec 存在的問題,中國移動聯合業界合作伙伴提出以太網物理層安全(PHYSec)技術架構,通過在以太網物理層對比特流進行加解密來保護所有
13、上層協議,通過掩蓋流量特征,解決流量分析攻擊帶來的安全威脅,同時實現低時延、低開銷、協議透明的數據加解密。本白皮書的發布有望推動PHYSec 技術的標準共識、技術成熟與商用落地,支撐智算中心的安全建設與快速發展。中國移動新型智算中心以太網物理層安全(PHYSec)架構白皮書(2024)52.2.以太網物理層安全技術架構以太網物理層安全技術架構2.12.1 技術愿景技術愿景物理層加密的概念早在 1989 年就在標準 ISO 7498-2 中有所提及,但基于物理層加密的以太網技術還未曾出現5?,F有網絡安全技術的加密層次及密文保護范圍如圖 2-1 所示。從各層次網絡安全技術的演進過程可以看到,越往上
14、層的安全機制越靈活,而越往下層的加密機制可以提供更大的保護范圍,且更易于與硬件結合。RDMASec 是介于 IPSec 與 TLS 之間的改良技術,但是引入的時延與開銷難以滿足智算中心的安全需求。以太網物理層處于網絡協議棧的更低層次,將安全加密與以太網物理層特性相融合來構建全新的以太網安全機制,有望解決上述 RDMASec 及 MACSec 所不能解決的問題。同時,物理層的加密更便于實現低時延、低開銷、高吞吐、高安全的數據加密,滿足智算中心場景對安全技術的要求。圖 2-1 安全機制演進趨勢本白皮書提出將物理層加密的理念與以太網物理層技術相融合構建以太網物理層安全技術PHYSec,以實現低時延、
15、高吞吐、高安全、低開銷和協議透明等特性的安全加密機制,滿足數據鏈路層及所中國移動新型智算中心以太網物理層安全(PHYSec)架構白皮書(2024)6有上層協議的信息防護。如前所述,PHYSec 是一種工作在以太網物理層的安全加密技術,對物理層的比特流進行加解密。所有以太幀、所有的管控協議以及幀間空隙均被物理層統一編碼,可以被 PHYSec有效保護,從而掩蓋流量特征,具有極高的安全性。如圖 2-2 所示,為明文數據、MACSec 加密以及 PHYSec 加密三種傳輸方式的示例。PHYSec 可以加密包括以太幀頭部在內的全部用戶信息,掩蓋幀頻率以及幀長度等流量特征,解決了 RDMASec 和 MA
16、CSec 難以防護流量分析攻擊的問題。與此同時,PHYSec 的加密對象是物理層的比特流,對上層業務和協議透明,構建加密對象時可以不受限于報文,與業務轉發邏輯和協議處理無關。在構造合適的加密對象之后,PHYSec 利用物理層原生 OAM 碼塊承載加解密所必需的安全參數,具有低開銷的優勢。圖 2-2 明文傳輸、MACSec 加密以及 PHYSec 加密示例2.22.2 設計原則設計原則2.2.12.2.1 兼容性原則兼容性原則PHYSec 技術可以在以太網物理層 PHY 的不同位置實現。在 PHY單元實現,要求兼容 IEEE802.3 標準,不影響標準規范的功能與協議;在 PMD 模塊實施,要求
17、兼容 PMD 模塊已有標準及架構,不影響標準規范的功能與協議。中國移動新型智算中心以太網物理層安全(PHYSec)架構白皮書(2024)72.2.22.2.2 互通性原則互通性原則PHYSec 原則上可支持鏈路級和通道級的技術方案,類似 MACSec(802.1AEbw-2013 for port,802.1AEcg-2017 for channel),實施部署載體可以是 PHY 接口,也可是光模塊或其他載體。同一層次方案,要求技術與協議一致,滿足互聯互通要求。協議承載方案,要求少占用或不占用業務帶寬。2.2.32.2.3 一致性原則一致性原則對于IEEE802.3規范的以太網100G/200
18、G/400G/800G/1.6T接口,雖然 PHY 各邏輯子層技術方案有區別,但 PHYSec 原則上要求采用一套解決方案和協議。協議的承載方式可以根據 PHY 邏輯子層的要求變化,但要求遵循前述兼容性原則與互通性原則等設計原則。PHYSec 作為網絡安全技術,技術邏輯同 MACSec(解決如何將密碼學算法應用于數據鏈路層的問題)、IPSec(解決如何將密碼學算法應用于網絡層的問題),解決如何將密碼學算法應用于網絡物理層的問題。2.32.3 技術體系與關鍵機制技術體系與關鍵機制本白皮書提出的 PHYSec 技術體系架構主要包括三個層次:認證通道層、密鑰管理層和數據加解密層,如圖 2-3 所示。
19、中國移動新型智算中心以太網物理層安全(PHYSec)架構白皮書(2024)8圖 2-3 PHYSec 技術體系架構認證通道層:負責對設備及光模塊的身份認證與身份管理,確保相互通信的兩端是合法的以太網設備。認證通過后,需要對認證通道進行?;?。認證通道層的功能主要由平臺業務軟件實現。密鑰管理層:負責運行過程中密鑰的派生與管理、密鑰定期更新分發以及密鑰超期等異常狀態處理。密鑰分發完成后,還需要對使用該密鑰的加密鏈路進行?;?。密鑰管理層的功能主要由平臺業務軟件實現。數據加解密層:分為鏈路級加解密與通道級加解密?;谙到y下發的密鑰,分別通過加密引擎和解密引擎對信號進行加密和解密操作。數據加解密層可以在光
20、模塊或 PHY 芯片實現。PHYSec 的認證通道層、密鑰管理層以及數據加解密層都可以與更上層的管控系統進行交互,從而對安全狀態進行監控,如查詢安全身份是否過期、密鑰超期上報、以及加解密失敗告警等安全管控操作。中國移動新型智算中心以太網物理層安全(PHYSec)架構白皮書(2024)9應用接入與控制平臺也可以實時對認證通道層的安全身份進行管理與控制。PHYSec 的整體流程包含加密能力查詢及初始化、身份認證、密鑰協商與管理以及數據加解密,如圖 2-4 所示。圖 2-4 PHYSec 整體技術流程加密能力查詢及初始化:在加密協商開始前,軟件通過調用驅動接口獲取光模塊/PHY 芯片的規格。若返回規
21、格失敗,則終止流程;若返回規格成功,則軟件判斷光模塊/PHY芯片是否具備加密能力。如果不支持加密則中止流程;如果支持加密,則向對端通告加密能力,并協商加密方式,平臺業務軟件根據協商結果進行加密初始化配置。身份認證:PHYSec 的身份認證機制主要是確保相互通信的設備及光模塊具有合法身份。中國移動新型智算中心以太網物理層安全(PHYSec)架構白皮書(2024)10密鑰協商及管理:PHYSec 的密鑰協商機制主要是確保相互通信的設備協商出相同的對稱密鑰,并負責加解密運行過程中密鑰的更新與切換。當密鑰協商完成后,相互通信的設備建立起安全通道。數據面加解密:在完成認證與密鑰協商后,PHYSec 基于
22、系統下發的密鑰對物理層比特流采用“流加密”方式進行加密發送與接收解密。需要停止加解密時,系統下發停止加解密的指令,模塊內對應的密鑰信息清除,同時清除各種統計信息。PHYSec 鏈路級方案的數據加解密和通道級方案的數據加解密在以太網物理層的不同層次實現,以 200G/400G/800G 為例,PHYSec 的部署層級架構如圖 2-5 所示。圖 2-5 PHYSec 部署層級位置2.3.12.3.1 物理層身份認證機制物理層身份認證機制PHYSec 的身份認證機制主要是確保相互通信的兩端是合法的以中國移動新型智算中心以太網物理層安全(PHYSec)架構白皮書(2024)11太網設備。傳統以太網認證
23、方式是基于鏈路層設備(如交換機)端口認證的機制,如 802.1X、MAC 地址認證等。這種認證方式在認證過程中只利用了通信設備的信息,并沒有利用接口上光模塊的信息,所以無法確認光模塊的合法性,存在一定的安全風險。如圖 2-6 所示為PHYSec 的身份認證框架。PHYSec 的認證機制將光模塊的唯一身份標識(ID)融入到認證過程當中,確保了設備與光模塊均具有合法性。圖 2-6 PHYSec 身份認證框架通信設備通過提前配置預共享密鑰 PSK,設備通過 IIC 接口將存放在光模塊中的標識 ID 讀取到設備內,雙方設備通過交互認證信息進行雙向身份認證。認證信息可以是設備 PSK 對設備 ID、光模
24、塊 ID以及安全隨機數進行加密運算得到的密文。此處對加密算法不做限制,滿足安全性要求即可,如標準化的 AES 或 SM4 算法。當執行插拔以及更換光模塊等操作時,需要重新進行認證流程。2.3.22.3.2 物理層物理層密鑰密鑰管理機制管理機制PHYSec 的密鑰管理機制主要是解決數據加密密鑰派生、分發和管理的問題。如圖 2-7 所示,在加密通信前,通信節點間首先會建立安全通道并持續維護安全通道的狀態;在建立了安全通道后,通信雙中國移動新型智算中心以太網物理層安全(PHYSec)架構白皮書(2024)12方會運行密鑰協商協議,從而安全、及時地分配用于數據面加密的對稱密鑰。圖 2-7 安全通道建立
25、示意圖現有的安全技術如 TLS、IPSec 以及 RDMASec 等在 N 個通信節點的組網場景下,理論上都需要建立 N2級的安全會話數。如圖 2-8 與圖2-9 所示,對于每個通信節點,在 worst case 下每個節點需要和其他 N-1 個節點建立安全會話,共有 N 個這樣的節點,所以建立的安全會話數是 N(N-1)。若考慮節點 A 和節點 B 之間通常只需要建立一條雙向的安全會話,則總的安全會話數是 N(N-1)/2。對于大規模通信網絡,比如具有上萬個計算節點的智算中心,每個節點峰值期間需要維護大量的安全會話與密鑰,安全管控面復雜度太高,這對節點CPU 資源以及網卡中內存資源提出極大挑
26、戰。圖 2-8 示例拓撲:6 個通信節點中國移動新型智算中心以太網物理層安全(PHYSec)架構白皮書(2024)13圖 2-9 傳統安全機制通信節點間數據面與管控面安全鏈接針對類似圖 2-8 所示的組網連接,PHYSec 的密鑰管理機制選定交換機/路由器作為密鑰服務器 key server。僅需要 key server 與其他通信節點間建立管控面安全會話,由 key server 進行密鑰生成與分發,其他節點只接收密鑰,簡化密鑰管理。如圖 2-10 與圖 2-11所示,安全管控面僅需要建立 N 條安全會話數,實現安全管控復雜度從 O(N2)降為 O(N)。圖 2-10 PHYSec 數據面安
27、全連接示意圖圖 2-11 PHYSec 管控面安全連接示意圖針對多個節點服務于一個業務的場景,比如智算中心內部多個節點共同執行同一 AI 訓練任務,PHYSec 密鑰管理機制對屬于同一個業務的所有通信節點配置相同的 PSK,進一步簡化密鑰管理。Key server通過預配置的 PSK 生成會話密鑰 SAK,將 SAK 加密后分發給同一業務中國移動新型智算中心以太網物理層安全(PHYSec)架構白皮書(2024)14的其他通信節點,節點間使用 SAK 對通信數據進行加解密。同樣,多個節點服務于一個租戶的場景也可以采用此簡化方案。2.3.32.3.3 物理層數據加解密機制物理層數據加解密機制PHY
28、Sec 的數據加密解密主要提供數據的機密性保護與完整性保護,防止數據泄露及被篡改。PHYSec 提供鏈路級方案與穿越 OTN/SPN等設備的通道級方案,滿足未來網絡安全訴求,如圖 2-12 所示。圖 2-12 PHYSec 鏈路級與通道級解決方案示意PHYSec 基于對稱加密算法對數據進行加解密,可選算法有 NIST標準化算法 AES 與中國國家商用密碼標準 SM4,可以根據使用場景靈活選擇。以 AES 為例,PHYSec 采用密鑰長度為 256 bit 的對稱加密,安全性極高。PHYSec 在物理層將加解密算法卸載到底層芯片或模塊中,實現線速加解密,加密和解密流程如圖 2-13 所示。圖 2
29、-13 PHYSec 數據加密流程2.3.3.1 鏈路級加解密技術方案考慮 PHYSec 優先在模塊內部署,其加密架構如圖 2-14 所示。數據幀從發端 MAC 層經過 RS 進入發端 PHY 芯片后變成數據比特流,經中國移動新型智算中心以太網物理層安全(PHYSec)架構白皮書(2024)15過編碼、擾碼、對齊標記(Alignment Marker,AM)插入、FEC 等物理層處理流程后進入光模塊。發端光模塊的 oDSP 先對收到的比特流進行 AM 鎖定,然后將 AM 鎖定后的比特流組合為復幀進入 oDSP 內的加密模塊進行加密變成密文比特流后發送到對端。收端光模塊收到密文后先進行 AM 鎖
30、定恢復復幀比特流,然后 oDSP 內的解密模塊對密文比特流解密恢復成明文比特流后送入收端 PHY 芯片內進行后續處理。圖 2-14 PHYSec 鏈路級加密解密架構PHYSec 在以太網物理層 PCS 底層實現加解密。將 N(N 由接口速率確定)個 AM 數據段復合形成復幀比特流,作為 PHYSec 的最小加解密單元。以 200G/400GE 接口為例,如圖 2-15 所示,使用 AM block 部分字段(例如 UP0、UP1、UP2)承載初始化向量(IV)、密鑰標識(KeyIndex)等安全相關信息與同步標識(復幀頭部、MF Status),用于控制加解密。為了保證所述字段承載信息后仍然維
31、持直流均衡,建議所述字段實施字節 0/1 均衡(例如:UP0、UP1、UP2 的低 4 bit 承載信息,高 4 bit 為低 4 bit 取反)。中國移動新型智算中心以太網物理層安全(PHYSec)架構白皮書(2024)16圖 2-15 復幀結構當光模塊 DSP 容量預算不足或未加載 DSP 單元,該加密解密方案也可以部署于 PHY 芯片。該技術方案與部署方式解耦,具體部署方式參見 3.2 小節。2.3.3.2 通道級加解密技術方案PHYSec 通道級加解密技術方案需要在 PHY 芯片內部署,其加密架構如圖 2-16 所示。數據幀從發端 MAC 層經過 RS 進入發端 PHY 芯片PCS 高
32、層編碼為 64B/66B 碼塊流,針對此碼塊流進行 65B 壓縮(同時可以壓縮部分 IDLE 碼塊),然后全部加密,密文封裝到 64B/66B 類似為數據碼塊的64bit區域,然后增加1個D碼塊承載解密所需的參數,最后首位添加 S、T 碼塊,構造一個完整的加密段(Segment),然后再實施 PHY 層其他處理。接收端收到加密段,從第一個 D 碼塊提取解密所需的參數,對其余 D 碼塊內的用戶信息實施解密,然后還原為65B 碼塊流,再解壓縮為 64B/66B 碼塊流。整個加密和解密流程都以IEEE 802.3 標準規范的 64B/66B 碼塊流實施加密解密,前向兼容 IEEE802.3 MAC/
33、PHY 標準功能。中國移動新型智算中心以太網物理層安全(PHYSec)架構白皮書(2024)17圖 2-16 PHYSec 通道級加密解密架構PHYSec 在以太網物理層 PCS 高層加解密,加密側流程如圖 2-17,解密側是加密側的逆操作??紤]壓縮部分 IDLE,PHYSec 通道級加解密技術方案可以做到不占用用戶開銷;考慮 Worst case 情況下,不壓縮 IDLE,并在 Segment 之間保留 400PPM 的 IDLE 資源,Segment 采用 N 個 D 碼塊裝載 M 個用戶碼塊,再設置 1 個 D 碼塊承載加密和解密參數,首尾添加 S 和 T 碼塊,T 后再追加 1 個 I
34、DLE 碼塊,則利用率為=+2+1+1,且要求滿足 64=65,選擇合適的 M 與 N,可以做到97%的高利用率和低開銷。圖 2-17 PHYSec 通道級技術方案加密側流程2.42.4 技術優勢技術優勢相比于 RDMASec、MACSec 等加密機制,PHYSec 在安全性、帶寬中國移動新型智算中心以太網物理層安全(PHYSec)架構白皮書(2024)18利用率、時延等方面都有優勢,具體比較如表 2-1 所示:表 2-1 不同加密機制對比比較項比較項R RDMASecDMASecMACSecMACSecPHYSecPHYSec加密層次加密層次傳輸層鏈路層物理層(全 bit 流)用戶流量特征用
35、戶流量特征暴露暴露完全掩蓋加密開銷加密開銷大(逐包開銷 40B)中(逐包開銷 24-32B)低(接近 0)加密時延加密時延*微秒級微秒級幾十納秒加密配置加密配置相對復雜簡單簡單加密性能加密性能(線速線速)達到線速(實現代價大)達到線速達到線速*加密時延與加密對象帶寬速率有關。以 400G 為例,基于硬件實施 MACSec 的安全 PHY,時延 100200ns,而在 PHY 層實施的 PHYSec,時延約 40ns。(1 1)高安全)高安全PHYSec 在物理層實現了全加密,相比于 RDMASec、MACSec,PHYSec可以加密所有的鏈路層及以上的協議與用戶信息,掩蓋了流量特征,如表 2-
36、2 所示。表 2-2 RDMASec、MACSec 及 PHYSec 保護能力對比比較項比較項R RDMASecDMASecMACSecMACSecPHYSecPHYSec能否保護載荷能否保護載荷是是是能否保護應用層協議能否保護應用層協議是是是能否保護能否保護 TCP/UDPTCP/UDP 頭部頭部是是是能否保護能否保護 IPIP 頭部頭部否是是能否保護以太幀頭部能否保護以太幀頭部否部分是能否隱藏數據包發送頻率能否隱藏數據包發送頻率否否是能否隱藏數據包長度能否隱藏數據包長度否否是能否保護能否保護 VLAN-TagVLAN-Tag否是是能否保護能否保護 ARP/NDPARP/NDP否是是能否保護
37、能否保護 802.3ah802.3ah否否是能否保護生成樹協議能否保護生成樹協議否否是能否保護能否保護 ICMPICMP是是是中國移動新型智算中心以太網物理層安全(PHYSec)架構白皮書(2024)19能否保護鏈路自動發現協能否保護鏈路自動發現協議議LLDPLLDP否否是能否保護鏈路聚合協議能否保護鏈路聚合協議 LACPLACP否否是能否保護能否保護 IGMPIGMP否是是能否保護能否保護(g)PTP(g)PTP否是是能否保護能否保護 PFC/PausePFC/Pause否否是能否保護能否保護 IEEEIEEE 1722(AVB)1722(AVB)否是是(2 2)低開銷低開銷現有的鏈路層及以
38、上的安全機制如 RDMASec、MACSec 都會帶來較大的加密開銷,如表 2-1 所示。RDMASec 逐包加密,通常每幀需要引入 40 字節的開銷,包括 8 字節的 UDP header 與 32 字節的加解密參數與完整性校驗值,對于短幀場景(比如每幀 64 字節),RDMASec 的有效帶寬利用率不足 70%。MACSec 逐幀加密,通常每幀需要引入額外開銷 32 字節來承載加解密參數與完整性校驗值等。對于短幀場景(比如每幀 64 字節),MACSec 的有效帶寬利用率不足 70%。如圖 2-18 所示。PHYSec 使用以太網物理層的 OAM 碼塊來承載加解密參數,不引入額外的帶寬開銷
39、,對于智算中心互聯及企業園區等帶寬敏感的使用場景具有帶寬利用率高的優勢。圖 2-18 RDMASec、MACSec 及 PHYSec 加密開銷對比(3 3)低時延)低時延中國移動新型智算中心以太網物理層安全(PHYSec)架構白皮書(2024)20相較于 RDMASec 和 MACSec,PHYSec 工作在物理層,易于在硬件或芯片上實現,時延可以達到幾十納秒級別,如表 2-1 所示,對于重視低時延的智算中心場景有明顯優勢。(4 4)低復雜度低復雜度RDMASec/MACSec PHY 架構將加密功能下沉到 PHY 芯片內實現,只需要對交換機/路由器等設備端口進行升級便可支持加密功能,對設備的
40、改動相對較小。這種架構將加解密運行時所需的功耗、算力都卸載到 PHY,分擔了上層芯片的負擔。但這種架構需要在 PHY 芯片中執行背靠背操作,即將 PHY 中的比特流恢復到包或幀,然后對恢復后的包或幀進行加解密。加解密后再處理成比特流送入后續的 PHY 處理模塊,處理過程如圖 2-19 所示。這種背靠背的架構實現需要在 PHY中引入更多的芯片實現代價、處理時延和功耗。PHYSec 是針對物理層比特流的加解密機制,避免了上述背靠背操作引入的額外芯片實現代價、時延和功耗。圖 2-19 MACSec/RDMASec 芯片架構(5 5)協議透明)協議透明PHYSec 的加密對象是物理層的比特流,可以做到
41、對上層業務和協議進行透明加解密,即不感知上層業務和協議,如圖 2-20 所示。透明加解密會帶來如下優勢:不影響上層業務,如上層轉發機制、Cut-through 機制等。中國移動新型智算中心以太網物理層安全(PHYSec)架構白皮書(2024)21上層增刪業務時,無需修改安全配置與安全實例。加解密操作由 MAC 層下沉到 PHY,分擔了上層芯片(如 ECU、CPU、NP 芯片)的負擔。圖 2-20 PHYSec 加密層級中國移動新型智算中心以太網物理層安全(PHYSec)架構白皮書(2024)223.3.應用與部署應用與部署3.13.1 應用場景應用場景PHYSec 技術可以被應用于各種以太網鏈
42、路級安全場景,本白皮書重點介紹 PHYSec 在智算中心相關應用場景,包括智算中心入算流量安全、算內節點間互聯安全以及算間節點間互聯安全。(1 1)智算中心智算中心a.智算中心入算流量安全入算對安全的主要訴求是高安全、低開銷。AI 大模型及其應用需要大量的數據作為訓練集,企業等高價值用戶通過靈活的接入專線技術隨時、隨地、隨需接入智算中心,上傳用戶敏感數據到智算中心或從智算中心下載訓練好的模型及參數等敏感資產,如圖 3-1 所示,在此過程中用戶的數據存在被竊聽泄露的風險。低 開 銷 對 接 入 智 算 中 心 專 線 至 關 重 要,相 比 于 使 用RDMASec/MACSec 帶來的 20%
43、以上的開銷,PHYSec 占用極少的用戶帶寬,節省專線成本。此外,PHYSec 可以對用戶所有信息和所有的網絡管控協議全加密,更安全。中國移動新型智算中心以太網物理層安全(PHYSec)架構白皮書(2024)23圖 3-1 智算中心流量入算場景b.智算中心內安全算內對安全的主要需求是低時延、高吞吐。傳統的數據中心內無網絡安全機制,對東西向流量無安全防護,演進到智算中心時代,存在模型、參數及數據等敏感資產泄露的風險。通信鏈路、設備端口暴露,網絡擴容升級、頻繁運維、多租戶等典型場景都需要加強安全防護。例如,智算中心服務商提供設備及服務器等基礎設施出租的業務,不同租戶共用相同的機房或機架或通信設備,
44、服務器與網絡難以精確物理隔離,不同租戶根據需求頻繁租用或退租,需要計算節點之間對所有通信流量加密,確保租戶的模型架構、參數與數據安全。智算中心內典型的組網拓撲包含 Clos 架構與直連(dragonfly)架構,如圖 3-2 所示。使用 RDMASec、MACSec 等安全機制,面臨安全加密實例多,加解密額外引入的時延大,以及加解密帶寬開銷大的挑戰。PHYSec 適用于這兩種常見的智算中心組網拓撲,可以將加解密時延降低至百納秒級,且安全加密實例數低,不占用用戶帶寬。如果通過光模塊實現 PHYSec,則無需更換服務器、交換機等硬件設備,易于部署。中國移動新型智算中心以太網物理層安全(PHYSec
45、)架構白皮書(2024)24圖 3-2 智算中心典型拓撲示例。CLOS 架構直連架構c.智算中心間安全算間對安全的主要訴求是高安全、高吞吐。智算中心間的高速互聯光纖以及鋪設光纖的管井等暴露的物理設施,存在被攻擊竊聽的風險。使用 PHYSec 光模塊可以杜絕光纖信號被竊聽的風險,而且不需要更換現有的智算中心網絡互聯設備,如圖 3-3 所示。高安全對智算中心高速互聯場景至關重要,相比于使用MACSec 對互聯鏈路進行保護,PHYSec 可以對用戶所有信息和所有的網絡管控協議全加密。圖 3-3 智算中心互聯場景3.23.2 部署架構部署架構PHYSec 可以根據不同場景來靈活選擇合適的部署模式。不同
46、的PHYSec 部署方式,其實現架構與具體的加密位置略有不同。1)面向以太網中已有存量設備無法進行硬件芯片更換的場景,可以在存量設備中插入已部署 PHYSec 的光模塊實現數據加解密,直接兼容現有網絡設備,迅速升級鏈路安全通信能力,保護現有設備與通信資產。加解密功能主要運行在以太網物理層的 PCS 底層,由光模塊中電芯片(如數字信號處理芯片)實現,其架構如圖 3-4所示。即使網絡原來不具備安全能力,這種 PHYSec 部署模式也可以提供補救升級的機會。中國移動新型智算中心以太網物理層安全(PHYSec)架構白皮書(2024)25圖 3-4 PHYSec 實現方式光模塊部署2)面向以太網新增設備
47、的安全加密需求,可以考慮在新增設備的 PHY芯片中部署 PHYSec,保護整個設備端口加鏈路,兼容現有光模塊。加解密功能主要運行在以太網物理層的 PCS 層,其架構如圖 3-5所示。圖 3-5 PHYSec 實現方式PHY 芯片部署3)面向以太網鏈路兩端分別為存量設備和新增設備的安全場景,可以在新增設備的 PHY 芯片中部署 PHYSec,在存量設備中插入已部署 PHYSec 的光模塊,即可升級鏈路安全通信能力,其架構如圖 3-6所示。其中,PHY 芯片主要在 PCS 層實現 PHYSec,光模塊中由電芯片(如數字信號處理芯片)實現 PHYSec。圖 3-6 PHYSec 實現方式混合部署中國
48、移動新型智算中心以太網物理層安全(PHYSec)架構白皮書(2024)264.4.總結與展望總結與展望隨著 AI 技術的快速發展,大量敏感數據與 AI 模型參數在以太網上進行傳輸。PHYSec 作為以太網物理層安全技術,可以保護智算中心以太網安全,防止數據泄露,具有低時延、低開銷、高安全、靈活易部署等優點,符合技術與產業的發展趨勢。同時,PHYSec 在衛星互聯網、數據中心、物聯網、園區以及電信網絡等領域也具有巨大的應用潛力,將為 IT 和電信領域的安全市場創造巨大的價值增長點。例如,衛星通信網絡具有信道開放、動態拓撲的特征,在星地互聯、星間互聯都面臨著鏈路傳輸的數據、信令等被截獲或破解的風險
49、。不僅如此,衛星通信的鏈路帶寬資源極為珍貴,對帶寬利用率有極高的要求。PHYSec 在保護衛星通信鏈路安全的前提下,實現極低開銷,滿足衛星通信高帶寬利用率的需求。在可以預見的未來,PHYSec 作為下一代以太網安全技術將帶來巨大的市場空間,并將得到廣泛應用與長足發展。值得注意的是,隨著高性能量子計算機的出現,基于偽隨機數的傳統密鑰加密算法面臨著被破譯的風險。量子密鑰利用光子偏振特性,依靠對光子進行編碼、傳輸、測量等操作完成量子態的密鑰傳輸,其安全性由量子力學的基本原理保證,是唯一理論證明的絕對安全、不會被監聽或截取的密鑰分發技術。如果利用量子密鑰分發技術為PHYSec 提供密鑰,將為以太網帶來
50、史無前例的安全性,可以應對高性能量子計算機帶來的安全挑戰。中國移動新型智算中心以太網物理層安全(PHYSec)架構白皮書(2024)27縮略語列表縮略語列表縮略語英文全名中文解釋AIArtificial Intelligence人工智能AIGCAI Generated Content人工智能生成內容HPCHigh Performance Computing高性能計算CPUCentral Processing Unit中央處理單元EEPROMElectrically Erasable Programmable ReadOnly Memory電可擦除可編程只讀存儲器IEEEInstitute of
51、 Electrical and ElectronicsEngineers電氣與電子工程師協會UDPUser Datagram Protocol用戶數據報協議IPInternet Protocol網際協議RDMARemote Direct Memory Access遠程直接內存訪問NPNetwork Processor網絡處理器ECUElectronic Control Unit電子控制單元PFCPriority-based Flow Control基于優先級的流量控制TLSTransport Layer Security傳輸層安全協議IPSecInternet Protocol Securit
52、y因特網協議安全協議RDMASecRemote Direct Memory Access Security遠程直接內存訪問安全協議MACSecMedia Access Control Security媒體接入控制安全協議PHYSecPhysical Layer Security物理層安全協議AESAdvanced Encryption Standard高級加密標準NISTNationalInstituteofStandardsandTechnology美國國家標準與技術局PSKPre-Shared Key預共享密鑰SAKSecure Association Key安全聯盟密鑰oDSPoptic
53、al Digital Signal Processor光數字信號處理芯片MFMulti-frame復幀PCSPhysical Coding Sublayer物理編碼子層IVInitialization Vector初始化向量VLANVirtual Local Area Network虛擬局域網ARPAddress Resolution Protocol地址解析協議NDPNeighbor Discovery Protocol鄰居發現協議中國移動新型智算中心以太網物理層安全(PHYSec)架構白皮書(2024)28LLDPLink Layer Discovery Protocol鏈路層發現協議LA
54、CPLink Aggregation Control Protocol鏈路聚合控制協議IGMPInternet Group Management Protocol互聯網組管理協議gPTPgeneralized Precision Time Protocol廣義精確時間協議AVBAudio Video Bridging音頻視頻橋接TORTop of Rack機柜交換機中國移動新型智算中心以太網物理層安全(PHYSec)架構白皮書(2024)29參考文獻參考文獻1RFC 5042:Direct Data Placement Protocol(DDP)/Remote Direct MemoryAcc
55、ess Protocol(RDMAP)Security2Google white paper:PSP Architecture Specification,20223IEEE 802.1AE-2018:Media Access Control(MAC)Security4RFC 9347:Aggregation and Fragmentation Mode for EncapsulatingSecurity Payload(ESP)and Its Use for IP Traffic Flow Security(IP-TFS)5ISO7498-2:InformationprocessingsystemsOpenSystemsInterconnectionBasicReferenceModelPart2:SecurityArchitecture