《中國移動:DPU裸金屬服務器技術規范和生態建設-2022開放數據中心峰會(16頁).pdf》由會員分享,可在線閱讀,更多相關《中國移動:DPU裸金屬服務器技術規范和生態建設-2022開放數據中心峰會(16頁).pdf(16頁珍藏版)》請在三個皮匠報告上搜索。
1、DPU裸金屬服務器技術規范和生態建設演講人:王 鵬演講單位:中國移動研究院目錄01機遇與挑戰裸金屬服務器技術規范解讀總結和展望020304中國移動DPU標準和生態建設趨勢與機遇產業數字化轉型要求極致的數據處理效率以DPU為代表的軟硬件深度融合的新型計算架構逐漸興起DPUAI芯片GPUCPUHDDiSCSI、NVMeSDNRDMASSDDPUCPUAI芯片GPUHDDiSCSI、NVMeSSD數據多樣性催生以數據為中心的新型計算架構DPU是算力網絡算力基礎設施堅實底座中國移動所提出的算力網絡業務對于底層基礎算力和數據中心網絡的要求更加高端和多樣化DPU可實現低損耗、高性能、高靈活、強安全,支撐算
2、力網絡多樣化業務需求DPUCPU、GPU、AI芯片管理運維系統虛擬機容器裸金屬業務網絡、存儲網絡算力節點算力服務形態算力服務管理編排業務場景智能計算大數據云游戲分布式存儲技術體系不完善、產業生態不健全是DPU行業面臨的核心挑戰各自為營、定向適配的商業模式限制了DPU的產業發展,亟需完善技術體系,構建統一軟硬件標準,加強產業合作,推動DPU產業生態穩步健康發展產業生態技術體系DPU與云平臺、服務器三位一體共同構成端到端解決方案,任一環節的缺失均會影響產業落地技術架構不獨立:DPU本質是云化、虛擬化技術從純軟件實現向軟硬結合發展的結果,技術架構與云計算關系密切,耦合度高技術路線不明晰:DPU在實現
3、某一功能時,存在多種技術路線,無法收斂技術標準不成熟:DPU功能與接口缺乏標準,硬件及服務器多為定制化實現,國內外相關標準組織剛剛起步DPU落地商用需要云平臺、DPU、服務器三方定向適配,導致適配時間長、成本高云計算的需求決定DPU技術體系,云計算新技術、新場景迭代頻繁,使得DPU的“易用性”成為落地關鍵服務器DPU云平臺目錄01機遇與挑戰裸金屬服務器技術規范解讀總結和展望020304中國移動DPU標準和生態建設為什么做硬件規范技術現狀:裸金屬智能網卡內除網絡芯片外還會包含輕量級CPU芯片(或集成在其他芯片內的處理器內核)及帶外管理模塊,該部件可看作在服務器內部的另一個小型服務器。裸金屬智能網
4、卡的引入對傳統服務器設備提出了定制化要求行業已有的解決方案:大云采用 JDM 模式,服務器+DPU硬件全定制實現做規范的驅動力:集采模式存在服務器整機與裸金屬卡硬件解耦的需求,多樣化的DPU卡廠商與服務器廠商也存在彼此適配的需求。新技術的規模推廣需要足夠聚焦足夠靈活的硬件規范進行設計拉齊硬件加速引擎網口網口協處理器CPUCPUCPUPCIeSlot硬件加速引擎網口網口協處理器CPUCPUCPUPCIeSlotPCIeSlotVender A:裸金屬智能網卡Vender B:通用服務器PCIeSlotDPU主從服務器整機定制化服務器設備定制卡規范做什么硬件加速引擎網口Vender B:通用服務器
5、網口協處理器CPU帶外管理供電Vender A:裸金屬智能網卡CPUCPU電源帶外管理散熱模組PCIe槽位時序控制PCIe槽位 目標:用于指導基于DPU的裸金屬服務器設計,約束整機硬件所能為卡提供的最大能力,讓服務器與卡具備適配前提 范圍:適用于數據中心通用服務器產品,使用對象為服務器廠商(不涉及裸金屬卡的硬件標準化)內容:面對未來2-3年技術趨勢,遵循最小影響原則做通用增強,設置 Optional 等級約束,聚焦“四個統一”,形成可量化的硬件規范統一服務器結構及供電最大能力統一硬件輔助邊帶信號定義統一散熱能力統一帶外管理功能邊界約束服務器可支持卡的最大結構規格及最大功耗門限約束服務器可支持卡
6、在服務器未開機狀態啟動約束服務器支持未開機狀態對卡進行散熱及調速約束服務器能夠提供給DPU的輔助邊帶信號逐步收斂DPU及服務器兩者帶外管理模塊的職責及交互框架,最終做到邊界清晰結構及槽位信號解讀 關鍵點1:槽位最大支持全高、雙寬、3/4長規格的標準PCIe設備 關鍵點2:(optional)建議裸金屬卡所在槽位的100MHz時鐘在主板S5狀態使能 關鍵點3:(optional)裸金屬卡為解決卡自身散熱需求會傾向采用較重材質的散熱片設計,建議整機結構預留支持卡的卡尾設計,設計兼容半長、3/4長卡供電及散熱解讀 關鍵點1:為滿足裸金屬場景云平臺管理需求,整機需要支持裸金屬卡在整機 S5 狀態啟動,
7、即裸金屬卡與主板內 BMC、CPLD 等設備同時上電,也需要具備在 S5 狀態下對裸金屬卡進行針對性散熱的能力 關鍵點2:滿足金手指+主板輔助供電總功耗不小于 225W,(optional)建議根據需求及方案綜合評估是否提供總功耗不小于 300W 的供電能力 關鍵點3:(optional)建議整機可提供在BIOS或BMC下選擇PCIe槽位是否支持特殊供電方式(S5下使能)或通用供電方式(無S5下使能)的選項硬件加速引擎網口網口協處理器CPU帶外管理供電連接器CPUCPU電源帶外管理散熱模組PCIe槽位時序控制PCIe槽位主板供電連接器提供輔助供電能力12V電軌,12.5A以上電流主板PCIe槽
8、位提供75W 供電能力服務器未開機時裸金屬卡所在槽位的供電及散熱無法滿足,是硬件生態面臨的首要問題部件功耗已突破150W且日益上漲,需要謹慎討論功耗門限供電及散熱解讀 關鍵點4:主板BMC需能夠在整機S5和S0狀態下獲取裸金屬卡內關鍵溫度信息,包括但不限于進出風口、FPGA、SOC、ASIC、光模塊、內存模組等,在主板S5及S0狀態提供針對性的風扇調控策略 關鍵點5:(optional)建議支持S5狀態下N顆風扇轉速調節(N小于等于整機內總風扇數量),以降低整機能耗硬件加速引擎網口網口協處理器CPU帶外管理供電CPUCPU電源帶外管理風扇PCIe槽位時序控制PCIe槽位建議支持S5狀態僅部分風
9、扇使能,精細化調速主板BMC在S5及S0均可獲取DPU內關鍵溫度信息風扇風扇風扇輔助邊帶信號解讀 關鍵點1:除了標準PCIe槽位以外,輔助邊帶信號應包括 NSCI 信號,并選擇性提供 UART、I2C、RSVD_IO 信號 關鍵點2:(optional)RSVD_IO建議由輔助邊帶信號連接器連接至主板CPLD GPIO,利用CPLD可編程特性滿足不同場景的差異化需求。包括但不限于裸金屬卡在位、裸金屬卡心跳信號、裸金屬卡BootComplete、線纜插穩檢測等 關鍵點3:規范不對輔助邊帶信號的連接器選型及 Pin 定義進行約束信號名稱信號電平信號描述必要性RBT_REF_CLK3.3VRMII參
10、考時鐘,典型頻率50MHz 50 ppm必選RBT_CRS_DV3.3VRMII控制信號必選RBT_RXD0 RBT_RXD13.3VRMII數據接收信號必選RBT_TX_EN3.3VRMII控制信號必選RBT_TXD0 RBT_TXD13.3VRMII數據發送信號必選I2C_SCL3.3VI2C時鐘信號optionalI2C_SDA3.3VI2C數據信號optionalUART_TX3.3V串口數據發送信號,多用于滿足裸金屬卡與主機BMC SOL需求optionalUART_RX3.3V串口數據接收信號,多用于滿足裸金屬卡與主機BMC SOL需求optionalRSVD_IO03.3V預留信
11、號optionalRSVD_IO13.3V預留信號optionalRSVD_IO23.3V預留信號optionalRSVD_IO33.3V預留信號optionalGND3.3V地信號必選規范后續規劃項目后續將會圍繞裸金屬服務器雙帶外管理模塊功能邊界、BIOS及BMC特征需求、整機上下電及運維場景等方面進行探討并給出方案建議,并逐步推動規范在通用服務器中的物理實現DPU卡是否必須具備帶外管理模塊?DPU卡的帶外管理模塊與Host-BMC的頂層關系?帶外管理模塊應具備哪些必須功能?面向彈性裸金屬應用,裸金屬服務器的BIOS、BMC是否有特征需求可以進行歸一化?裸金屬卡是在服務器內運行的“第二套小系
12、統”,裸金屬卡又作為PCIe Slave設備掛在Host-CPU下引入裸金屬卡后,卡與整機的上下電,卡的復位、固件升級、異常下電、故障處理等場景需要如何設計?DPU卡帶外管理模塊Host-BMCHost-BMCHost-BIOS彈性裸金屬應用裸金屬服務器DPU目錄01機遇與挑戰裸金屬服務器技術規范解讀總結和展望020304中國移動DPU標準和生態建設中國移動DPU標準和生態建設DPUCPU硬件加速引擎Host OS管理系統存儲系統網絡系統計算系統虛擬機/容器裸金屬分階段推進軟件標準化:圍繞管理、網絡、存儲、計算、安全五大軟件系統,定義DPU軟件功能要求和交互接口建立DPU開放實驗室:錨定業務場景孵化器、技術方案實驗床、產業聚合平臺三大定位,推進DPU產業穩步健康發展業務場景孵化器技術方案實驗床產業聚合平臺安全系統三云實踐:面向公有云業務、5G網絡云業務、IT私有云業務,同步推進內部試點及企標制定,明確特征性需求,最大化使能DPU能力移動云網絡云IT云中國移動在DPU標準和生態建設方面有著系統化布局及分階段推進策略目錄01機遇與挑戰裸金屬服務器技術規范解讀總結和展望020304中國移動DPU標準和生態建設總結與展望未來,中國移動愿與開放數據中心一道持續推進新技術生態建設芯片層級部件層級整機層級多層級探討硬件規范,聚攏產業伙伴,達成技術共識,助推產品規模應用