《20204龍蜥大會中興通訊分論壇:ZXDH_DPU開源生態下的高性能解決方案-冉明.pdf》由會員分享,可在線閱讀,更多相關《20204龍蜥大會中興通訊分論壇:ZXDH_DPU開源生態下的高性能解決方案-冉明.pdf(26頁珍藏版)》請在三個皮匠報告上搜索。
1、ZXDH DPU:開源生態下的高性能解決方案中興通訊 智算云底座冉明/金琦20222022Dinghai 1.0 啟動20242024Dinghai 系列產品推出E310/E312/I510/I512/X510/X51220262026Dinghai 2.0 E510/I710/X710Dinghai NIC RoadMap特性和功能0101典型應用0202產品全貌0303開源貢獻0404特性和功能Features SummaryGeneralSRIOV,8pf/1K vfs支持Virtio-net、VDPAMultique,most 127QP/portStages of parsing、c
2、lassification、ACL、modification and so onvirtualization offloadHierarchical quality of service(QoS)RDMARoCE2 IWAPS200G512B,50MppsNVMENVME_oFRandom READ/WRITE:5000K IOPS4KBSDAcompression and decompression:30Gbps+4KBdeduplication:80Gbps+4KBSecureInline IPsec TLSData-at-rest Storage SecureRoor-of-trust
3、AES/SM4 200Gbps512Bother encryption algorithm 50Gbps512BNetwork Interface 2x200G/100G/50G/25G/10Gb/s;10 x56GserdesPAM4/NRZ;Host Interface Gen5.0 x16/8、Gen4.0 x16,backworkcompatible.MSI/MSI-X interrupt,4Kinterrupts vectors;Flexible PCIe switch supporting self-hosting and server-hostingMulti-host.up t
4、o 4 hosts.DDR2xDDR5(80bit ECC),compatible.with DDR4core4*RISC-VNPFeatures Summary定海System FrameworkZXDH Block DiagramIPSEC/TLSNPPCIE SWITCH ETH 2*200G+2*25G (56G serdes x 10)PCIE Gen5.0 x16PCIE Gen 5.0 x8DDR5IO DMA2PCIENPPUPPUTMSERDMANVMEOther ACCDPILSO/LRORSIC VDDR5D2DM7ZXDH Block DiagramFunctions
5、And Featuresnon-accelerate Network AdapterKEY FEATURESNetwork:Checksum offloadTCP Segmentation offloadVlan QinQ offloaddata head changeJumbo FrameGSO/GRORSS、FDQoS/HQoSMultiQue1588 PTPMulticast and PromiscProgrammable flexible parser、classificationnon-accelerate Netwok AdapterASICnet transferRDMA Cry
6、pto服務器前端:計算服務域服務器前端:計算服務域DockerVMBare Metallinux/ovsPF/VF zxdh drvFunctions And FeaturesINICKEY FEATURESNetwork:Virtio-net backend offload virtio0.95、1.0、1.1 vSwitch fwd offload virtio-net backend ASICvSwitch Fwd DatapathVF virtio-net VM網絡控制面(vSwitch)PF zxdh drv服務器前端:計算服務域主機層Functions And FeaturesDP
7、U關鍵功能和性能網絡卸載和加速Virtio-net接口vDPA框架OVS卸載200G吞吐量,100Mpps轉發性能,200萬流表,時延 multi-level rte_flow_item_type_tag rte_flow_action_set_tagct_statect_markct_zonect_labelrte_flow_attr:groupPRE_CT tableCT tablePOST_CT table800W PRE_CT tablesConnect Tracker tablesPOST_CT tables大模型組網場景采用ZTE 自研CPU+自研DH1.0網卡+自研交換芯片,應對
8、運營商&互聯網市場產品全貌ZXDH 產品全景圖2026年2024年智能網卡芯片DPU卡標準網卡定海2.0 ASIC5nm 800G定海1.0 ASIC7nm 400GNX E510 ASIC 半高半長 2x100GbE/2x200GbE/2x400GbE PCIe5.0X16NX I510/I511/I512 ASIC 半高半長 2x25GbE/2x100GbE/2x200GbE PCIe4.0/PCIe5.0X16NX I710NX E310/E312NEO X510/X512 CPU+ASIC 全高半長雙寬 4x25GbE/2x100GbE PCIe5.0X16NEO X710 CPU+A
9、SIC 全高半長雙寬 2x100GbE/2x200GbE/1x400GbE PCIe5.0X16 ASIC 全高半長 2x25GbE/4x25GbE/2x100GbE PCIe4.0/PCIe5.0X16 ASIC 全高半長 2x100GbE/2x200GbE/1x400GbE PCIe5.0X16中興全系列網卡,精準匹配業務需求,滿足全場景應用智能計算虛擬化性能提升裸金屬云化管理/安全提升AI智算/高性能計算RDMA網絡加速存儲加速 虛擬化場景,實現網絡功能、存儲功能、云管理組件卸載到DPU中,提升算力密度 VSwitch轉發面通過硬件ASIC/FPGA實現網絡性能加速 裸金屬場景通過DPU
10、卡實現云盤啟動、云盤掛載以及存儲安全隔離 通過DPU卡網絡功能實現與虛擬機一致的組網架構通用計算 GPU Direct RDMA GPU Direct Storage 面向AI、HPC場景,支持RoCE網絡和擁塞管理技術,滿足大帶寬、低時延、零丟包要求 并行文件客戶端卸載 加解密、壓縮、去重、EC虛擬層全量卸載和硬件加速,提供極致性能200200萬流表總數200G200Gbits網絡帶寬5M5MIOPS存儲性能20us20us網絡時延0 0抖動DPU卡網絡存儲安全加密Hypervisor虛擬機虛擬機虛擬機虛擬機主機.主機NEO系列DPU卡性能比較普通服務器NEO XC+XE存儲性能網絡時延1M
11、100K20us100us5MNEO X510/X512流表總數200W30W網絡帶寬100G15G200GNEO系列DPU卡輕量化Hypervisor存儲硬件加速方案,提升存儲性能 處理客戶端控制面指令和數據,減少Host端CPU的負載;屏蔽業務虛機直接訪問存儲集群,提升數據訪問安全 DPU通過RDMA網絡直接訪問遠端存儲,低時延,低抖動,低CPU使用率 去重、壓縮,節省CPU資源和軟件開發工作,提升存儲附加功能容器虛機裸金屬計算服務域RDMAiSCSI/RBD/virtiofs客戶端卸載RDMA offloadDPUNVMe oF RDMADPUEC編解碼存儲域去重、壓縮RDMA網絡存儲加
12、速iSCSI/RBD/virtio fs客戶端卸載(應用側)協議加速器端網協同擁塞控制和多路徑流控技術,強化AI網絡性能網絡快速發送CNP,改進DCQCN流量調度能力帶內遙測擴展鏈路狀態信息,實現精準擁塞控制,鏈路故障實時反饋RoCE 控制器通告整網ECMP路徑端側根據QP流負載均衡選路,網絡按規劃路徑轉發充分利用網絡多路徑資源,提高傳輸吞吐率57%90%吞吐率傳統RoCE網絡新型RoCE網絡ECMP多路徑精準流控技術新型擁塞控制技術無損交換機網絡(Fabric)GPU服務器DPUGPU服務器DPU管理RoCE 控制器RoCE交換機高速互連高速互連傳統DCQCN網絡擁塞和流量控制算法端側和網側
13、獨立。網絡僅提供粗顆粒度的擁塞標記信息,很難確保網絡高吞吐滿負荷場景下不出現擁塞、丟包以及排隊時延。RoCE對于丟包敏感,丟包率0.001網絡吞吐量降低50%,對應AI算力降低50%端網協同傳統擁塞技術增加端側和網側聯動1.擁塞控制2.流量調度端網協同擁塞控制和多路徑流控技術提升無損網絡吞吐率,強化AI網絡性能大帶寬低時延能力滿足高性能計算場景需求通用算力集群高性能存儲池Leaf SwitchSpine Switch400G400GRoCEv2CPUStorage異構算力集群GPU/XPUNIC NIC NIC NICNIC NIC NIC NIC12345678200GNICNICNICNIC智算平臺ToCToBToHToN大模型智算場景NX系列標卡支持100G/200G端口,高性能RDMA,滿足智算場景需求基于VPC的RDMA網絡GPU Direct RDMA能力virtio_fs分布式文件卸載大模型計算100G/2