1、胡效赫高速可編程網絡關鍵技術與系統應用網絡安全實驗室清華大學&北京信息科學與技術國家研究中心分布計算與智能加速技術團隊網絡安全實驗室(成立于2003年)http:/tsinghua-nslab.org研究方向網絡算法(始于2003年)網包分類、模式匹配、網流識別、流量管理系統設計(始于2007年)統一威脅管理、軟件定義網絡、可編程網絡網絡自動化(始于2016年)網絡策略編排與驗證2023/4/6Network Security Laboratory,Research Institute of Information Technology2網絡處理器 DPU2023/4/6Network Sec
2、urity Laboratory,Research Institute of Information Technology32013年 72眾核網包分類、正則匹配Intel IXPCavium OCTEON2014年2016年2019年2020年NVIDIA BlueField-2 DPU網內計算In Network Computing異構計算2023/4/65MemoryALU可編程解析器可編程“匹配+處理”流水線header_type ethernet_t header_type l2_metadata_t headerethernet_t ethernet;headervlan_tag_
3、t vlan_tag2;metadata l2_metadata_t l2_meta;包頭與元數據聲明解析程序parser parse_ethernet extract(ethernet);return switch(ethernet.ethertype)0 x8100:parse_vlan_tag;0 x0800:parse_ipv4;0 x8847:parse_mpls;default:ingress;流表與控制table port_table control ingress apply(port_table);if(l2_meta.vlan_tags=0)process_assign_v
4、lan();CPU計算Java/CGPU圖形OpenCLDSP信號處理MATLAB人工智能TPUTensorFlow網絡P4FPU/DPU領域專用處理器網絡抽象傳統網絡是一個黑盒2023/4/6Network Security Laboratory,Research Institute of Information Technology6網絡抽象可編程使得網絡逐漸白盒化2023/4/6Network Security Laboratory,Research Institute of Information Technology7網內計算在數據移動時進行處理基于可編程網絡,將數據事務的部分計算從
5、CPU轉移到網絡滿足I/O密集型系統的高吞吐量、低延遲和低功耗的需求2023/4/6Network Security Laboratory,Research Institute of Information Technology8通用服務器大數據人工智能智能網卡白盒交換機共識緩存集合通信網內計算學術界工作2023/4/6Network Security Laboratory,Research Institute of Information Technology9When In-Network Processing Meets Distributed Systems,Bojie Li,APNe
6、t 2021應用場景交換機側-轉發處理器服務器側-數據處理器擁塞控制HPCC SIGCOMM 19,pFabric SIGCOMM 13,DeTail SIGCOMM 12,CP NSDI 14,NDP SIGCOMM 17DCQCN SIGCOMM 15,TIMELY SIGCOMM 15,MP-RDMA SIGCOMM 18,IRN SIGCOMM 18負載均衡SilkRoad SIGCOMM 17VFP NSDI 17,Tiara NSDI 22鍵值緩存SwitchKV NSDI 16,NetCache NSDI 17,IncBricks ASPLOS 17Pilaf ATC 2013,
7、FaRM NSDI 2014,DrTM SOSP15,FaSST OSDI 16,KV-Direct SOSP 17數據聚合SHARP Mellanox,DAIET SoCC 17,SwtichML NSDI 21,ATP NSDI 21,Trio SIGCOMM 22,ASK ASPLOS 23NetAgg CoNEXT 14,CamCube SIGCOMM 10鎖、共識NetLock SIGCOMM 20,NetChain NSDI 18,NetPaxos SOSR 15,SpecPaxos NSDI 15,NOPaxos OSDI 16,Eris SOSP 17DSLR SIGMOD 1
8、8,Consensus in a Box NSDI 16,DARE HPDC 15,APUS SoCC 17,DerechoCornell TR 16,Mu OSDI 20編程平臺P4Visor CoNEXT 18,P4 SIGCOMM 20,Domino SIGCOMM 16,Lyra SIGCOMM 20,Gallium SIGCOMM 20,NetRPC NSDI 23Floem OSDI 18,iPipe SIGCOMM 19,StRoM EuroSys 20,ClickNP SIGCOMM 16,FairNIC SIGCOMM 19,-NIC ICDCS 20負載均衡2023/4/6
9、Network Security Laboratory,Research Institute of Information Technology10RS_IPRS_IP負載均衡2023/4/6Network Security Laboratory,Research Institute of Information Technology11$200k each100-200 servers50-100MB SRAMTiara2023/4/6Network Security Laboratory,Research Institute of Information Technology12Tiara
10、系統架構2023/4/6Network Security Laboratory,Research Institute of Information Technology13Tiara實現評測2023/4/6Network Security Laboratory,Research Institute of Information Technology14Tiara實現評測2023/4/6Network Security Laboratory,Research Institute of Information Technology15Tiara實現評測2023/4/6Network Securit
11、y Laboratory,Research Institute of Information Technology16分布式機器學習可擴展性模型、規則集不斷增大,訓練效率依賴于基礎設施層面的創新2023/4/6Network Security Laboratory,Research Institute of Information Technology17大模型的多機多卡集群訓練時間長達數天分布式機器學習2023/4/6Network Security Laboratory,Research Institute of Information Technology18分布式機器學習2023/4/
12、6Network Security Laboratory,Research Institute of Information Technology19Parameter server(PS)and all-reduce(ring)Accelerator?Accelerator?分布式機器學習2023/4/6Network Security Laboratory,Research Institute of Information Technology20網內聚合減少每次迭代所需同步的數據量,提升吞吐量、降低延遲、降低訓練時間INA/RARSwitchML2023/4/6Network Secur
13、ity Laboratory,Research Institute of Information Technology21SwitchML2023/4/6Network Security Laboratory,Research Institute of Information Technology22 The switch performs integer aggregation Hosts manage reliability and perform more complex computations SwitchMLStreaming aggregationSeparate aggrega
14、tion for SGD on different portions of the input dataEach workers can have at most outstanding packets at any time to match the slots in the switch2023/4/6Network Security Laboratory,Research Institute of Information Technology23SwitchMLFloating point quantizationTest accuracy of ResNet-110 on CIFAR1
15、0.SwitchML achieves similar accuracy to the baseline.2023/4/6Network Security Laboratory,Research Institute of Information Technology24SwitchML實現評測2023/4/6Network Security Laboratory,Research Institute of Information Technology25SwitchML實現評測2023/4/6Network Security Laboratory,Research Institute of I
16、nformation Technology26產業成果轉化基流 Infrawaves可編程網絡應用場景基礎設施 系統應用2023/4/6Network Security Laboratory,Research Institute of Information Technology28DeepInsightOpenNorthboundAPIsOpenTelemetryReportFormatdefinedbytheP4.orgApplicationsWorkingGroup1BarefootDeepInsightMonitoringSystemEnabledbyDataPlane Telemet
17、ryDeepInsightAnalyticsSoftwareReal-timeAnomalyDetectionMachineLearningbasedAnalyticsModularArchitectureSeamlessScale-outonCommodityServersBarefootData-PlaneTelemetryIn-BandNetworkTelemetry(INT.P4)IntelligentDeduplicationandTriggersLineRateMonitoring1Howdiditgethere?2Whyisithere?3Howlongwasitdelayed?
18、4Whywasitdelayed?AnswerforEvery Packet.INTMetadataCopyright2018-BarefootNetworks網絡可視化網絡虛擬化存儲虛擬化當前商用場景未來落地場景安全互聯AggregationAI/數據四到七層網絡功能2023/4/6Network Security Laboratory,Research Institute of Information Technology29七層慢速通道計算密集型任務四層快速通道輸入輸出密集型任務網絡功能CPU可編程硬件裸金屬應用公有云裸金屬服務器應用性能與隔離的需求DPU提供虛擬網絡和云盤2023/4/
19、6Network Security Laboratory,Research Institute of Information Technology30RDMA應用高性能網絡通信抽象接口遠程內存訪問,協議卸載到網卡執行,可顯著降低傳輸延遲和CPU負載AI訓練、超算與高性能存儲等高帶寬場景中的主流通信方案2023/4/6Network Security Laboratory,Research Institute of Information Technology31TCP/IPNIC driverUserKernelHardwareRDMA transportIP EthernetRDMA app
20、DMARDMA verbsTCP/IPNIC driverEthernetRDMA appDMARDMA verbsLossless networkRDMA transportIP KernelNICKernelNICR-MemQPQPCQCQSend WQERecv WQEPoll CQEPoll CQE TransmissionDRAMApplicationApplicationR-MemR-MemR-MemDRAM2023/4/6Network Security Laboratory,Research Institute of Information Technology32大模型是什么
21、級別的事件,有幾年的機遇?GPT-3GPT-4GPT-5175B1T?個人電腦移動終端人工智能大模型時代2023/4/6Network Security Laboratory,Research Institute of Information Technology33大模型基礎設施GPU網卡服務器交換機硬件設備系統框架算力NCCLRCCL通信庫驅動層計算層并行庫2023/4/6Network Security Laboratory,Research Institute of Information Technology34大模型網絡通信GPU網卡服務器交換機硬件設備系統框架算力NCCLRCCL
22、通信庫驅動層計算層并行庫“由于這些工作跨越了數千個GPU,需要確保有可靠的基礎設施,也需要在后端擁有網絡,這樣才能更快地進行通信并能夠連續數周這樣運轉?!蔽④汚zure高性能計算和人工智能產品負責人Nidhi Chappell稱“這不是買了一大堆GPU,把它們連在一起就可以開始工作的。為了獲得最佳的性能,需要有很多系統級的優化,而這又需要經過許多人的經驗總結出來?!?023/4/6Network Security Laboratory,Research Institute of Information Technology35基礎設施網絡趨勢網絡通信是分布式機器學習訓練的重要組成AI大模型GP
23、T-3在單個英偉達V100 GPU上訓練需要288年增加GPU數量后,1024張A100的訓練時長可以減少到1個月優化網絡調度傳輸機制可以提升訓練速度大模型訓練中的網絡通信開銷超過60%能效比提升30%,相當于節省30%的GPU投資資料來源:數據中心智能無損網絡白皮書,開放數據中心委員會ODCC,20212023/4/6Network Security Laboratory,Research Institute of Information Technology36基礎設施網絡趨勢2013年低性能低帶寬、高時延高性能高帶寬、低時延RDMAInfiniBandTCP/IPEthernet超算HP
24、C通信網絡互聯、安全2023年中低性能低帶寬、高時延極高性能高帶寬、極低時延RDMA InfiniBandTCP/IPEthernet超算HPC通信網絡互聯、安全RDMAEthernet大模型分布式存儲中高性能高帶寬、低時延RDMA網絡2023/4/6Network Security Laboratory,Research Institute of Information Technology37InfiniBand 05年Linux添加IB支持 高性能計算的主要方案 高帶寬和極低時延 二三層“軌道交通”網絡 基于信用的流量控制RoCE 15年微軟試點RoCE 云數據中心的主要方案 高帶寬和低
25、時延 二三層“快遞分發”網絡 基于反壓的流量控制 支撐RDMA的專有網絡通信標準,需要從網卡到交換設備的整套專有方案 支撐RDMA的以太網標準,基于UDP實現IB傳輸層協議,需要網卡與交換設備協作2023/4/6Network Security Laboratory,Research Institute of Information Technology38初期產品端到端以太網RDMA互聯系統國產化,IB專網替換:穩定、易用、高性能監控閉環:參數配置優化,擁塞控制、網包調度算法升級去PFC,減少抖動,降低時延,提升訓練速度和存儲吞吐網絡狀態信息可視化,網絡運維自動化智能化通信調度:數據/模型并行,拓撲優化,硬件卸載產品形態整體解決方案:商用硬件配套自研管控調度軟件產品預期解決方案功能完備,達到行業前三支持千卡至萬卡環境的大模型訓練商用網卡主機應用通信驅動商用交換機操作中心網內計算編譯器自動駕駛控制器算法CCPS金星Venus端網、算網、軟硬協同CCL謝謝