當前位置：首頁 > 報告詳情

1C-202_The nanoPU A Nanosecond Network Stack for Datacenters.PPTX

上傳人： 2*** 編號：139655 2023-08-27 PPTX PPTX 13頁 5.72MB

該報告所屬合集： 全球首屆智能網卡高端行業峰會(SmartNICs Summit 2022)嘉賓演講PPT合集

打包下載報告合集

文檔加載中……請稍候！
如果長時間未打開，您也可以點擊刷新試試。

下載報告到電腦，查找使用更方便

VIP專享文檔

書簽

分享

收藏

已收藏

版權投訴

/13

立即下載

word格式文檔無特別注明外均可編輯修改，預覽文件經過壓縮，下載原文更清晰！

三個皮匠報告文庫所有資源均是客戶上傳分享，僅供網友學習交流，未經上傳用戶書面授權，請勿作商用。

《1C-202_The nanoPU A Nanosecond Network Stack for Datacenters.PPTX》由會員分享，可在線閱讀，更多相關《1C-202_The nanoPU A Nanosecond Network Stack for Datacenters.PPTX（13頁珍藏版）》請在三個皮匠報告上搜索。

1、The nanoPUnanoPU:A Nanosecond Network Stackfor DatacentersStephen Ibanez,Alex Mallery,Serhat Arslan,Theo Jepsen,*Muhammad Shahbaz,Changhoon Kim,Nick McKeownStanford University,*Purdue Universitywww.SmartNICsS San Jose,CA April 26-28,2022The Need to Minimize RPC Latency and Software OverheadsLarge On

2、line Interactive Services Web Search Recommendation systems Online transaction processing2Fine-grained Computing Video encoding(ExCamera NSDI17)Object classification(Sprocket SoCC18)Software compilation(gg ATC19)MapReduce-style analytics(Locus NSDI19)Flash Bursts(NSDI 21).RPCQuestion:What would it t

3、ake to absolutely minimize RPC median and tail latency as well as software processing overheads?www.SmartNICsS San Jose,CA April 26-28,2022Previous Approaches are Insufficient3ApproachLimitationWire-to-Wire LatencyRPC ThroughputDataplane operating systems(e.g.Shinjuku,Shenango)Too coarse grainedMedi

4、an:2-5sTail:10-100s100MrpsRDMA NICsNeed low latency to remote compute,not memoryMedian:700nsN/AIntegrated NICs(e.g.NeBuLa)Still room for improvement of latency and throughputMedian:100nsTail:2-5s20Mrps/corewww.SmartNICsS San Jose,CA April 26-28,2022The nanoPU4dProgrammable NICKey Features:Integrated

5、 NIC Efficient core selection in HW Programmable transport in HW Direct path to CPU register file Hardware-accelerated thread schedulingLLCMain MemoryCore 0Core N-1DMA PathHWTransportCoreSelectionWire-to-wire latency:69nsSingle-core throughput:118Mrpswww.SmartNICsS San Jose,CA April 26-28,2022The na

6、noPU Core5HW Thread SRXnetTXRegistersL1 I$CoreL1 D$RX QueueTX QueueMVSwapwww.SmartNICsS San Jose,CA April 26-28,2022The nanoPU Core6HW Thread SRXnetTXRegistersL1 I$CoreL1 D$RX QueuesTX QueuesMVP=1P=0www.SmartNICsS San Jose,CA April 26-28,2022The nanoPU Fast Path7dPISAIngressEgressEthernet MAC+Serial

7、 IOProgrammable NICCore 0HW Thread SRXnetTXRX/TXQsRegistersReassemblyMessage BufferHW TransportPacketizationMessage BufferPktsMsgsCore N-1HW Thread SRXnetTXRX/TXQsRegistersHW Core Sel.Global RXQsGlobal TXQswww.SmartNICsS San Jose,CA April 26-28,2022nanoPU Prototype Quad-core nanoPU based on open sou

8、rce RISC-V Rocket core 4,300 lines of Chisel code&1,200 lines of C and RISC-V assembly for custom nanokernel Implements NDP transport Cycle-accurate simulations(3.2GHz)on AWS FPGAs using Firesim(ISCA 18)8Program m abl e 200Gb/s N I CEthernetMAC+Serial IORocket Cores 0 to 3HW Pri ori ty Thread SRXnet

9、TXRegistersLocal RX/TXQsL1CMain MemoryRI SC-V CPUL2CApp reads a messageApp writes a message26ns5.3ns2.2ns3.1ns0.9ns0.9ns0.6ns26nsPISAPipelinePacketMessageGlobal RX/TXQ sHW N DP TransportLoopback Latency=13nsWire-to-Wire Latency=65nsHW JBSQCore Sel.www.SmartNICsS San Jose,CA April 26-28,2022Microbenc

10、hmarks9Wire-to-WireLatency(ns)Single Core LoopbackThroughput(Mrps)nanoPU69118IceNIC10316eRPC85010Program m abl e N I CEthernetMAC+Serial IORocket Cores 0 to 3HW Pri ori ty Thread SRXnetTXRegistersLocal RX/TXQsL1CMain MemoryRI SC-V CPUL2CApp reads a messageApp writes a message26ns5.3ns2.2ns3.1ns0.9ns

11、0.9ns4.6ns26nsPISAPipelinePacketMessageGlobal RX/TXQ sHW N DP TransportLoopback Latency=17nsWire-to-Wire Latency=69nsHW JBSQCore Sel.Ethernet MACSplitterArbiterDecryptEncryptPISA PipelineTransportCor e0ContextPkt OutMsg OutPkt InMsg InThr eadSchedul erNI C PacketDat apat hNI C M essageDat apat hEthe

12、rnet MACSplitterArbiterEncryptDecryptMAU PipelineTransportEthernet MACSplitterArbiterEncryptDecryptMAU PipelineTransportCPUheadtailRegistersFIFOsEthernet MACSplitterArbiterEncryptDecryptMAU PipelineTransportCPUheadtailRegistersFIFOsEthernet MACSplitterArbiterEncryptDecryptMAU PipelineTransportCPUhea

13、dtailRegistersFIFOsCPU0CPU1CPU2Ethernet MACSplitterArbiterEncryptDecryptMAU PipelineTransportCPUheadtailRegistersFIFOsControlPkt OutMsg OutPkt InMsg InThreadSchedulerN I CDat apat hN I C-Cor eI nt erf aceEthernet MACSplitterArbiterEncryptDecryptMAU PipelineTransportEthernet MACSplitterArbiterEncrypt

14、DecryptMAU PipelineTransportCPUheadtailRegistersFIFOsEthernet MACSplitterArbiterEncryptDecryptMAU PipelineTransportCPUheadtailRegistersFIFOsEthernet MACSplitterArbiterEncryptDecryptMAU PipelineTransportCPUheadtailRegistersFIFOsCPU0CPU1CPU2Ethernet MACSplitterArbiterEncryptDecryptMAU PipelineTranspor

15、tEthernet MACSplitterArbiterEncryptDecryptMAU PipelineTransportCPUheadtailRegistersFIFOsEthernet MACSplitterArbiterEncryptDecryptMAU PipelineTransportCPUheadtailRegistersFIFOsEthernet MACSplitterArbiterEncryptDecryptMAU PipelineTransportCPUheadtailRegistersFIFOsCPU0CPU1CPU2Cor e1Cor e2CPUs wi t hNan

16、oker nel&Nanot asksContext FIFOs(a)(b)(c)(d)ContextCSRsL-NI CCSRsnanoPU HW Thread Scheduling Reduces tail latency by 4-6x 20%higher loadwww.SmartNICsS San Jose,CA April 26-28,2022nanoPU Applications MICA Key-Value Store:10592ns Raft Consensus,Chain Replication,Set Algebra,and more!www.SmartNICsS San

17、 Jose,CA April 26-28,2022Programmable One-Sided RDMAOperationsState-of-the-art RDMA NIC Implemented in NIC HW End-to-end latency:2s11300nsclientserverThe nanoPU Implemented in SW Can support arbitrary one-sided operationswww.SmartNICsS San Jose,CA April 26-28,2022nanoPU ConclusionsKey Takeaway:To tr

18、uly minimize median and tail RPC latency and SW overheads:1.Fast path directly between network and CPU register file2.Move entire network stack to HW:transport,load balancing,thread scheduling12Challenges:Need to rewrite applications Figure out how to use more sophisticated processorswww.SmartNICsS San Jose,CA April 26-28,2022Thank You!13Contact Email:

相關圖表

本文介紹了斯坦福大學提出的nanoPU（納米級網絡堆棧）項目，旨在最小化遠程過程調用（RPC）的中位數和尾部延遲以及軟件處理開銷。主要內容包括： 1. 背景介紹：在線服務、細粒度計算等應用場景需要最小化RPC延遲和軟件開銷。 2. 現有方法不足：傳統Linux網絡棧效率低，其他方法如數據平面操作系統、eRPC、傳輸協議卸載、RDMA NIC等各有局限。 3. nanoPU設計：采用集成NIC、硬件線程調度、直接從網絡到CPU寄存器的快速路徑，實現69ns的線到線延遲和118Mrps的單核吞吐量。 4. 原型驗證：基于開源RISC-V Rocket核心的四核nanoPU原型，通過仿真驗證了性能提升。 5. 應用評估：在鍵值存儲、Raft共識等應用上驗證了nanoPU的性能優勢。 6. 結論：要最小化RPC延遲和軟件開銷，需要硬件化的網絡棧，包括傳輸、負載均衡和線程調度。

如何實現網絡延遲最小化？硬件線程調度如何優化？網絡棧如何高效運行？

相關報告

聯系我們

0731-84720580
sgpjbg002
工作日 9:30 - 18:00

關于我們

侵權處理

關于我們

出版物經營許可證
工信部備案號：湘ICP備17000430號-2
公安備案號：湘公網安備43010402001071號

三個皮匠報告專業的行業報告下載站，每日更新，歡迎大家關注！

copyright@2008-2013 長沙景略智創信息技術有限公司版權所有
網站備案/許可證號：湘B2-20190120

客服

小程序

服務號

折疊

午夜网日韩中文字幕,日韩Av中文字幕久久,亚洲中文字幕在线一区二区,最新中文字幕在线视频网站