《中國移動研究院:通過總線技術實現數據中心級“先進封裝”(2023)(14頁).pdf》由會員分享,可在線閱讀,更多相關《中國移動研究院:通過總線技術實現數據中心級“先進封裝”(2023)(14頁).pdf(14頁珍藏版)》請在三個皮匠報告上搜索。
1、演講人:李鍇演講單位:中國移動研究院圖片來源:AMD 在Chiplet條件下,Intel、AMD、Arm、Hygon等處理器的核心數量不斷增加,通用服務器算存比沒有大幅波動情況下,對服務器內存容量需求大幅提升;Intel Sapphire Rapids 提供多達60個內核,120線程,8個內存通道AMD Genoa 提供多達128個內核,256線程,12個內存通道圖片來源:Intel不斷增加的核心數量進一步提升了算力能力,與此匹配的服務器內存需求也同步匹配新一代人工智能依賴數據、算法和算力,然而,當前AI硬件的算力增長遠遠超過內存發展速度,導致原有內存的分層架構效果無法完全滿足現在業務需求;在
2、邊緣場景下,海量、高維模型、稀疏特征數據需要強大的內存支持系統來實現更好的在線推理能力;在大模型的訓練和推理場景,GPU/AI卡的顯存或內存容量不足,呈現出明顯的內存墻問題。這些數據的高維、稀疏特征又為計算和存儲帶來了很大的挑戰,隱藏層大小可能就是數百萬的量級,總參數量甚至能達到十萬億的量級,對顯存/內存需求大訓練、推理場景在應用需求對大內存迫切性增加需要通過芯片層級的架構改進來緩解內存墻瓶頸,例如將內存堆疊在邏輯芯片上,使內存更靠近處理器,從而更近、更快且更容易訪問數據,無論在是通用計算還是智算都殊途同歸;來源:AMD來源:NVIDIA來源:TSMC處理器內存加速器傳統計算架構處理器內存加速
3、器芯片級共封裝內存內存芯片內部正在使內存更接近邏輯和加速器,內存將不是通過 PCB 連接的,而是放在封裝之中,CPU和加速器的速度更快、性能更高同封裝同封裝面向大模型的訓練、推理場景,單機8卡已經不能單純作為單臺服務器的邊界,需要構建更大型的超級計算機提高計算效率和能力,通過實現計算架構的改進,以確保其滿足算、存要求,使數百級別處理器進行總線級互聯;做為另外一種“先進的封裝技術”,其規模已擴大至數據中心,總線連接可被視為中介層;傳統數據中心S架構數據中心處理器內存a-b加速器處理器內存b-c加速器處理器內存c-d加速器處理器內存d-e加速器交換機、路由器處理器內存a-e加速器處理器內存a-e加
4、速器處理器內存a-e加速器處理器內存a-e加速器總線總線總線總線總線互聯Server1Server2Server3Server4Super Server(S)實現總線互聯的數據中心“先進封裝”PCIe連接CXL連接當前業界有多種通過總線技術實現拓展帶寬的技術,并將CPU、GPU、存儲介質等異構部件實現全連接,增加緩存一致性、納秒級時延、百處理器級別的技術能力,力爭通過總線技術將大規模的存、算融為一體;PCIe/CXL、Nvlink、CCIX、AMBA等技術正在加速演進;總線協議CXL/PCIe 5.0NVLINK 4.0速率PCIe 5.0 32GT;PCIe 6.0 64GT;100Gbps
5、;開放性開放封閉中國移動正在密切探索包括CXL在內的多種總線技術,目的統一異構部件的算力和存儲資源,實現大帶寬芯片連接;當總線可以實現多種應用場景,從現實需求的優先級來說,建議在構建統一內存池和GPU/AI芯片層級的總線互聯進行同步推進;內存池可以實現處理器和內存設備之間的緩存一致性訪問,擴大內存容量和帶寬;0 01 12 23 34 45 5.N N一組有一組有N N張張GPUGPU/AI/AI卡卡0 01 12 23 34 45 5.N N一組有一組有N N張張GPUGPU/AI/AI卡卡計算總線總線總線 SwitchSwitch總線總線 SwitchSwitch總線總線SwitchSwi
6、tch總線總線 Switch Switch總線總線 Switch Switch總線總線 Switch Switch總線總線 Switch Switch更低延遲的內部通信更高效的數據讀寫更靈活的拓撲連接推進GPU/AI芯片層級的總線互聯通過探索包括CXL在內的總線級內存池;新型總線的卡間互聯模式,形成技術突破和應用推進總線互聯的內存池0 01 12 23 34 45 5.N N多多ServerServer共享存儲共享存儲資源資源0 01 12 23 34 45 5.N N多多ServerServer共享存儲資源共享存儲資源總線總線 Switch Switch總線總線 Switch Switch總
7、線總線 Switch Switch總線總線 Switch Switch計算總線ServerServerServerServerServerServer更靈活的存儲結構更高效應用開發更多樣的存儲介質本次項目關注點SSDSSDSSDSSDSSDSSDSSDSSDSSDSSDDDRDDRDDRDDRDDRDDRHBMHBMHBMHBMHBMHBMType 1:主要用于連接處理器和SmartNic等加速器,以提高處理器的轉發效率性能;Type 2:主要用于連接處理器、GPU等加速器和內存,以提高多處理器對內存的使用,提升多處理器協同效率。Type 3:主要用于連接處理器和擴展內存,以滿足內存帶寬和容量
8、的拓展加速器加速器主機主機CXL.ioCXL.cacheDDRDDRDDRDDRDDRDDRCacheCache加速器加速器主機主機CXL.ioCacheCacheCXL.memCXL.cacheDDRDDRDDRDDRDDRDDR加速器加速器主機主機CXL.ioCacheCacheCXL.memType1Type2Type3允許加速器訪問和緩存主機連接的DDR內存允許加速器訪問和緩存主機連接的DDR內存允許主機訪問加速器的易失性(RAM)和持久性非易失性(閃存)存儲允許主機訪問加速器的易失性(RAM)和持久性非易失性(閃存)存儲SmartNICGPU/AIExpandor提供新型計算模型的解
9、決方案,為云計算和數據中心提供更高的數據速率、更高的帶寬和容量適用于多種類型存儲器的通用標準接口,可以為系統靈活的利用DRAM、LPDDR等不同內存介質性能增強容量增大寄存器CacheDDR通過總線技術實現拓展MemorySSDHDD可以靈活地添加各種內存,而不會影響本機連接的 DIMM內存可以針對系統成本、容量、功率、帶寬進行獨立優化NVMe1ns10ns100ns250ns400ns10-40us3-10ms附加到CPU獨立于CPU磁盤CPUDRAMDRAMDRAMDRAMDRAMDRAMDRAMDRAM(a)非總線場景CPUDRAMDRAMDRAMLPDDRNVMe(b)總線場景內存技術
10、CXL等以CXL等總線級技術不僅提供了高速傳輸,還支持內存共享和虛擬化,使設備之間的協作更加緊密和高效。通過帶寬提升、多樣性存儲介質有助于滿足現代數據中心對大規模處理和分析的需求,同時也能夠為 AI、機器學習等新興應用提供更好的支持,從整體上降低TCO帶寬帶寬當前CXL 基于PCIe 5.0接口,支持32GB/s 的雙向傳輸速率;通過利用主機處理器通過總線連接到各種內存接口來實現內存介質獨立性;內存控制器可以設計為支持不同的內存類型,DDR4、DDR5 甚至持久內存或存儲類內存;內存帶寬提升內存帶寬提升0101多樣多樣運行程序可在持久存儲中,服務器斷電內存數據不丟失;總線級互聯可直接連接CPU
11、和設備,共享內存空間,避免了多個接口之間的通信開銷;可實現內存擴展和內存共享,包括非易失性存儲介質,使得業務可以快速恢復;多樣性存儲多樣性存儲介質介質0202成本成本通過內存擴展器(Memory Expander)來增加 DRAM 的容量,可以在不改變系統結構的情況下,提高內存的可用性和靈活性。內存控制器提供的靈活性為提供比傳統 DIMM 更精細的容量粒度提供了選擇,允許系統實施者調整內存容量以適應其應用并降低成本;內存成本降低內存成本降低0303主機主機CPUCPU總線內存總線內存擴展器擴展器內存控制器內存內存一、本地內存主機主機0 0Multi PortMulti Port內存擴展器內存擴
12、展器內存控制器1二、內存池化內存控制器2主機主機1 1主機主機2 2主機主機3 3總線Link總線Links三、Switch的全內存池化主機主機0 0總線總線SwitchSwitch主機主機1 1主機主機2 2主機主機3 3總線Links總線總線SwitchSwitch總線總線SwitchSwitch總線總線SwitchSwitch總線Links主機主機4 4主機主機5 5主機主機6 6主機主機7 7總線Links總線Links內存控制器內存控制器總線級互聯可以在本地系統內實現內存擴展,實現允許跨多個主機池化/共享內存,增加Switch架構后可實現更多主機內存的池化;當前利用CXL是實現總線在
13、內存池化的有效方法之一;在用戶空間,總線連接的優化包括利用用戶級驅動程序,最大程度發揮總線的高帶寬和低延遲特性;在內核空間,需實現高效的內核模塊,以確保CXL設備的無縫集成和高性能操作;對于BMC,應加強安全機制,確??偩€在數據傳輸的安全性,同時整合遠程監控和故障診斷功能以提高管理效率。軟件層硬件層BMC管理userspaceuserspacekernelkernelCXL應用層軟件優化用戶調用、調度cxl相關的lib庫CXL內核空間cxl EventMgt是一種用于管理CXL事件的軟件組件,EventMgt還提供了一種機制,用于將事件傳遞給其他CXL驅動程序或內核組件;cxl Primary
14、 mailbox軟件接口;CCI接口,提供接收cxl命令PCIe物理層DriverPrimary/Secondary/OOBCXL Type3 CCII2C/PCIe/CXL DriverAPI配置管理;探測技術;Web UI配置、事件、日志;監控;CXL lib庫CXL內核空間cxl EventMgtcxl Primary mailbox軟件接口;CCI接口,提供接收cxl命令MCTP Driver、I2C Driver主機BMC CXL Type3CCIPCIeI2C利用CXL等總線級技術提供內存拓展、分層、池化等多種能力,推動形成內存架構優化機會,實現內存即服務的能力;在拓展、分層、池化
15、等多個層面進行優化,提供統一的MaaS服務能力;內存擴展提供了更高帶寬和更大容量的內存解決方案,提供了存儲資源擴展。內存擴展內存分層將cache、DRAM、NAND等多種存儲和計算資源進行有效整合,提高數據處理效率。內存分層內存設備連接在一起,實現緩存一致性、低延遲和高帶寬的數據傳輸。內存池化非易失持久內存利用持久內存介質來實現數據的持久性存儲,同時通過CXL協議與處理器進行連接和訪問。持久內存近存計算可通過CXL EP就近對CXL內存中的數據進行距離計算,把計算結果送到本地內存中,這樣減少數據傳送。近存計算在CXL技術中,Memory as a Service是一種內存服務模式,允許內存資源
16、在多個處理器之間動態分配和釋放,提高內存的資源利用率,降低TCO,增加靈活性和可用性。Memory as a service新池化新池化總線總線總線總線層級內存池化架構設計原則層級內存池化架構設計原則 可擴展性原則可擴展性原則 性能優化原則性能優化原則 總線級內存池化服務器設計總線級內存池化服務器設計要求要求 服務器硬件架構要求服務器硬件架構要求 服務器拓展服務器拓展expanderexpander規格規格等要求等要求 制定制定總線級總線級內存池化服務器設計標準內存池化服務器設計標準總線級總線級內存池化架構設計內存池化架構設計 內存池化架構的組成和功能內存池化架構的組成和功能 內存池化架構的接
17、口和通信協議內存池化架構的接口和通信協議 內存池化架構的數據管理和調度策略內存池化架構的數據管理和調度策略總線級內存池化服務器總線級內存池化服務器實踐實踐 根據服務器拓展內存池系統根據服務器拓展內存池系統需求,細需求,細化內存池方案化內存池方案設計;設計;對內存池與整機進行適配對內存池與整機進行適配調優;調優;優先基于在CXL等總線協議分解內存需求,將內存資源從單個服務器中進行解耦,并在多服務器之間動態分配和共享。這種模式可以提高內存資源的使用效率,增加內存的利用率、靈活性和可用性;希望聯合整機、部件、芯片、應用等相關單位,一同推動總線級內存池化架構設計規范,為計算產業轉型升級助力;共內存共內存