《2024龍蜥大會生態案例分論壇:芯巢平臺助力多樣性算力發展-李鍇.pdf》由會員分享,可在線閱讀,更多相關《2024龍蜥大會生態案例分論壇:芯巢平臺助力多樣性算力發展-李鍇.pdf(23頁珍藏版)》請在三個皮匠報告上搜索。
1、提升多樣性算力芯片能力,加速各行業數智化轉型芯巢平臺助力多樣性算力發展中國移動研究院 技術經理李鍇多樣性算力的需求與挑戰0101芯巢平臺助力硬件評測效率提升0202支撐多樣性算力軟硬件優化能力0303多樣性算力的需求與挑戰算力網絡業務愈發繁榮,決定算力呈現資源多樣化、算網共生、智算融合的特征,“通用”+“異構”等資源支撐算力網絡業務愈發繁榮,對底層算力提出多樣性要求算力資源多樣算網服務豐富算力資源網絡分流AI服務區塊鏈機器視覺云計算CPUDATA內存網卡硬盤通用資源異構資源GPUNPUDPUFPGA需求1:多樣性算力需要加快向新型技術演進主要驅動力技術架構改進制造技術升級Chiplet:使用相
2、對成本可控的積木式模塊化,設計計算平臺SoC芯片異構多芯片:硬件乘法器,用來快速實現數字信號處理算法,在智算、多媒體、工控領域大量使用 新型封裝技術:2.5D、3D封裝技術驅動力:傳統單功能芯片向多異構芯片集成方式演進,豐富的指令集滿足更加多樣化的場景要求 從計算向計算+連接方向發展,例如多die的UCIe連接,GPU卡間互聯OISA連接等市場驅動力:計算密集型業務,如AI訓練、推理、媒體、安全、區塊鏈等高端制造技術:DUV光刻機多重曝光、新型FinFET、GAAFET使用推動向3nm以下發展需求2:多樣性算力要實現極致的性能通用計算單元(CPU)并行計算單元(GPU/AI)數據處理單元(DP
3、U)網絡/互聯/池化數據、控制平面可編程數據卸載、靈活處理裸金屬智能管理標準操作系統和工具故障域和安全隔離RoCE、IB等高速網絡互聯計算/內存/存儲池400G/800G以太網緩存一致性極致虛擬化能力(NFV)眾多核心覆蓋(100+)處理器訪存能力(1nm)網絡轉發能力(100%)通用計算能力(300+)大量訓練樣本,修正模型利用模型進行推理預測圖像渲染性能編解碼性能功耗、穩定性高低低+=極致吞吐時延功耗性能Arm等多樣性ISA近年在數據中心發展迅速,但在底層性能數據收集工具仍存在優化空間,利用標準定義的PMU在直觀反映軟硬件協同優化方面有較大優化空間;開發多樣性算力服務器性能采集工具對于解決
4、系統性能異常、獲取業務研發階段的性能數據、維護多芯片復雜應用場景至關重要,有助于推動多樣性算力芯片的廣泛應用;需求3:需要實現對不同ISA架構的性能提取能力挑戰1:多樣性算力對傳統評測方法提出新挑戰標準體系不成熟多樣性算力覆蓋范圍仍需補充,包括跨架構CPU、GPU、內/外存系統等;硬件評測中軟件適配缺乏統一的評測平臺缺乏實際應用場景覆蓋范圍當前評測標準未充分考慮多樣性算力的特點,導致評測結果無法全面反映算力的綜合性能標準維度編譯器會進行不同程度的優化。編譯器的版本差異、不同設置會導致性能有顯著差異;編譯器優化差異操作系統的線程調度、內存管理、I/O操作等任務調度策略對性能有直接影響,會影響到應
5、用程序的執行效率;操作系統調度策略缺乏統一的產業標準來規定評測工具的設計和使用方式,到時評測結果可比性降低;平臺標準化程度不足不同評測工具或方法具有不同的精度和一致性,即使在相同的硬件和軟件環境下,也可能產生差異較大的評測結果;評測精度和一致性問題實際應用場景中,工作負載的類型和復雜性遠超合成基準測試,缺乏對真實工作負載的評測會導致無法準確評估產品能力;實際工作負載的多樣性業務需求會有所變化,系統需要擴展或調整配置;可擴展性和靈活性在傳統大規模測試,參測廠商眾多、測試用例多樣,對專業技能要求極高、測試環節多,且周期較長,以及數據統計等都會造成測試成本高挑戰2:傳統大規模測試產生高額成本專業技能
6、要求高測試環節多、周期長數據統計等復雜進行有效的大規模測試需要具備特定專業技能的測試人員,如自動化測試工程師、性能測試專家等,這些專業人員的專業素質較高;單次開銷:大規模測試需要較長的環境搭建、系統配置、環境執行等環節來完成,增加了人工成本;多輪測試迭代:為了確保軟件或系統的穩定性和可靠性,每輪測試都可能需要重新配置環境和執行測試用例,進一步增加了人工成本;編寫測試報告、數據統計、可視化展示需要后期大量工作,需要詳細記錄測試過程和結果,并保證測試過程的正確性;芯巢平臺助力硬件評測效率提升為提升多樣性算力與業務契合度,精準反饋產品性能,以“評估敏捷、目標指引、能力輔助”作為目標,中國移動打造“芯
7、巢多樣性算力孵化平臺”,助力芯片或部件產品能力提升與業務快速發展中國移動打造“芯巢平臺”,助力芯片能力提升依托“1套多樣性芯片評測標準”+“3大核心孵化能力”+“1條自動化流水線”的“131”體系,為數據中心服務器芯片或部件提供定制化、全周期、高價值的服務能力“131”體系構建“芯巢平臺”基礎架構明確產品目標,以真實業務需求牽引芯片或部件的研發及優化通過將聯合產業界制定評測方案,芯巢平臺已經參考標準集成數百個用例,涵蓋服務器級CPU、企業級內存、企業級SSD、GPU/AI卡等“通用”和“異構”算力資源,可以滿足不同業務場景下對算力資源評測的需求“1套多樣性芯片評測標準”滿足多樣性算力評測需求“
8、芯巢平臺”核心能力能夠確保測試從“過程”-“結果”的可信性“3大核心孵化能力”聚焦算力本身(1/3)1.在“開始”階段,由測試方送測設備,對接“芯巢平臺”;2.在“進行”階段,評測方根據相關測試規范,在“芯巢平臺”上選擇相關測試用例進行測試,并監控測試的進展,對測試產生的結果進行評估,如結果不符合預期,可對送測設備進行調整后重新開始測試,直至結果符合預期;3.在“收尾”階段,“芯巢平臺”會產生評測方認可的測試報告?!靶境财脚_”核心能力能夠確保測試從“過程”-“結果”的可信性“3大核心孵化能力”聚焦算力本身(2/3)通過“芯巢平臺”,可對操作系統、編譯器、編譯參數進行統一約束。因此,測試結果可以
9、更加準確評估芯片性能,相關數據對企業業務發展更具參考價值?!靶境财脚_”跨行業孵化能力可根據不同需求提供靈活的定制功能“3大核心孵化能力”聚焦算力本身(3/3)供應商申請打包郵寄入場上架環境執行反饋2023年10月,中國移動在“芯巢平臺”的基礎上,發布了輕量版的“芯巢靈動”,依托可便攜存儲介質,達到在本地開機即用的效果,免去測試方申請資源、運輸設備、入場上架、環境準備等一系列繁瑣的工作,降低運營和溝通成本的同時,大幅提升芯片和部件的評測效率?;凇靶境财脚_”提供的自動化測試功能,評測雙方可以不用再像傳統測試一樣,準備專職測試人員,空閑的人力資源可以投入其他方面的工作,有效降低人工成本“1條自動化
10、流水線”節約評測雙方的人工成本支撐多樣性算力軟硬件優化能力芯巢平臺集成ISA性能提取模塊,性能模塊通過在WASM權限控制沙箱環境中運行,采用LGPL3.0協議,實現了數據安全的保護和開源與私有代碼的平衡,同時對商業使用友好;集成多種軟硬件數據收集模塊,如Linux Perf和eBPF,支持開發者使用系統級編程語言靈活編寫和擴展數據收集策略,具有低資源消耗和高穩定性。芯巢推進多ISA架構信息抓取模塊研發保護數據安全生態開放高可擴展性用戶友好數據收集策略運行在WASM 組件沙箱環境中,底層數據收集模塊封裝在WASM運行時之下供WASM 組件調用WASM運行時采用LGPL3.0 協議進行授權,對商業
11、使用友好,很好的平衡開源和私有代碼保護訴求集成了CPU、內存、CPU微架構(PMU)、I/O設備、操作系統、Linux Perf、eBPF等軟硬件配置和運行時信息收集模塊,開發者可以靈活編寫數據收集策略采用系統級編程語言Rust構建,資源消耗低,不易崩潰指令集提?。和ㄟ^提取應用運行過程中的運行的處理器指令,從而對循環展開,向量化等編譯技術優化軟件更好適配芯片:根據提取出對指令的特征,對軟件使用芯片的功能進行裁剪和優化性能分析與比較:通過對比軟件版本在不同硬件上運行的指令組成,排除軟件層面的差異,提升定義硬件差異的效率“芯巢平臺”支持異構ISA微架構按類別指標數據提取配置引入SDK、獲取CPU信
12、息、設置PMU計數器收集開啟PMU計數器收集、睡眠等待一段時間輸出通過netdata進行輸出、回到“收集”階段通過芯巢平臺集成的性能調優功能,比如抓取ARM CPU熱點數據,幫助開發者深入理解程序的運行情況,從而提升程序的整體性能“芯巢平臺”實現CPU熱點指令抓取能力異常檢測異常檢測:通過CPU的熱點指令判斷是否存在異常,比如spin_lock使用異常訪存優化對比數據讀取和寫入指令的數量,優化程序的訪存行為聯合產業界多方力量,提升多樣性算力芯片能力,加速各行業數智化轉型深耕多算力芯片評測、支撐軟硬件性能優化技術攻關制定標準:跨架構統一評測標準,明確極致性能要求關鍵技術:CPU、內存、網卡、SSD、GPU、BMC等6大方向,從整機拓展到多種芯片部件產業推動產業牽引:依托自動化流水線,完成供應鏈產品對接生態合作:依托5G平臺,從信息通信行業擴展至能源交通等重點行業,推進傳統應用向多樣性算力應用遷移 持續對接來自行業用戶、芯片廠商等企事業單位提供的多樣化業務需求以及新興評測技術,不斷賦能“芯巢平臺”在對服務器芯片或部件進行智能化評估的能力 協助行業最終用戶在硬件選型時做到有的放矢 幫助芯片廠商解決芯片應用過程中的實際問題,牽引芯片能力迭代,推動算力能力提升