《中國信通院:新一代計算架構:超異構計算(2023)(40頁).pdf》由會員分享,可在線閱讀,更多相關《中國信通院:新一代計算架構:超異構計算(2023)(40頁).pdf(40頁珍藏版)》請在三個皮匠報告上搜索。
1、新一代計算架構:超異構計算新一代計算架構:超異構計算黃 朝 波矩 向 科 技目錄目錄1.業務應用和算力基礎2.微觀性能和宏觀算力3.計算架構的發展現狀和面臨的挑戰4.從異構走向超異構及相關案例5.超異構處理器HPU算 力:數 字 經 濟 核 心 生 產 力算 力:數 字 經 濟 核 心 生 產 力文獻1:IDC、浪潮、清華全球產業研究院聯合發布的20212022全球計算力指數評估報告。文獻2:算力:數字經濟的核心生產力,方正梁,人民郵電報。l 算力在數字經濟、數字社會和數字政府等領域得到廣泛應用,算力賦能千行百業。l 算力已成為繼熱力、電力之后新的關鍵生產力。l 計算力指數平均每提高1個百分點
2、,數字經濟和GDP將分別增長3.5和1.8。l 算力規模與經濟發展水平呈現出顯著的正相關關系,算力規模越大,經濟發展水平越高。A I 算 力 需 求 指 數 級 增 長A I 算 力 需 求 指 數 級 增 長l OpenAI 2018年報告:自2012 年以來,AI訓練的算力呈指數級增長,每 3.4個月翻一倍。七年間,AI算力增長了超過 300,000 倍。l 與2012年的模型相比,2020年提出的模型需要600萬倍的計算能力。l 2023-2028年,AI所需算力將超100萬倍。l ChatGPT的成功表明:大力真的可以出奇跡!文獻1:Mehonic A,Kenyon AJ.Brain-
3、inspired computing needs a master plan.Nature 2022;604(7905):255260.文獻2:S.Zhu,T.Yu,T.Xu,H.Chen,S.Dustdar,S.Gigan,D.Gunduz,E.Hossain,Y.Jin,F.Lin et al.,“Intelligent Computing:The Latest Advances,Challenges and Future”,INTELLIGENT COMPUTING,3 Jan 2023,Vol 2自 動 駕 駛 汽 車,又 一 個 算 力 吞 金 獸自 動 駕 駛 汽 車,又 一 個
4、算 力 吞 金 獸l 大部分觀點認為:L5級別自動駕駛算力至少需要4,000 TOPS;也有部分觀點認為:需要超過10,000 TOPS。l 傳感器數量越來越多,感知精度越來越高,AI模型越來越大,娛樂需求越來越豐富,各種需求促使著算力爆發式增長。l L5階段,對娛樂的需求會猛增,綜合算力需求超過20,000 TOPS。l 永無止境:更多更高的綜合性需求,需要汽車平臺算力持續快速增長。元 宇 宙,巨 量 算 力 支 撐 虛 實 融 合元 宇 宙,巨 量 算 力 支 撐 虛 實 融 合元宇宙需要源源不斷的“算力能源”。要想實現元宇宙級別的體驗,需將算力提升至少10,000倍:l 沉浸感所需的16
5、K效果,需要280.7Gbps帶寬。目前的算力基礎設施,還難以支撐如此高數據量的傳輸、處理和存儲。l AI算力數量級提升:支撐數字人的AI算力需求急速增長;元宇宙快速發展,數字人的數量也會猛增。問 題 本 質問 題 本 質文獻:電影讓子彈飛劇照落后的算力基礎和先進的業務需求之間的矛盾!目錄目錄1.業務應用和算力基礎2.微觀性能和宏觀算力3.計算架構的發展現狀和面臨的挑戰4.從異構走向超異構及相關案例5.超異構處理器HPU處 理 器 皆 為 類 馮 諾 依 曼 架 構處 理 器 皆 為 類 馮 諾 依 曼 架 構l 一切系統的運行,可以歸一到計算:系統由輸入、計算、輸出三部分組成。l 馮諾依曼架
6、構是計算機系統經典模型,由控制器、運算器、存儲器、輸入設備和輸出設備五部分組成。l 所有各類處理器引擎,都遵循馮諾依曼架構的指導思想?;驗轳T諾依曼架構的變種,或為馮諾依曼架構的組合。所謂打破馮諾依曼架構,是無的放矢?;ヂ摼W由終端、云端及邊緣端組成。邊緣端是代理層,代理云端為終端提供服務。終端是現實世界(包括我們人類)的接入層:終端是互聯網大系統的I/O,負責現實世界和虛擬世界的交互。云 邊 端 萬 物 互 聯云 邊 端 萬 物 互 聯計 算 節 點 的 分 類計 算 節 點 的 分 類軟 件 和 硬 件軟 件 和 硬 件l 指令是軟件和硬件的媒介,指令的復雜度(單位計算密度)決定了系統的軟硬件
7、解耦程度。l ISA(指令集架構)之下,CPU GPU等各種處理器是硬件;ISA之上,各種程序、數據集、文件等是軟件。l 按照指令的復雜度,典型的處理器平臺大致分為CPU、協處理器、GPU、FPGA、DSA、ASIC。l 從左往右,單位計算越來越復雜,性能越來越好,而靈活性越來越低。l 任務在CPU運行,則定義為軟件運行;任務在協處理器、GPU、FPGA、DSA或ASIC運行,則定義為硬件加速運行。單芯片性能=指令復雜度 x 運行頻率 x 并行度實際總算力=單芯片性能 x 芯片數量 x 算力利用率“性能”和“算力”兩個概念是一致的,區別在于“性能”是微觀的概念,而“算力”是宏觀的概念。要想實現
8、算力數量級提升,僅提升單芯片性能是不夠的,需要全方位的協同優化創新,需要構建創新的計算技術體系。微 觀 性 能 和 宏 觀 算 力微 觀 性 能 和 宏 觀 算 力目 錄目 錄1.業務應用和算力基礎2.微觀性能和宏觀算力3.計算架構的發展現狀和面臨的挑戰4.從異構走向超異構及相關案例5.超異構處理器HPU計算從串行走向并行,處理器從單核走向多核。計 算 從 串 行 走 向 并 行計 算 從 串 行 走 向 并 行2015年后,CPU性能翻倍需要20年,基于CPU的摩爾定律失效。層出不窮的新應用,需要不斷增強的算力支撐。摩爾定律是KPI:產品性能升級,超過則生,不達則亡。摩爾定律將一直有效,驅趕
9、著行業持續前進!基 于 C P U 的 摩 爾 定 律 失 效基 于 C P U 的 摩 爾 定 律 失 效文獻1:https:/en.wikipedia.org/wiki/Transistor_count#/media/File:Moores_Law_Transistor_Count_1970-2020.png文獻2:Computer Architecture:A Quantitative Approach,Sixth Edition,John L.Hennessy,David A.Patterson,Morgan Kaufmann Publishers,2019再 從 同 構 并 行 到
10、異 構 并 行再 從 同 構 并 行 到 異 構 并 行GPGPU+CUDA,GPU異構加速本質是眾多并行的高效能通用處理器,CUDA編程友好性。01 基于GPU的異構并行硬件彈性,加速框架Shell/引擎Kernel,運行時RT,開發Stack等;FaaS、ISV等方式。02 基于FPGA的異構并行DSA是從ASIC回調,相比ASIC具有一定通用性,可以覆蓋較多的場景。如谷歌TPU。03 基于DSA的異構并行隨著深度學習的流行,異構計算逐漸成為行業的主流。l 優勢:GPU 并行計算性能效率比CPU高,并且場景覆蓋較多,CUDA生態成熟。l AI的興起,讓GPU成為最佳的平臺。也推高NVIDI
11、A股價,成為全球市值最高的IC公司。異 構 并 行 案 例:G P U 服 務 器異 構 并 行 案 例:G P U 服 務 器異 構 計 算 存 在 的 問 題異 構 計 算 存 在 的 問 題l 系統越復雜,越需要靈活的處理器;性能挑戰越大,越需要定制的加速處理器。問題本質:單一處理器無法兼顧性能和靈活性。l CPU性能瓶頸,摩爾定律失效。異構計算中的加速處理器,決定了整個系統的性能/靈活性特征:GPU靈活性較好,但性能效率不夠極致;并且性能也逐漸接近瓶頸。DSA性能好;但靈活性差,難以適應算法的多變;架構碎片化;落地困難。FPGA功耗和成本高,定制開發,落地案例少,通常用于原型驗證。AS
12、IC功能完全固定,無法適應靈活多變的復雜計算場景。l 多異構共存的計算孤島問題:加速處理器只考慮本領域問題,難以考慮全局協同;各領域加速器之間交互困難;中心單元的性能瓶頸問題;物理空間有限,無法容納多個物理的加速卡。目錄目錄1.業務應用和算力基礎2.微觀性能和宏觀算力3.計算架構的發展現狀和面臨的挑戰4.從異構走向超異構及相關案例5.超異構處理器HPUl 工藝持續進步、3D堆疊以及Chiplet多Die封裝,在芯片上可以容納更多的晶體管,也意味在單芯片層次,可以構建規模數量級提升的超大系統。l 未來,量子工藝,可以代替現在的CMOS工藝。有了量子門級電路的強力支撐,上層的芯片和軟件生態,可以更
13、加蓬勃的發展。工 藝 和 封 裝 創 新,支 撐 更 大 規 模 的 計 算工 藝 和 封 裝 創 新,支 撐 更 大 規 模 的 計 算業務需求驅動+底層工藝和封裝支撐,系統和架構需要創新。擴規模(Scale Out)的方式不本質的解決問題,需要通過提升單芯片性能(Scale Up)的方式。要想算力數量級提升,僅提升單芯片性能是不夠的,需要全方位協同優化,需要構建創新的計算技術體系。系 統 和 架 構 創 新系 統 和 架 構 創 新l 處理器“內卷”:每個處理器引擎都突破了通常意義上的各自邊界,侵入到其他處理器引擎的領地:CPU集成協處理器。CPU不斷擴展硬件加速指令集,形成協處理器集成進
14、CPU。例如Intel Xeon支持AVX和AMX。GPU集成CUDA核,還集成DSA性質的Tensor核。FPGA集成CPU以及ASIC,形成SoC。例如AMD Xilinx Zynq。ASIC不斷回調,變成部分可編程的DSA,可以當作是ASIC+DSA。各 類 處 理 器 都 在 拓 展 自 己 的 能 力 邊 界各 類 處 理 器 都 在 拓 展 自 己 的 能 力 邊 界要想高性能,勢必降低靈活性,增加系統復雜度,使得系統難以駕馭。但是,我們不得不“迎難而上”。從 單 異 構 走 向 多 異 構 融 合 超 異 構從 單 異 構 走 向 多 異 構 融 合 超 異 構l 同構并行編程很
15、難,異構并行編程是難上加難,超異構并行難上加難再加難。l 如何駕馭超異構?幾種可能的方法:復雜大系統分解成簡單小系統。依據系統的靈活性特征分層:業務應用層、彈性加速層和基礎設施層,采用最合適的處理引擎。架構標準和開放:讓處理器架構和生態收斂,防止碎片化。軟硬件深度融合,讓硬件具有更多軟件的能力。這些能力包括功能的擴展性、資源彈性和擴展性、完全的硬件虛擬化、硬件高可用等。如 何 駕 馭 超 異 構如 何 駕 馭 超 異 構超異構計算架構,是綜合性的算力解決方案。隨著算力需求不斷提高,未來:一切皆超異構,兵家必爭之地!計 算 架 構 的 發 展 階 段計 算 架 構 的 發 展 階 段2019年,
16、Intel提出超異構計算相關概念:XPU是架構組合,包括CPU、GPU、FPGA 和其他加速器;oneAPI是開源的跨平臺編程框架,底層是不同的XPU處理器,通過OneAPI提供一致性編程接口,使得應用跨平臺復用。I n t e l:超 異 構、X P U 和 o n e A P II n t e l:超 異 構、X P U 和 o n e A P IIntel IPU,集成多個領域DSA的基礎設施加速芯片。IPDK是Intel開源的基礎設施編程框架,可運行在IPU、DPU等平臺。2022年6月,Intel和Linux基金會聯合發起OPI項目:為IPU等下一代架構和框架培育社區驅動的基于標準的
17、開放生態系統。I n t e l:I P U、I P D K 和 O P II n t e l:I P U、I P D K 和 O P I編號架構/特征用途分析1CPU應用不可加速部分,以及其他沒有實現加速引擎的任務,兜底。CPU是Intel的優勢領域,CPU生態最強大。2GPU應用層可加速部分,以及其他相對變化較大任務的加速。Intel Xe GPU:軟件第一、并行第二,適應全新的工作負載。沒有歷史包袱,OneAPI跨平臺優勢。3FPGAIntel FPGA是全球第二大FPGA平臺,相關生態成熟。4DSA類適合基礎設施層任務。Intel IPU(處理器)5ASIC類6超異構CPU、GPU、D
18、PU、AI芯片等,融合+重構到超異構計算架構。待整合,Intel大棋的最終目標。7跨平臺任務可運行在云端、邊緣甚至終端,運行在不同廠家的硬件平臺的不同類型處理引擎。XPU戰略和OneAPI框架。8可編程完全通用的計算平臺從完全可編程網絡,擴展到完全可編程的超異構計算。9開放開放架構,形成行業共識,架構收斂,主導架構生態。OneAPI(框架)、IPDK(框架)+OPI(開源生態聯盟)。不謀全局者,不足謀一域;不謀萬世者,不足謀一時。I n t e l 超 異 構 分 析I n t e l 超 異 構 分 析NVIDIA自動駕駛Thor芯片,由數據中心架構的CPU+GPU+DPU三部分組成,算力高
19、達2000TFLOPS的超異構計算芯片。Atlan和Thor架構相同,性能上有差異。符合超異構理念的第一款產品!此圖為Atlan架構示意圖N V I D I A 自 動 駕 駛 T h o rN V I D I A 自 動 駕 駛 T h o rNVIDIA Grace Hopper超級芯片是CPU+GPU,NVIDIA計劃從Bluefield DPU四代起,把DPU和GPU兩者集成成單芯片。Chiplet技術逐漸成熟,未來趨勢是CPU+GPU+DPU的超異構芯片。N V I D I A 數 據 中 心 布 局N V I D I A 數 據 中 心 布 局計算和網絡不斷融合:計算的很多挑戰,需
20、要網絡的協同;網絡設備也是計算機,加入計算集群,成為計算的一部分。數據在網絡中流動,計算節點依靠數據流動來驅動計算,所有系統的本質是數據處理,那么所有的設備就都是DPU。以DPU為基礎,不斷的融合CPU和GPU的功能,DPU會逐漸演化成數據中心統一的超異構處理器。N V I D I A:一 切 處 理 器 都 是 D P UN V I D I A:一 切 處 理 器 都 是 D P U目錄目錄1.業務應用和算力基礎2.微觀性能和宏觀算力3.計算架構的發展現狀和面臨的挑戰4.從異構走向超異構及相關案例5.超異構處理器HPU圖靈獎獲得者John H.和David P.2017年提出“計算機體系結構
21、的黃金年代”,給出的解決方案是特定領域架構DSA。DSA架構分離的趨勢導致平臺和生態碎片化,未來,正確的趨勢應該是從分離再回到融合。計 算 機 體 系 結 構 演 進:從 合 到 分,再 從 分 到 合計 算 機 體 系 結 構 演 進:從 合 到 分,再 從 分 到 合SGP-HPU:Extremely Scalable General Purpose Hyper-heterogeneous Processing Unit,極致可擴展的通用超異構處理器。超 異 構 處 理 器 的 典 型 功 能超 異 構 處 理 器 的 典 型 功 能編號對比項SOCHPU1系統單系統。多個分布式集群系統,
22、混合部署在多個HPU;單個HPU運行多個系統。2虛擬化不支持,或部分支持。虛擬化性能損耗超過30%。虛擬化是簡單系統和復雜系統的核心區別。原生支持完全硬件虛擬化,虛擬化損耗為0。3異構融合硬件層次異構獨立,通過軟件實現異構融合。硬件原生的異構融合。4計算模式CPU指令流驅動計算。數據流驅動計算。5擴展性獨立系統,幾乎沒有擴展性??删幊坦δ軘U展,虛擬化彈性擴展,子系統解耦的平行擴展,跨芯片“無限”擴展。6Chiplet互聯需要針對性修改架構。原生支持,系統架構和上層軟件不需要改動。7設計規模假設SOC可支持的設計規模為1。GP-HPU設計規??芍С?0+甚至100+。H P U 與 傳 統 S
23、O C 的 區 別H P U 與 傳 統 S O C 的 區 別可廣泛使用在邊緣計算服務器、存儲服務器、企業云服務器等輕量級場景,占服務器數量的80%以上。H P U 用 在 邊 緣 等 輕 量 服 務 器 場 景H P U 用 在 邊 緣 等 輕 量 服 務 器 場 景數據中心技術“下沉”車端:虛擬化、SOA、SDx等。單硬件多系統,系統間應用、數據、性能、故障、安全等隔離。李克強院士提出智能網聯汽車中國方案:通過邊端深度協同,在單芯片能力較弱情況下,實現系統級能力更優。H P U 用 在 自 動 駕 駛&智 能 網 聯 汽 車 場 景H P U 用 在 自 動 駕 駛&智 能 網 聯 汽 車 場 景NVIDIA Thor多域融合,2000 TOPS算力云網邊端融合,計算架構趨于統一。超異構可廣泛的應用在云計算、邊緣計算、超級終端,甚至網絡計算、智能計算和超算HPC。超 異 構 更 加 廣 泛 的 應 用 領 域超 異 構 更 加 廣 泛 的 應 用 領 域THANKS!THANKS!