《2023企業上云暨算云融合產業大會-多樣性算力論壇-新一代計算架構超異構計算-矩向科技黃朝波(1).pdf》由會員分享,可在線閱讀,更多相關《2023企業上云暨算云融合產業大會-多樣性算力論壇-新一代計算架構超異構計算-矩向科技黃朝波(1).pdf(40頁珍藏版)》請在三個皮匠報告上搜索。
1、新新一一代代計計算算架架構構:超超異異構構計計算算黃 朝 波矩 向 科 技2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會目目 錄錄1.業務應用和算力基礎2.微觀性能和宏觀算力3.計算架構的發展現狀和面臨的挑戰4.從異構走向超異構及相關案例5.超異構處理器HPU2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會2 0
2、2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會算算 力力:數數 字字 經經 濟濟 核核 心心 生生 產產 力力文獻1:IDC、浪潮、清華全球產業研究院聯合發布的20212022全球計算力指數評估報告。文獻2:算力:數字經濟的核心生產力,方正梁,人民郵電報。l 算力在數字經濟、數字社會和數字政府等領域得到廣泛應用,算力賦能千行百業。l 算力已成為繼熱力、電力之后新的關鍵生產力。l 計算力指數平均每提高1個百分點,數字經濟和GDP將分別增長3.5和1.8。l 算力規模與經濟發展水平呈現出顯著的正相關關系,算力規模越大,經濟發展
3、水平越高。2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會A A I I 算算 力力 需需 求求 指指 數數 級級 增增 長長l OpenAI 2018年報告:自2012 年以來,AI訓練的算力呈指數級增長,每 3.4個月翻一倍。七年間,AI算力增長了超過 300,000 倍。l 與2012年的模型相比,2020年提出的模型需要600萬倍的計算能力。l 2023-2028年,AI所需算力將超1
4、00萬倍。l ChatGPT的成功表明:大力真的可以出奇跡!文獻1:Mehonic A,Kenyon AJ.Brain-inspired computing needs a master plan.Nature 2022;604(7905):255260.文獻2:S.Zhu,T.Yu,T.Xu,H.Chen,S.Dustdar,S.Gigan,D.Gunduz,E.Hossain,Y.Jin,F.Lin et al.,“Intelligent Computing:The Latest Advances,Challenges and Future”,INTELLIGENT COMPUTING,3
5、 Jan 2023,Vol 22 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會自自 動動 駕駕 駛駛 汽汽 車車,又又 一一 個個 算算 力力 吞吞 金金 獸獸l 大部分觀點認為:L5級別自動駕駛算力至少需要4,000 TOPS;也有部分觀點認為:需要超過10,000 TOPS。l 傳感器數量越來越多,感知精度越來越高,AI模型越來越大,娛樂需求越來越豐富,各種需求促使著算力爆發式增長。l L
6、5階段,對娛樂的需求會猛增,綜合算力需求超過20,000 TOPS。l 永無止境:更多更高的綜合性需求,需要汽車平臺算力持續快速增長。2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會元元 宇宇 宙宙,巨巨 量量 算算 力力 支支 撐撐 虛虛 實實 融融 合合元宇宙需要源源不斷的“算力能源”。要想實現元宇宙級別的體驗,需將算力提升至少10,000倍:l 沉浸感所需的16K效果,需要280.7Gb
7、ps帶寬。目前的算力基礎設施,還難以支撐如此高數據量的傳輸、處理和存儲。l AI算力數量級提升:支撐數字人的AI算力需求急速增長;元宇宙快速發展,數字人的數量也會猛增。文獻1:https:/ 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會問問 題題 本本 質質文獻:電影讓子彈飛劇照落后的算力基礎和先進的業務需求之間的矛盾!2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融
8、合產業大會2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會目目 錄錄1.業務應用和算力基礎2.微觀性能和宏觀算力3.計算架構的發展現狀和面臨的挑戰4.從異構走向超異構及相關案例5.超異構處理器HPU2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會處處 理理 器器 皆皆 為為
9、類類 馮馮 諾諾 依依 曼曼 架架 構構l 一切系統的運行,可以歸一到計算:系統由輸入、計算、輸出三部分組成。l 馮諾依曼架構是計算機系統經典模型,由控制器、運算器、存儲器、輸入設備和輸出設備五部分組成。l 所有各類處理器引擎,都遵循馮諾依曼架構的指導思想?;驗轳T諾依曼架構的變種,或為馮諾依曼架構的組合。所謂打破馮諾依曼架構,是無的放矢。2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會互聯網由
10、終端、云端及邊緣端組成。邊緣端是代理層,代理云端為終端提供服務。終端是現實世界(包括我們人類)的接入層:終端是互聯網大系統的I/O,負責現實世界和虛擬世界的交互。云云 邊邊 端端 萬萬 物物 互互 聯聯2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會計計 算算 節節 點點 的的 分分 類類2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上
11、云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會軟軟 件件 和和 硬硬 件件l 指令是軟件和硬件的媒介,指令的復雜度(單位計算密度)決定了系統的軟硬件解耦程度。l ISA(指令集架構)之下,CPU GPU等各種處理器是硬件;ISA之上,各種程序、數據集、文件等是軟件。l 按照指令的復雜度,典型的處理器平臺大致分為CPU、協處理器、GPU、FPGA、DSA、ASIC。l 從左往右,單位計算越來越復雜,性能越來越好,而靈活性越來越低。l 任務在CPU運行,則定義為軟件運行;任務在協處理器、GPU、FP
12、GA、DSA或ASIC運行,則定義為硬件加速運行。2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會單芯片性能=指令復雜度 x 運行頻率 x 并行度實際總算力=單芯片性能 x 芯片數量 x 算力利用率“性能”和“算力”兩個概念是一致的,區別在于“性能”是微觀的概念,而“算力”是宏觀的概念。要想實現算力數量級提升,僅提升單芯片性能是不夠的,需要全方位的協同優化創新,需要構建創新的計算技術體系。微微
13、 觀觀 性性 能能 和和 宏宏 觀觀 算算 力力2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會目目 錄錄1.業務應用和算力基礎2.微觀性能和宏觀算力3.計算架構的發展現狀和面臨的挑戰4.從異構走向超異構及相關案例5.超異構處理器HPU2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合
14、產業大會2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會計算從串行走向并行,處理器從單核走向多核。文獻:https:/hpc.llnl.gov/documentation/tutorials/introduction-parallel-computing-tutorial計計 算算 從從 串串 行行 走走 向向 并并 行行2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云
15、融合產業大會2015年后,CPU性能翻倍需要20年,基于CPU的摩爾定律失效。層出不窮的新應用,需要不斷增強的算力支撐。摩爾定律是KPI:產品性能升級,超過則生,不達則亡。摩爾定律將一直有效,驅趕著行業持續前進!基基 于于 C C P P U U 的的 摩摩 爾爾 定定 律律 失失 效效文獻1:https:/en.wikipedia.org/wiki/Transistor_count#/media/File:Moores_Law_Transistor_Count_1970-2020.png文獻2:Computer Architecture:A Quantitative Approach,Six
16、th Edition,John L.Hennessy,David A.Patterson,Morgan Kaufmann Publishers,20192 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會再再 從從 同同 構構 并并 行行 到到 異異 構構 并并 行行GPGPU+CUDA,GPU異構加速本質是眾多并行的高效能通用處理器,CUDA編程友好性。01 基于GPU的異構并行硬件彈性,加速框
17、架Shell/引擎Kernel,運行時RT,開發Stack等;FaaS、ISV等方式。02 基于FPGA的異構并行DSA是從ASIC回調,相比ASIC具有一定通用性,可以覆蓋較多的場景。如谷歌TPU。03 基于DSA的異構并行隨著深度學習的流行,異構計算逐漸成為行業的主流。2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會l 優勢:GPU 并行計算性能效率比CPU高,并且場景覆蓋較多,CUDA生
18、態成熟。l AI的興起,讓GPU成為最佳的平臺。也推高NVIDIA股價,成為全球市值最高的IC公司。文獻:https:/ 構構 并并 行行 案案 例例:G G P P U U 服服 務務 器器2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會異異 構構 計計 算算 存存 在在 的的 問問 題題l 系統越復雜,越需要靈活的處理器;性能挑戰越大,越需要定制的加速處理器。問題本質:單一處理器無法兼顧性
19、能和靈活性。l CPU性能瓶頸,摩爾定律失效。異構計算中的加速處理器,決定了整個系統的性能/靈活性特征:GPU靈活性較好,但性能效率不夠極致;并且性能也逐漸接近瓶頸。DSA性能好;但靈活性差,難以適應算法的多變;架構碎片化;落地困難。FPGA功耗和成本高,定制開發,落地案例少,通常用于原型驗證。ASIC功能完全固定,無法適應靈活多變的復雜計算場景。l 多異構共存的計算孤島問題:加速處理器只考慮本領域問題,難以考慮全局協同;各領域加速器之間交互困難;中心單元的性能瓶頸問題;物理空間有限,無法容納多個物理的加速卡。2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會
20、2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會目目 錄錄1.業務應用和算力基礎2.微觀性能和宏觀算力3.計算架構的發展現狀和面臨的挑戰4.從異構走向超異構及相關案例5.超異構處理器HPU2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會l 工藝持續進步、3D堆疊以及Chipl
21、et多Die封裝,在芯片上可以容納更多的晶體管,也意味在單芯片層次,可以構建規模數量級提升的超大系統。l 未來,量子工藝,可以代替現在的CMOS工藝。有了量子門級電路的強力支撐,上層的芯片和軟件生態,可以更加蓬勃的發展。文獻:https:/ 藝藝 和和 封封 裝裝 創創 新新,支支 撐撐 更更 大大 規規 模模 的的 計計 算算2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會業務需求驅動+底層
22、工藝和封裝支撐,系統和架構需要創新。擴規模(Scale Out)的方式不本質的解決問題,需要通過提升單芯片性能(Scale Up)的方式。要想算力數量級提升,僅提升單芯片性能是不夠的,需要全方位協同優化,需要構建創新的計算技術體系。系系 統統 和和 架架 構構 創創 新新2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會文獻:https:/ 處理器“內卷”:每個處理器引擎都突破了通常意義上的各自
23、邊界,侵入到其他處理器引擎的領地:CPU集成協處理器。CPU不斷擴展硬件加速指令集,形成協處理器集成進CPU。例如Intel Xeon支持AVX和AMX。GPU集成CUDA核,還集成DSA性質的Tensor核。FPGA集成CPU以及ASIC,形成SoC。例如AMD Xilinx Zynq。ASIC不斷回調,變成部分可編程的DSA,可以當作是ASIC+DSA。各各 類類 處處 理理 器器 都都 在在 拓拓 展展 自自 己己 的的 能能 力力 邊邊 界界2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業
24、上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會要想高性能,勢必降低靈活性,增加系統復雜度,使得系統難以駕馭。但是,我們不得不“迎難而上”。從從 單單 異異 構構 走走 向向 多多 異異 構構 融融 合合 超超 異異 構構2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會l 同構并行編程很難,異構并行編程是難上加難,超異構并行難上加難再加
25、難。l 如何駕馭超異構?幾種可能的方法:復雜大系統分解成簡單小系統。依據系統的靈活性特征分層:業務應用層、彈性加速層和基礎設施層,采用最合適的處理引擎。架構標準和開放:讓處理器架構和生態收斂,防止碎片化。軟硬件深度融合,讓硬件具有更多軟件的能力。這些能力包括功能的擴展性、資源彈性和擴展性、完全的硬件虛擬化、硬件高可用等。如如 何何 駕駕 馭馭 超超 異異 構構2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算
26、云融合產業大會超異構計算架構,是綜合性的算力解決方案。隨著算力需求不斷提高,未來:一切皆超異構,兵家必爭之地!計計 算算 架架 構構 的的 發發 展展 階階 段段2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會2019年,Intel提出超異構計算相關概念:XPU是架構組合,包括CPU、GPU、FPGA 和其他加速器;oneAPI是開源的跨平臺編程框架,底層是不同的XPU處理器,通過OneAPI
27、提供一致性編程接口,使得應用跨平臺復用。I I n n t t e e l l:超超 異異 構構、X X P P U U 和和 o o n n e e A A P P I I2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會Intel IPU,集成多個領域DSA的基礎設施加速芯片。IPDK是Intel開源的基礎設施編程框架,可運行在IPU、DPU等平臺。2022年6月,Intel和Linux基金
28、會聯合發起OPI項目:為IPU等下一代架構和框架培育社區驅動的基于標準的開放生態系統。I I n n t t e e l l:I I P P U U、I I P P D D K K 和和 O O P P I I2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會編號架構/特征用途分析1CPU應用不可加速部分,以及其他沒有實現加速引擎的任務,兜底。CPU是Intel的優勢領域,CPU生態最強大。2G
29、PU應用層可加速部分,以及其他相對變化較大任務的加速。Intel Xe GPU:軟件第一、并行第二,適應全新的工作負載。沒有歷史包袱,OneAPI跨平臺優勢。3FPGAIntel FPGA是全球第二大FPGA平臺,相關生態成熟。4DSA類適合基礎設施層任務。Intel IPU(處理器)5ASIC類6超異構CPU、GPU、DPU、AI芯片等,融合+重構到超異構計算架構。待整合,Intel大棋的最終目標。7跨平臺任務可運行在云端、邊緣甚至終端,運行在不同廠家的硬件平臺的不同類型處理引擎。XPU戰略和OneAPI框架。8可編程完全通用的計算平臺從完全可編程網絡,擴展到完全可編程的超異構計算。9開放開
30、放架構,形成行業共識,架構收斂,主導架構生態。OneAPI(框架)、IPDK(框架)+OPI(開源生態聯盟)。不謀全局者,不足謀一域;不謀萬世者,不足謀一時。I I n n t t e e l l 超超 異異 構構 分分 析析2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會NVIDIA自動駕駛Thor芯片,由數據中心架構的CPU+GPU+DPU三部分組成,算力高達2000TFLOPS的超異構計
31、算芯片。Atlan和Thor架構相同,性能上有差異。符合超異構理念的第一款產品!此圖為Atlan架構示意圖N N V V I I D D I I A A 自自 動動 駕駕 駛駛 T T h h o o r r2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會NVIDIA Grace Hopper超級芯片是CPU+GPU,NVIDIA計劃從Bluefield DPU四代起,把DPU和GPU兩者集成
32、成單芯片。Chiplet技術逐漸成熟,未來趨勢是CPU+GPU+DPU的超異構芯片。N N V V I I D D I I A A 數數 據據 中中 心心 布布 局局2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會計算和網絡不斷融合:計算的很多挑戰,需要網絡的協同;網絡設備也是計算機,加入計算集群,成為計算的一部分。數據在網絡中流動,計算節點依靠數據流動來驅動計算,所有系統的本質是數據處理,那
33、么所有的設備就都是DPU。以DPU為基礎,不斷的融合CPU和GPU的功能,DPU會逐漸演化成數據中心統一的超異構處理器。N N V V I I D D I I A A:一一 切切 處處 理理 器器 都都 是是 D D P P U U2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會目目 錄錄1.業務應用和算力基礎2.微觀性能和宏觀算力3.計算架構的發展現狀和面臨的挑戰4.從異構走向超異構及相關案
34、例5.超異構處理器HPU2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會圖靈獎獲得者John H.和David P.2017年提出“計算機體系結構的黃金年代”,給出的解決方案是特定領域架構DSA。DSA架構分離的趨勢導致平臺和生態碎片化,未來,正確的趨勢應該是從分離再回到融合。計計 算算 機機 體體 系系 結結 構構 演演 進進:從從 合合 到到 分分,再再 從從 分分 到到 合合2 0 2
35、3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會SGP-HPU:Extremely Scalable General Purpose Hyper-heterogeneous Processing Unit,極致可擴展的通用超異構處理器。超超 異異 構構 處處 理理 器器 的的 典典 型型 功功 能能2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云
36、暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會編號對比項SOCHPU1系統單系統。多個分布式集群系統,混合部署在多個HPU;單個HPU運行多個系統。2虛擬化不支持,或部分支持。虛擬化性能損耗超過30%。虛擬化是簡單系統和復雜系統的核心區別。原生支持完全硬件虛擬化,虛擬化損耗為0。3異構融合硬件層次異構獨立,通過軟件實現異構融合。硬件原生的異構融合。4計算模式CPU指令流驅動計算。數據流驅動計算。5擴展性獨立系統,幾乎沒有擴展性??删幊坦δ軘U展,虛擬化彈性擴展,子系統解耦的平行擴展,跨芯片“無限”擴
37、展。6Chiplet互聯需要針對性修改架構。原生支持,系統架構和上層軟件不需要改動。7設計規模假設SOC可支持的設計規模為1。GP-HPU設計規??芍С?0+甚至100+。H H P P U U 與與 傳傳 統統 S S O O C C 的的 區區 別別2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會可廣泛使用在邊緣計算服務器、存儲服務器、企業云服務器等輕量級場景,占服務器數量的80%以上。H
38、 H P P U U 用用 在在 邊邊 緣緣 等等 輕輕 量量 服服 務務 器器 場場 景景2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會數據中心技術“下沉”車端:虛擬化、SOA、SDx等。單硬件多系統,系統間應用、數據、性能、故障、安全等隔離。李克強院士提出智能網聯汽車中國方案:通過邊端深度協同,在單芯片能力較弱情況下,實現系統級能力更優。H H P P U U 用用 在在 自自 動動 駕
39、駕 駛駛&智智 能能 網網 聯聯 汽汽 車車 場場 景景NVIDIA Thor多域融合,2000 TOPS算力2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會云網邊端融合,計算架構趨于統一。超異構可廣泛的應用在云計算、邊緣計算、超級終端,甚至網絡計算、智能計算和超算HPC。超超 異異 構構 更更 加加 廣廣 泛泛 的的 應應 用用 領領 域域2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會T TH HA AN NK KS S!2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會2 0 2 3 企業上云暨算云融合產業大會