《曦智研究院:2023大規模光電集成賦能智能算力網絡白皮書(27頁).pdf》由會員分享,可在線閱讀,更多相關《曦智研究院:2023大規模光電集成賦能智能算力網絡白皮書(27頁).pdf(27頁珍藏版)》請在三個皮匠報告上搜索。
1、曦智研究院2023年3月大規模光電集成賦能智能算力網絡白皮書目前,業界針對數據中心算力和算效的提升已做出大量的努力。其中,算力網絡(Computing Power Network)的理念在全球范圍內得到了廣泛認可6。算力網絡是一種根據業務需求,按需分配和靈活調度計算、存儲以及網絡等資源的新型信息基礎設施。其終極目標是將硬件資源抽象化為算力,用戶可根據實際的計算需求向數據中心購買算力,而無需購買或租賃硬件設備,從而實現像使用水、電、氣一樣便捷地使用算力。因此,國外也有文獻把這個算力網絡概念稱為Utility Computing7。為實現這一愿景,算力網絡需要具備眾多高效的計算節點和節點間高效的數
2、據互連。單節點內的縱向算力提升,為算力網絡提供高效的計算資源。在此基礎上,通過高效的數據互連,橫向拓展算力,從而總體上形成龐大的算力容量。算力網絡不僅能夠幫助解決算力的利用率和擴展性問題,而且可以解決算力遷移和易用性問題,通過硬件資源的靈活調度,實現算力網絡內更細粒度的資源共享。本章將簡要介紹目前業界在縱向算力提升和橫向算力拓展兩方面的主要工作及面臨的挑戰。2.1 單節點算力縱向提升數據中心內,以一到兩個CPU為核心的單個服務器通常被看作一個計算節點。在晶體管密度提升放緩的背景下,制程工藝迭代所能帶來的性能提升愈發有限,單個節點的算力提升出現了多種思路。首先是通過芯片架構創新降低相對于CPU的
3、通用性來換取超越CPU的計算效率。在此基礎上,一些研究者尋求跳出傳統的馮諾依曼范式和 CMOS晶體管技術,用顛覆性的新原理來獲得超越摩爾定律的算力提升。另一種思路是通過在單個封裝內容納多個芯粒(Chiplet)來超越倍縮光罩(Reticle)導致的單芯片尺寸上限,從而獲得更高的算力。2.1.1 異構計算架構創新早期的計算架構創新以通用計算架構為主,主要以提升指令級別并行(Instruction-Level Parallelism,ILP)為驅動力,盡最大努力挖掘摩爾定律帶來的片上晶體管資源紅利。例如,超標量CPU架構利用晶體管資源優勢來使能從指令單發到多發(亂序發射亂序執行)再到更深的流水管線
4、,針對單元數據實現了更多計算操作。同時,流水線管線加深有利于減少每一個階段的計算操作,從而實現CPU頻率的大幅提升。隨著半導體工藝的演進,芯片面積的增大也使得芯片上可以集成更多的邏輯功能,包括更大和更多層的數據緩沖、數據預取等功能塊,從而改善由于計算和內存速度的不均衡發展所產生的“內存墻”問題。近期,大規模、高效的數據遷移已成為突破單節點算力瓶頸的新動力。例如高帶寬內存架構(High Bandwidth Memory,HBM)等創新技術,通過提高數據傳輸過程中的效率,為計算架構帶來新一輪的性能提升。這一趨勢在谷歌對其幾代張量加速器(Tensor Processing Unit,TPU)架構演進
5、的總結里有很好的反映8。最后,資源紅利也賦能了計算架構朝著超線程、多核,再到以背景執行環境為支撐的成千上萬個眾線程架構方向發展。同時,加上數據向量化和單指令多數據流(Single Instruction Multiple Data,SIMD)等技術,這種線程級別并行(Thread-Level Parallelism,TLP)為計算架構性能帶來多個數量級的飛躍。在上述通用計算架構的基礎上,領域專用架構(Domain Specific Architecture,DSA)獲得了長足的發展。隨著人工智能、5G、自動駕駛、VR/AR等創新技術的涌現,不同應用場景對芯片算力、功能、功耗、成本、安全性等方面
6、的需求日漸分化,算力需求多元化趨勢下,領域專用架構應運而生。領域專用架構是針對某個應用領域的特殊性而定制設計的專用架構,包括特殊的計算單元、并行機制、數據類型和領域專用語言等。領域專用架構通過犧牲架構的通用性來加速應用性能,從而把硬件的原生計算能力更高效地發揮出來,同時實現比通用計算架構更好的節能效果。以英偉達最新發布的Hopper圖形加速器(Graphics Processing Unit,GPU)架構9為例,其在典型的TLP架構的基礎上,使用了更多、更強大的張量加速核(Tensor Core),并在張量加速核內部增加了更多有助于算力縱向提升的領域專用技術,包括細粒度的結構化稀疏計算和動態編
7、程算法優化等。相對于上一代A100 GPU,基于Hopper架構的H100 GPU在AI訓練任務集上約有24倍的性能提升。另一個比較典型的領域專用加速器是谷歌的張量處理器(TPU)。該加速器的脈動陣列模塊是針對矩陣乘法優化的設計,通過增加對單位數據的多重計算,在緩解“內存墻”效應的同時,顯著提升計算密度。然而,領域專用架構的定制化特征,通常使得其本身缺乏計算完備性。異構計算架構則是把CPU和多類DSA有機地結合在一起,通過讓每一個DSA在自己擅長的領域內發揮出最大性能,從整體上實現最高性能和最佳能效。領域專用架構在取得大幅度算力提升的同時,依然受限于傳統底層元器件以及馮諾伊曼架構。傳統計算芯片
8、的底層元器件是基于硅晶圓的CMOS晶體管,核心的工作原理是由電壓信號來控制晶體管內的電流。隨著CMOS制程的提升,晶體管的尺寸越來越小,量子隧穿效應使得控制電流的效率降低。突破這一瓶頸需要新的底層計算原理。同時,傳統的計算硬件設計通?;隈T諾伊曼架構,即計算和數據分離架構,通過順序控制邏輯把數據搬運到計算單元再執行計算。這種架構的主要問題是數據遷移導致了計算延遲以及處理單位數據時的功耗變大,暴露出“內存墻”問題。盡管現代架構通過向量化、超線程技術、流水線并行和多核架構的不斷創新來提升性能,但馮諾伊曼架構的潛力空間越來越小。隨著計算架構不斷創新,非馮諾伊曼架構也開始出現百花齊放的趨勢。這一類非基
9、于順序控制流執行的顛覆性計算架構(例如生物計算和量子計算),或為了克服馮諾伊曼架構的核心瓶頸而衍生出的架構(例如基于憶阻器的存內計算),通過嶄新的計算模式創造了巨大的性能和能效提升空間。例如,基于3D混合封裝的近內存計算引擎10,通過把多存儲體內存直接連接到計算邏輯單元,讓AI加速器在推薦模型上的性能大幅提升。2.1.2 芯粒系統由于晶體管密度提高的減緩,單個封裝內的底層算力提升只能通過擴大芯片總面積實現。但芯片尺寸不可能無限大,在CMOS工藝的限制下,受限于倍縮光罩的尺寸,單個芯片的最大面積一般在800mm2左右。要進一步擴大芯片總面積,則需另辟蹊徑,來突破單個芯片的面積上限,芯粒系統的新思
10、路由此逐漸興起。得益于先進封裝技術的進步,將滿足不同特定功能的多個芯粒封裝在同一個基板上成為了可能。近年來,世界領先的芯片企業已經越來越多地將芯粒架構應用在高端計算系統里。例如,英特爾的Ponte Vecchio GPU11由超過40個芯粒組成,總面積超過了3,000mm2。Cerebras Systems的晶圓級計算引擎(Wafer Scale Engine,WSE)12總面積超過了40,000mm2,是當前倍縮光罩面積的50倍。除了提升芯片總面積之外,芯粒具有模塊化特性,即來自不同晶圓廠、采用不同制程節點的芯??梢园葱杞M合,因此不僅具有解耦架構設計的靈活性,而且在大幅提升芯片工藝制程的良率
11、的同時,有效降低制造成本。由于實現了芯片內部的領域專用異構計算,芯粒架構能夠更高效地片上適配各種計算任務。目前的芯粒系統產品依然以私有架構為主。多個工業組織正在積極推動芯?;ミB標準(例如UCIe和BOW),以發展片上異構計算。其中不乏行業巨頭,如2021年谷歌發布了開放式芯粒(Open Chiplet)計算架構13,進一步推動芯粒技術生態的發展。然而,芯片總面積變大,會導致數據搬運的時間和能耗成本隨之增加。電在進行數據傳輸的過程中,對能耗、片上面積等資源的消耗隨著距離的增長而提高。在純數字電路中,為了減小數據搬運的消耗,每個計算單元一般只會與其最鄰近的計算單元進行數據傳輸,因此,跨越多個計算單
12、元的數據搬運需要多次跳躍。同時,較大的計算任務通常會被映射到多個計算單元,為了避免長距離數據搬運,需使用非常復雜的算法來優化計算任務的映射。2.2 多節點算力橫向擴展2.2.1 目前大規模分布式技術的挑戰單個計算節點的架構創新和算力提升,并不能滿足日益增長的大規模算力需求。數據中心一般需要部署數以萬計的計算設備,而多個計算節點簡單堆疊和組合往往會產生網絡擁塞現象,特別是在數據密集型場景下,多個并行任務在通信網絡中相互沖突,會造成大量額外的延時和性能損耗,導致整體系統的資源利用率不高。大部分數據中心的計算架構多根據接近于峰值時段的算力需求進行硬件規劃,而其峰值算力需求通常比平時高出幾倍,甚至數十
13、倍。阿里巴巴官方公布的數據顯示14,2017年“雙11”實時數據處理峰值為4.72億條/秒,是日常實時處理峰值(0.4億條/秒)的10倍。因此,如果根據峰值算力需求進行硬件規劃和部署,很容易造成設備閑置。另外,數據中心服務器內部的CPU、GPU和內存等資源配置比較固化,但不同計算任務對資源的需求又不盡相同,數據中心硬件配置一旦固定,由于算力無法靈活調度,其使用率在大部分時間內都相對較低。根據阿里云數據中心和字節跳動對GPU使用率的觀測結果15,16,以GPU整卡為單位,其使用率大概在40%左右。若細分到以GPU內部的流式多處理器(Streaming Multiprocessor,SM)為使用單
14、位,則資源利用率僅為10%左右。更好的做法是將計算資源整合,通過精細化管理,以靈活高效的方式分配給計算任務。這種思路通常被稱為資源池化。傳統模式的資源池化,包括計算池化和內存池化,主要集中在單計算節點之內的資源共享。這種共享模式通過虛擬機監控程序(Hypervisor)技術把CPU、內存等資源切分給不同的虛擬機,并實現多租戶的虛擬機在物理主機上的資源隔離和共享。因此,傳統池化模式沒有突破單計算節點的物理邊界,不能發揮出大規模計算節點間的資源共享優勢。綜上,傳統服務器架構的挑戰可以被總結為以下幾點:隨著數字經濟時代的到來,萬物感知、萬物互聯和萬物智能對計算的需求呈現爆發性增長和多樣化態勢。人工智
15、能、大數據和元宇宙等新興領域的快速崛起,加速推動了全球數據總量和算力規模的高速增長。算力已成為推動數字經濟高速發展的核心動力,對促進行業數字化轉型以及支撐經濟社會發展發揮著極其重要的作用。當前算力發展面臨應用多元化、供需不平衡的挑戰。未來的算力系統需要更系統化的設計思維以及更多樣化的計算架構。同時,顛覆性計算技術也將不斷從理論走向實踐,取得突破與進展。光電集成技術有望突破現有計算系統在數據處理、搬運和存儲上的瓶頸,為未來算力網絡的發展提供一種更加高效的解決方案。這份白皮書圍繞提升數據中心算力和算效的目標,聚焦所面臨的關鍵問題與挑戰,闡述了業界當前基于大規模光電集成技術的算力網絡新趨勢。同時,對
16、于科研人員和業內人士具有很好的技術啟示和產業洞察的意義。大規模光電集成技術的發展和進步,需要政府、高校、科研機構、企業等“政產學研用”多方力量發揮各自優勢,融合創新,協同共進。讓我們緊密攜手,一起努力,期待光電集成技術為智能算力網絡的發展做出更多貢獻。李儒新院士目前,業界針對數據中心算力和算效的提升已做出大量的努力。其中,算力網絡(Computing Power Network)的理念在全球范圍內得到了廣泛認可6。算力網絡是一種根據業務需求,按需分配和靈活調度計算、存儲以及網絡等資源的新型信息基礎設施。其終極目標是將硬件資源抽象化為算力,用戶可根據實際的計算需求向數據中心購買算力,而無需購買或
17、租賃硬件設備,從而實現像使用水、電、氣一樣便捷地使用算力。因此,國外也有文獻把這個算力網絡概念稱為Utility Computing7。為實現這一愿景,算力網絡需要具備眾多高效的計算節點和節點間高效的數據互連。單節點內的縱向算力提升,為算力網絡提供高效的計算資源。在此基礎上,通過高效的數據互連,橫向拓展算力,從而總體上形成龐大的算力容量。算力網絡不僅能夠幫助解決算力的利用率和擴展性問題,而且可以解決算力遷移和易用性問題,通過硬件資源的靈活調度,實現算力網絡內更細粒度的資源共享。本章將簡要介紹目前業界在縱向算力提升和橫向算力拓展兩方面的主要工作及面臨的挑戰。2.1 單節點算力縱向提升數據中心內,
18、以一到兩個CPU為核心的單個服務器通常被看作一個計算節點。在晶體管密度提升放緩的背景下,制程工藝迭代所能帶來的性能提升愈發有限,單個節點的算力提升出現了多種思路。首先是通過芯片架構創新降低相對于CPU的通用性來換取超越CPU的計算效率。在此基礎上,一些研究者尋求跳出傳統的馮諾依曼范式和 CMOS晶體管技術,用顛覆性的新原理來獲得超越摩爾定律的算力提升。另一種思路是通過在單個封裝內容納多個芯粒(Chiplet)來超越倍縮光罩(Reticle)導致的單芯片尺寸上限,從而獲得更高的算力。2.1.1 異構計算架構創新早期的計算架構創新以通用計算架構為主,主要以提升指令級別并行(Instruction-
19、Level Parallelism,ILP)為驅動力,盡最大努力挖掘摩爾定律帶來的片上晶體管資源紅利。例如,超標量CPU架構利用晶體管資源優勢來使能從指令單發到多發(亂序發射亂序執行)再到更深的流水管線,針對單元數據實現了更多計算操作。同時,流水線管線加深有利于減少每一個階段的計算操作,從而實現CPU頻率的大幅提升。隨著半導體工藝的演進,芯片面積的增大也使得芯片上可以集成更多的邏輯功能,包括更大和更多層的數據緩沖、數據預取等功能塊,從而改善由于計算和內存速度的不均衡發展所產生的“內存墻”問題。近期,大規模、高效的數據遷移已成為突破單節點算力瓶頸的新動力。例如高帶寬內存架構(High Bandw
20、idth Memory,HBM)等創新技術,通過提高數據傳輸過程中的效率,為計算架構帶來新一輪的性能提升。這一趨勢在谷歌對其幾代張量加速器(Tensor Processing Unit,TPU)架構演進的總結里有很好的反映8。最后,資源紅利也賦能了計算架構朝著超線程、多核,再到以背景執行環境為支撐的成千上萬個眾線程架構方向發展。同時,加上數據向量化和單指令多數據流(Single Instruction Multiple Data,SIMD)等技術,這種線程級別并行(Thread-Level Parallelism,TLP)為計算架構性能帶來多個數量級的飛躍。在上述通用計算架構的基礎上,領域專用
21、架構(Domain Specific Architecture,DSA)獲得了長足的發展。隨著人工智能、5G、自動駕駛、VR/AR等創新技術的涌現,不同應用場景對芯片算力、功能、功耗、成本、安全性等方面的需求日漸分化,算力需求多元化趨勢下,領域專用架構應運而生。領域專用架構是針對某個應用領域的特殊性而定制設計的專用架構,包括特殊的計算單元、并行機制、數據類型和領域專用語言等。領域專用架構通過犧牲架構的通用性來加速應用性能,從而把硬件的原生計算能力更高效地發揮出來,同時實現比通用計算架構更好的節能效果。以英偉達最新發布的Hopper圖形加速器(Graphics Processing Unit,G
22、PU)架構9為例,其在典型的TLP架構的基礎上,使用了更多、更強大的張量加速核(Tensor Core),并在張量加速核內部增加了更多有助于算力縱向提升的領域專用技術,包括細粒度的結構化稀疏計算和動態編程算法優化等。相對于上一代A100 GPU,基于Hopper架構的H100 GPU在AI訓練任務集上約有24倍的性能提升。另一個比較典型的領域專用加速器是谷歌的張量處理器(TPU)。該加速器的脈動陣列模塊是針對矩陣乘法優化的設計,通過增加對單位數據的多重計算,在緩解“內存墻”效應的同時,顯著提升計算密度。然而,領域專用架構的定制化特征,通常使得其本身缺乏計算完備性。異構計算架構則是把CPU和多類
23、DSA有機地結合在一起,通過讓每一個DSA在自己擅長的領域內發揮出最大性能,從整體上實現最高性能和最佳能效。領域專用架構在取得大幅度算力提升的同時,依然受限于傳統底層元器件以及馮諾伊曼架構。傳統計算芯片的底層元器件是基于硅晶圓的CMOS晶體管,核心的工作原理是由電壓信號來控制晶體管內的電流。隨著CMOS制程的提升,晶體管的尺寸越來越小,量子隧穿效應使得控制電流的效率降低。突破這一瓶頸需要新的底層計算原理。同時,傳統的計算硬件設計通?;隈T諾伊曼架構,即計算和數據分離架構,通過順序控制邏輯把數據搬運到計算單元再執行計算。這種架構的主要問題是數據遷移導致了計算延遲以及處理單位數據時的功耗變大,暴露
24、出“內存墻”問題。盡管現代架構通過向量化、超線程技術、流水線并行和多核架構的不斷創新來提升性能,但馮諾伊曼架構的潛力空間越來越小。隨著計算架構不斷創新,非馮諾伊曼架構也開始出現百花齊放的趨勢。這一類非基于順序控制流執行的顛覆性計算架構(例如生物計算和量子計算),或為了克服馮諾伊曼架構的核心瓶頸而衍生出的架構(例如基于憶阻器的存內計算),通過嶄新的計算模式創造了巨大的性能和能效提升空間。例如,基于3D混合封裝的近內存計算引擎10,通過把多存儲體內存直接連接到計算邏輯單元,讓AI加速器在推薦模型上的性能大幅提升。2.1.2 芯粒系統由于晶體管密度提高的減緩,單個封裝內的底層算力提升只能通過擴大芯片
25、總面積實現。但芯片尺寸不可能無限大,在CMOS工藝的限制下,受限于倍縮光罩的尺寸,單個芯片的最大面積一般在800mm2左右。要進一步擴大芯片總面積,則需另辟蹊徑,來突破單個芯片的面積上限,芯粒系統的新思路由此逐漸興起。得益于先進封裝技術的進步,將滿足不同特定功能的多個芯粒封裝在同一個基板上成為了可能。近年來,世界領先的芯片企業已經越來越多地將芯粒架構應用在高端計算系統里。例如,英特爾的Ponte Vecchio GPU11由超過40個芯粒組成,總面積超過了3,000mm2。Cerebras Systems的晶圓級計算引擎(Wafer Scale Engine,WSE)12總面積超過了40,00
26、0mm2,是當前倍縮光罩面積的50倍。除了提升芯片總面積之外,芯粒具有模塊化特性,即來自不同晶圓廠、采用不同制程節點的芯??梢园葱杞M合,因此不僅具有解耦架構設計的靈活性,而且在大幅提升芯片工藝制程的良率的同時,有效降低制造成本。由于實現了芯片內部的領域專用異構計算,芯粒架構能夠更高效地片上適配各種計算任務。目前的芯粒系統產品依然以私有架構為主。多個工業組織正在積極推動芯?;ミB標準(例如UCIe和BOW),以發展片上異構計算。其中不乏行業巨頭,如2021年谷歌發布了開放式芯粒(Open Chiplet)計算架構13,進一步推動芯粒技術生態的發展。然而,芯片總面積變大,會導致數據搬運的時間和能耗成
27、本隨之增加。電在進行數據傳輸的過程中,對能耗、片上面積等資源的消耗隨著距離的增長而提高。在純數字電路中,為了減小數據搬運的消耗,每個計算單元一般只會與其最鄰近的計算單元進行數據傳輸,因此,跨越多個計算單元的數據搬運需要多次跳躍。同時,較大的計算任務通常會被映射到多個計算單元,為了避免長距離數據搬運,需使用非常復雜的算法來優化計算任務的映射。2.2 多節點算力橫向擴展2.2.1 目前大規模分布式技術的挑戰單個計算節點的架構創新和算力提升,并不能滿足日益增長的大規模算力需求。數據中心一般需要部署數以萬計的計算設備,而多個計算節點簡單堆疊和組合往往會產生網絡擁塞現象,特別是在數據密集型場景下,多個并
28、行任務在通信網絡中相互沖突,會造成大量額外的延時和性能損耗,導致整體系統的資源利用率不高。大部分數據中心的計算架構多根據接近于峰值時段的算力需求進行硬件規劃,而其峰值算力需求通常比平時高出幾倍,甚至數十倍。阿里巴巴官方公布的數據顯示14,2017年“雙11”實時數據處理峰值為4.72億條/秒,是日常實時處理峰值(0.4億條/秒)的10倍。因此,如果根據峰值算力需求進行硬件規劃和部署,很容易造成設備閑置。另外,數據中心服務器內部的CPU、GPU和內存等資源配置比較固化,但不同計算任務對資源的需求又不盡相同,數據中心硬件配置一旦固定,由于算力無法靈活調度,其使用率在大部分時間內都相對較低。根據阿里
29、云數據中心和字節跳動對GPU使用率的觀測結果15,16,以GPU整卡為單位,其使用率大概在40%左右。若細分到以GPU內部的流式多處理器(Streaming Multiprocessor,SM)為使用單位,則資源利用率僅為10%左右。更好的做法是將計算資源整合,通過精細化管理,以靈活高效的方式分配給計算任務。這種思路通常被稱為資源池化。傳統模式的資源池化,包括計算池化和內存池化,主要集中在單計算節點之內的資源共享。這種共享模式通過虛擬機監控程序(Hypervisor)技術把CPU、內存等資源切分給不同的虛擬機,并實現多租戶的虛擬機在物理主機上的資源隔離和共享。因此,傳統池化模式沒有突破單計算節
30、點的物理邊界,不能發揮出大規模計算節點間的資源共享優勢。綜上,傳統服務器架構的挑戰可以被總結為以下幾點:2.1 單節點算力縱向提升2.1.1 異構計算架構創新2.1.2 芯粒系統3.2.1 物理層創新3.2.2 互連協議創新3.1.1 顛覆性計算新原理:光子矩陣計算(oMAC)3.1.2 助力高效芯粒系統:片上光網絡(oNOC)2.2.1 目前大規模分布式技術的挑戰2.2.2 可重構算力池化技術3.1 單節點算力提升方案2.2 多節點算力橫向擴展2.3 算力網絡發展關鍵挑戰3.3 算力網絡新范式3.2 多節點算力擴展方案:片間光網絡(oNET)0304061517111407081107091
31、815大規模光電集成賦能智能算力網絡1然而,計算芯片的傳統算力增長路徑已經遇到了瓶頸。半導體產業發展60多年以來,算力提升長期遵循兩個定律摩爾定律和登納德縮放比例定律。摩爾定律提出晶體管的密度每18個月會翻一倍;而根據登納德縮放比例定律2,晶體管在密度提升的同隨著智慧交通、工業大腦、自動駕駛、物聯網等人工智能(AI)應用的逐步推廣和普及,人類社會每天都會產生包括語音、圖像、視頻等海量的數據。從這些數據中分析和提取有價值的信息,需要匹配強大的數據存儲、傳輸和處理能力,這對當前的數據中心和邊緣設備的計算能力提出了前所未有的挑戰。與此同時,AI應用為了提高信息捕捉的質量和精度,其模型本身也在不斷演進
32、,參數規模與日俱增。模型參數的增加也意味著對模型的每單位數據輸入形成了更大強度的計算需求。據OpenAI網站公布的數據,如圖1所示,近年來,最先進的AI模型的大小按每年10倍的指數型增長,同時因數據量爆炸,AI模型訓練的計算能力需求以每年10倍的速度提升1。2.2 多節點算力橫向擴展2.2.1 目前大規模分布式技術的挑戰單個計算節點的架構創新和算力提升,并不能滿足日益增長的大規模算力需求。數據中心一般需要部署數以萬計的計算設備,而多個計算節點簡單堆疊和組合往往會產生網絡擁塞現象,特別是在數據密集型場景下,多個并行任務在通信網絡中相互沖突,會造成大量額外的延時和性能損耗,導致整體系統的資源利用率
33、不高。大部分數據中心的計算架構多根據接近于峰值時段的算力需求進行硬件規劃,而其峰值算力需求通常比平時高出幾倍,甚至數十倍。阿里巴巴官方公布的數據顯示14,2017年“雙11”實時數據處理峰值為4.72億條/秒,是日常實時處理峰值(0.4億條/秒)的10倍。因此,如果根據峰值算力需求進行硬件規劃和部署,很容易造成設備閑置。另外,數據中心服務器內部的CPU、GPU和內存等資源配置比較固化,但不同計算任務對資源的需求又不盡相同,數據中心硬件配置一旦固定,由于算力無法靈活調度,其使用率在大部分時間內都相對較低。根據阿里云數據中心和字節跳動對GPU使用率的觀測結果15,16,以GPU整卡為單位,其使用率
34、大概在40%左右。若細分到以GPU內部的流式多處理器(Streaming Multiprocessor,SM)為使用單位,則資源利用率僅為10%左右。更好的做法是將計算資源整合,通過精細化管理,以靈活高效的方式分配給計算任務。這種思路通常被稱為資源池化。傳統模式的資源池化,包括計算池化和內存池化,主要集中在單計算節點之內的資源共享。這種共享模式通過虛擬機監控程序(Hypervisor)技術把CPU、內存等資源切分給不同的虛擬機,并實現多租戶的虛擬機在物理主機上的資源隔離和共享。因此,傳統池化模式沒有突破單計算節點的物理邊界,不能發揮出大規模計算節點間的資源共享優勢。綜上,傳統服務器架構的挑戰可
35、以被總結為以下幾點:AI模型算力消耗的指數增長AI模型容量的指數增長模型大小(以十億為單位)20182019202020212022Megatron-TuringNLG(530B)ELMo(94M)BERT-Large(340M)GPT-2(1.5B)T5(11B)Turing-NLG(17.2B)Megatron-LM(8.3B)GPT-3(175B)10001001010.10.01AI訓練的算力消耗(千萬億次運算/秒天)1950 196019802000 2010 2020199019701e+41e+21e+01e-21e-41e-61e-81e-101e-121e-14Percept
36、ronALVINNNETtalkTD-Gammor v2.1Deep Belief Nets andLayer-wise pretrainingAlexNetVGGNeural MachineTranslationAlphaGoZeroResNetsBERTDONRNN for SpeechLeNet-5BiLSTM for SpeechTeslaAutopilot每兩年翻一番每年10倍時間(年)時間(年)圖1 AI模型容量和算力消耗的指數增長趨勢1大規模光電集成賦能智能算力網絡2然而,計算芯片的傳統算力增長路徑已經遇到了瓶頸。半導體產業發展60多年以來,算力提升長期遵循兩個定律摩爾定律和登納
37、德縮放比例定律。摩爾定律提出晶體管的密度每18個月會翻一倍;而根據登納德縮放比例定律2,晶體管在密度提升的同目前,業界針對數據中心算力和算效的提升已做出大量的努力。其中,算力網絡(Computing Power Network)的理念在全球范圍內得到了廣泛認可6。算力網絡是一種根據業務需求,按需分配和靈活調度計算、存儲以及網絡等資源的新型信息基礎設施。其終極目標是將硬件資源抽象化為算力,用戶可根據實際的計算需求向數據中心購買算力,而無需購買或租賃硬件設備,從而實現像使用水、電、氣一樣便捷地使用算力。因此,國外也有文獻把這個算力網絡概念稱為Utility Computing7。為實現這一愿景,算
38、力網絡需要具備眾多高效的計算節點和節點間高效的數據互連。單節點內的縱向算力提升,為算力網絡提供高效的計算資源。在此基礎上,通過高效的數據互連,橫向拓展算力,從而總體上形成龐大的算力容量。算力網絡不僅能夠幫助解決算力的利用率和擴展性問題,而且可以解決算力遷移和易用性問題,通過硬件資源的靈活調度,實現算力網絡內更細粒度的資源共享。本章將簡要介紹目前業界在縱向算力提升和橫向算力拓展兩方面的主要工作及面臨的挑戰。2.1 單節點算力縱向提升數據中心內,以一到兩個CPU為核心的單個服務器通常被看作一個計算節點。在晶體管密度提升放緩的背景下,制程工藝迭代所能帶來的性能提升愈發有限,單個節點的算力提升出現了多
39、種思路。首先是通過芯片架構創新降低相對于CPU的通用性來換取超越CPU的計算效率。在此基礎上,一些研究者尋求跳出傳統的馮諾依曼范式和 CMOS晶體管技術,用顛覆性的新原理來獲得超越摩爾定律的算力提升。另一種思路是通過在單個封裝內容納多個芯粒(Chiplet)來超越倍縮光罩(Reticle)導致的單芯片尺寸上限,從而獲得更高的算力。2.1.1 異構計算架構創新早期的計算架構創新以通用計算架構為主,主要以提升指令級別并行(Instruction-Level Parallelism,ILP)為驅動力,盡最大努力挖掘摩爾定律帶來的片上晶體管資源紅利。例如,超標量CPU架構利用晶體管資源優勢來使能從指令
40、單發到多發(亂序發射亂序執行)再到更深的流水管線,針對單元數據實現了更多計算操作。同時,流水線管線加深有利于減少每一個階段的計算操作,從而實現CPU頻率的大幅提升。隨著半導體工藝的演進,芯片面積的增大也使得芯片上可以集成更多的邏輯功能,包括更大和更多層的數據緩沖、數據預取等功能塊,從而改善由于計算和內存速度的不均衡發展所產生的“內存墻”問題。近期,大規模、高效的數據遷移已成為突破單節點算力瓶頸的新動力。例如高帶寬內存架構(High Bandwidth Memory,HBM)等創新技術,通過提高數據傳輸過程中的效率,為計算架構帶來新一輪的性能提升。這一趨勢在谷歌對其幾代張量加速器(Tensor
41、Processing Unit,TPU)架構演進的總結里有很好的反映8。最后,資源紅利也賦能了計算架構朝著超線程、多核,再到以背景執行環境為支撐的成千上萬個眾線程架構方向發展。同時,加上數據向量化和單指令多數據流(Single Instruction Multiple Data,SIMD)等技術,這種線程級別并行(Thread-Level Parallelism,TLP)為計算架構性能帶來多個數量級的飛躍。在上述通用計算架構的基礎上,領域專用架構(Domain Specific Architecture,DSA)獲得了長足的發展。隨著人工智能、5G、自動駕駛、VR/AR等創新技術的涌現,不同應
42、用場景對芯片算力、功能、功耗、成本、安全性等方面的需求日漸分化,算力需求多元化趨勢下,領域專用架構應運而生。領域專用架構是針對某個應用領域的特殊性而定制設計的專用架構,包括特殊的計算單元、并行機制、數據類型和領域專用語言等。領域專用架構通過犧牲架構的通用性來加速應用性能,從而把硬件的原生計算能力更高效地發揮出來,同時實現比通用計算架構更好的節能效果。以英偉達最新發布的Hopper圖形加速器(Graphics Processing Unit,GPU)架構9為例,其在典型的TLP架構的基礎上,使用了更多、更強大的張量加速核(Tensor Core),并在張量加速核內部增加了更多有助于算力縱向提升的
43、領域專用技術,包括細粒度的結構化稀疏計算和動態編程算法優化等。相對于上一代A100 GPU,基于Hopper架構的H100 GPU在AI訓練任務集上約有24倍的性能提升。另一個比較典型的領域專用加速器是谷歌的張量處理器(TPU)。該加速器的脈動陣列模塊是針對矩陣乘法優化的設計,通過增加對單位數據的多重計算,在緩解“內存墻”效應的同時,顯著提升計算密度。然而,領域專用架構的定制化特征,通常使得其本身缺乏計算完備性。異構計算架構則是把CPU和多類DSA有機地結合在一起,通過讓每一個DSA在自己擅長的領域內發揮出最大性能,從整體上實現最高性能和最佳能效。領域專用架構在取得大幅度算力提升的同時,依然受
44、限于傳統底層元器件以及馮諾伊曼架構。傳統計算芯片的底層元器件是基于硅晶圓的CMOS晶體管,核心的工作原理是由電壓信號來控制晶體管內的電流。隨著CMOS制程的提升,晶體管的尺寸越來越小,量子隧穿效應使得控制電流的效率降低。突破這一瓶頸需要新的底層計算原理。同時,傳統的計算硬件設計通?;隈T諾伊曼架構,即計算和數據分離架構,通過順序控制邏輯把數據搬運到計算單元再執行計算。這種架構的主要問題是數據遷移導致了計算延遲以及處理單位數據時的功耗變大,暴露出“內存墻”問題。盡管現代架構通過向量化、超線程技術、流水線并行和多核架構的不斷創新來提升性能,但馮諾伊曼架構的潛力空間越來越小。隨著計算架構不斷創新,非
45、馮諾伊曼架構也開始出現百花齊放的趨勢。這一類非基于順序控制流執行的顛覆性計算架構(例如生物計算和量子計算),或為了克服馮諾伊曼架構的核心瓶頸而衍生出的架構(例如基于憶阻器的存內計算),通過嶄新的計算模式創造了巨大的性能和能效提升空間。例如,基于3D混合封裝的近內存計算引擎10,通過把多存儲體內存直接連接到計算邏輯單元,讓AI加速器在推薦模型上的性能大幅提升。2.1.2 芯粒系統由于晶體管密度提高的減緩,單個封裝內的底層算力提升只能通過擴大芯片總面積實現。但芯片尺寸不可能無限大,在CMOS工藝的限制下,受限于倍縮光罩的尺寸,單個芯片的最大面積一般在800mm2左右。要進一步擴大芯片總面積,則需另
46、辟蹊徑,來突破單個芯片的面積上限,芯粒系統的新思路由此逐漸興起。得益于先進封裝技術的進步,將滿足不同特定功能的多個芯粒封裝在同一個基板上成為了可能。近年來,世界領先的芯片企業已經越來越多地將芯粒架構應用在高端計算系統里。例如,英特爾的Ponte Vecchio GPU11由超過40個芯粒組成,總面積超過了3,000mm2。Cerebras Systems的晶圓級計算引擎(Wafer Scale Engine,WSE)12總面積超過了40,000mm2,是當前倍縮光罩面積的50倍。除了提升芯片總面積之外,芯粒具有模塊化特性,即來自不同晶圓廠、采用不同制程節點的芯??梢园葱杞M合,因此不僅具有解耦架
47、構設計的靈活性,而且在大幅提升芯片工藝制程的良率的同時,有效降低制造成本。由于實現了芯片內部的領域專用異構計算,芯粒架構能夠更高效地片上適配各種計算任務。目前的芯粒系統產品依然以私有架構為主。多個工業組織正在積極推動芯?;ミB標準(例如UCIe和BOW),以發展片上異構計算。其中不乏行業巨頭,如2021年谷歌發布了開放式芯粒(Open Chiplet)計算架構13,進一步推動芯粒技術生態的發展。然而,芯片總面積變大,會導致數據搬運的時間和能耗成本隨之增加。電在進行數據傳輸的過程中,對能耗、片上面積等資源的消耗隨著距離的增長而提高。在純數字電路中,為了減小數據搬運的消耗,每個計算單元一般只會與其最
48、鄰近的計算單元進行數據傳輸,因此,跨越多個計算單元的數據搬運需要多次跳躍。同時,較大的計算任務通常會被映射到多個計算單元,為了避免長距離數據搬運,需使用非常復雜的算法來優化計算任務的映射。2.2 多節點算力橫向擴展2.2.1 目前大規模分布式技術的挑戰單個計算節點的架構創新和算力提升,并不能滿足日益增長的大規模算力需求。數據中心一般需要部署數以萬計的計算設備,而多個計算節點簡單堆疊和組合往往會產生網絡擁塞現象,特別是在數據密集型場景下,多個并行任務在通信網絡中相互沖突,會造成大量額外的延時和性能損耗,導致整體系統的資源利用率不高。大部分數據中心的計算架構多根據接近于峰值時段的算力需求進行硬件規
49、劃,而其峰值算力需求通常比平時高出幾倍,甚至數十倍。阿里巴巴官方公布的數據顯示14,2017年“雙11”實時數據處理峰值為4.72億條/秒,是日常實時處理峰值(0.4億條/秒)的10倍。因此,如果根據峰值算力需求進行硬件規劃和部署,很容易造成設備閑置。另外,數據中心服務器內部的CPU、GPU和內存等資源配置比較固化,但不同計算任務對資源的需求又不盡相同,數據中心硬件配置一旦固定,由于算力無法靈活調度,其使用率在大部分時間內都相對較低。根據阿里云數據中心和字節跳動對GPU使用率的觀測結果15,16,以GPU整卡為單位,其使用率大概在40%左右。若細分到以GPU內部的流式多處理器(Streamin
50、g Multiprocessor,SM)為使用單位,則資源利用率僅為10%左右。更好的做法是將計算資源整合,通過精細化管理,以靈活高效的方式分配給計算任務。這種思路通常被稱為資源池化。傳統模式的資源池化,包括計算池化和內存池化,主要集中在單計算節點之內的資源共享。這種共享模式通過虛擬機監控程序(Hypervisor)技術把CPU、內存等資源切分給不同的虛擬機,并實現多租戶的虛擬機在物理主機上的資源隔離和共享。因此,傳統池化模式沒有突破單計算節點的物理邊界,不能發揮出大規模計算節點間的資源共享優勢。綜上,傳統服務器架構的挑戰可以被總結為以下幾點:時,功耗密度保持不變。結合摩爾定律和登納德縮放定律
51、,CMOS芯片可以在能耗和面積不變的情況下,隨著晶體管數量的增加而不斷提高算力。然而當芯片制造工藝發展到5nm、3nm,晶體管微縮已經接近物理極限,摩爾定律呈現出放緩趨勢,并預計將在21世紀20年代結束3。而登納德縮放比例定律早在2004年左右已經失效4,此后實現芯片集成度的提升,所需的功耗和散熱要求越來越大,產生了“功耗墻”問題。另外,更先進工藝制程的流片和設計費用也越來越高,進而又產生了“成本墻”問題。傳統的單芯片算力提升路徑難以為繼。同時,指數級的算力增長是單個計算硬件系統無法滿足的,因此需要大規模地部署數據中心和計算設備來實現體系化的支撐。隨著算力需求的快速增長,滿足需求所消耗的資源與
52、日俱增。據估算5,2020年國內數據中心年耗電量在760億千瓦時左右,約占全國總用電量的1%,且呈逐年上升趨勢。隨著 全國一體化大數據中心協同創新體系算力樞紐實施方案、新型數據中心發展三年行動計劃(2021-2023)等政策的出臺以及國家“東數西算”工程的實施,算力基礎設施建設將進入大規模發展階段,并對大型數據中心的能效提出具體要求。根據聯合國和國家發展計劃,中國力爭在2060年前實現碳中和。在“雙碳”戰略指引下,設計高效計算體系、減少能耗和碳排放,已經成為提升數據中心計算效率和實現國家碳中和目標的重要手段。本報告將圍繞提升數據中心算力和算效,闡述業界當前探索的主流有效路徑,并重點討論這些路徑
53、分別面臨的關鍵挑戰,同時將提出一種基于大規模光電集成技術的算力網絡新范式。本報告中的算力網絡將專注于數據中心內部,以期為下一代數據中心的發展提供更高效的解決方案,為實現算力網絡的愿景目標提供新的思路。大規模光電集成賦能智能算力網絡3目前,業界針對數據中心算力和算效的提升已做出大量的努力。其中,算力網絡(Computing Power Network)的理念在全球范圍內得到了廣泛認可6。算力網絡是一種根據業務需求,按需分配和靈活調度計算、存儲以及網絡等資源的新型信息基礎設施。其終極目標是將硬件資源抽象化為算力,用戶可根據實際的計算需求向數據中心購買算力,而無需購買或租賃硬件設備,從而實現像使用水
54、、電、氣一樣便捷地使用算力。因此,國外也有文獻把這個算力網絡概念稱為Utility Computing7。為實現這一愿景,算力網絡需要具備眾多高效的計算節點和節點間高效的數據互連。單節點內的縱向算力提升,為算力網絡提供高效的計算資源。在此基礎上,通過高效的數據互連,橫向拓展算力,從而總體上形成龐大的算力容量。算力網絡不僅能夠幫助解決算力的利用率和擴展性問題,而且可以解決算力遷移和易用性問題,通過硬件資源的靈活調度,實現算力網絡內更細粒度的資源共享。本章將簡要介紹目前業界在縱向算力提升和橫向算力拓展兩方面的主要工作及面臨的挑戰。2.1 單節點算力縱向提升數據中心內,以一到兩個CPU為核心的單個服
55、務器通常被看作一個計算節點。在晶體管密度提升放緩的背景下,制程工藝迭代所能帶來的性能提升愈發有限,單個節點的算力提升出現了多種思路。首先是通過芯片架構創新降低相對于CPU的通用性來換取超越CPU的計算效率。在此基礎上,一些研究者尋求跳出傳統的馮諾依曼范式和 CMOS晶體管技術,用顛覆性的新原理來獲得超越摩爾定律的算力提升。另一種思路是通過在單個封裝內容納多個芯粒(Chiplet)來超越倍縮光罩(Reticle)導致的單芯片尺寸上限,從而獲得更高的算力。大規模光電集成賦能智能算力網絡42.1.1 異構計算架構創新早期的計算架構創新以通用計算架構為主,主要以提升指令級別并行(Instruction
56、-Level Parallelism,ILP)為驅動力,盡最大努力挖掘摩爾定律帶來的片上晶體管資源紅利。例如,超標量CPU架構利用晶體管資源優勢來使能從指令單發到多發(亂序發射亂序執行)再到更深的流水管線,針對單元數據實現了更多計算操作。同時,流水線管線加深有利于減少每一個階段的計算操作,從而實現CPU頻率的大幅提升。隨著半導體工藝的演進,芯片面積的增大也使得芯片上可以集成更多的邏輯功能,包括更大和更多層的數據緩沖、數據預取等功能塊,從而改善由于計算和內存速度的不均衡發展所產生的“內存墻”問題。近期,大規模、高效的數據遷移已成為突破單節點算力瓶頸的新動力。例如高帶寬內存架構(High Band
57、width Memory,HBM)等創新技術,通過提高數據傳輸過程中的效率,為計算架構帶來新一輪的性能提升。這一趨勢在谷歌對其幾代張量加速器(Tensor Processing Unit,TPU)架構演進的總結里有很好的反映8。最后,資源紅利也賦能了計算架構朝著超線程、多核,再到以背景執行環境為支撐的成千上萬個眾線程架構方向發展。同時,加上數據向量化和單指令多數據流(Single Instruction Multiple Data,SIMD)等技術,這種線程級別并行(Thread-Level Parallelism,TLP)為計算架構性能帶來多個數量級的飛躍。在上述通用計算架構的基礎上,領域專
58、用架構(Domain Specific Architecture,DSA)獲得了長足的發展。隨著人工智能、5G、自動駕駛、VR/AR等創新技術的涌現,不同應用場景對芯片算力、功能、功耗、成本、安全性等方面的需求日漸分化,算力需求多元化趨勢下,領域專用架構應運而生。領域專用架構是針對某個應用領域的特殊性而定制設計的專用架構,包括特殊的計算單元、并行機制、數據類型和領域專用語言等。領域專用架構通過犧牲架構的通用性來加速應用性能,從而把硬件的原生計算能力更高效地發揮出來,同時實現比通用計算架構更好的節能效果。以英偉達最新發布的Hopper圖形加速器(Graphics Processing Unit,
59、GPU)架構9為例,其在典型的TLP架構的基礎上,使用了更多、更強大的張量加速核(Tensor Core),并在張量加速核內部增加了更多有助于算力縱向提升的領域專用技術,包括細粒度的結構化稀疏計算和動態編程算法優化等。相對于上一代A100 GPU,基于Hopper架構的H100 GPU在AI訓練任務集上約有24倍的性能提升。另一個比較典型的領域專用加速器是谷歌的張量處理器(TPU)。該加速器的脈動陣列模塊是針對矩陣乘法優化的設計,通過增加對單位數據的多重計算,在緩解“內存墻”效應的同時,顯著提升計算密度。然而,領域專用架構的定制化特征,通常使得其本身缺乏計算完備性。異構計算架構則是把CPU和多
60、類DSA有機地結合在一起,通過讓每一個DSA在自己擅長的領域內發揮出最大性能,從整體上實現最高性能和最佳能效。領域專用架構在取得大幅度算力提升的同時,依然受限于傳統底層元器件以及馮諾伊曼架構。傳統計算芯片的底層元器件是基于硅晶圓的CMOS晶體管,核心的工作原理是由電壓信號來控制晶體管內的電流。隨著CMOS制程的提升,晶體管的尺寸越來越小,量子隧穿效應使得控制電流的效率降低。突破這一瓶頸需要新的底層計算原理。同時,傳統的計算硬件設計通?;隈T諾伊曼架構,即計算和數據分離架構,通過順序控制邏輯把數據搬運到計算單元再執行計算。這種架構的主要問題是數據遷移導致了計算延遲以及處理單位數據時的功耗變大,暴
61、露出“內存墻”問題。盡管現代架構通過向量化、超線程技術、流水線并行和多核架構的不斷創新來提升性能,但馮諾伊曼架構的潛力空間越來越小。隨著計算架構不斷創新,非馮諾伊曼架構也開始出現百花齊放的趨勢。這一類非基于順序控制流執行的顛覆性計算架構(例如生物計算和量子計算),或為了克服馮諾伊曼架構的核心瓶頸而衍生出的架構(例如基于憶阻器的存內計算),通過嶄新的計算模式創造了巨大的性能和能效提升空間。例如,基于3D混合封裝的近內存計算引擎10,通過把多存儲體內存直接連接到計算邏輯單元,讓AI加速器在推薦模型上的性能大幅提升。2.1.2 芯粒系統由于晶體管密度提高的減緩,單個封裝內的底層算力提升只能通過擴大芯
62、片總面積實現。但芯片尺寸不可能無限大,在CMOS工藝的限制下,受限于倍縮光罩的尺寸,單個芯片的最大面積一般在800mm2左右。要進一步擴大芯片總面積,則需另辟蹊徑,來突破單個芯片的面積上限,芯粒系統的新思路由此逐漸興起。得益于先進封裝技術的進步,將滿足不同特定功能的多個芯粒封裝在同一個基板上成為了可能。近年來,世界領先的芯片企業已經越來越多地將芯粒架構應用在高端計算系統里。例如,英特爾的Ponte Vecchio GPU11由超過40個芯粒組成,總面積超過了3,000mm2。Cerebras Systems的晶圓級計算引擎(Wafer Scale Engine,WSE)12總面積超過了40,0
63、00mm2,是當前倍縮光罩面積的50倍。除了提升芯片總面積之外,芯粒具有模塊化特性,即來自不同晶圓廠、采用不同制程節點的芯??梢园葱杞M合,因此不僅具有解耦架構設計的靈活性,而且在大幅提升芯片工藝制程的良率的同時,有效降低制造成本。由于實現了芯片內部的領域專用異構計算,芯粒架構能夠更高效地片上適配各種計算任務。目前的芯粒系統產品依然以私有架構為主。多個工業組織正在積極推動芯?;ミB標準(例如UCIe和BOW),以發展片上異構計算。其中不乏行業巨頭,如2021年谷歌發布了開放式芯粒(Open Chiplet)計算架構13,進一步推動芯粒技術生態的發展。然而,芯片總面積變大,會導致數據搬運的時間和能耗
64、成本隨之增加。電在進行數據傳輸的過程中,對能耗、片上面積等資源的消耗隨著距離的增長而提高。在純數字電路中,為了減小數據搬運的消耗,每個計算單元一般只會與其最鄰近的計算單元進行數據傳輸,因此,跨越多個計算單元的數據搬運需要多次跳躍。同時,較大的計算任務通常會被映射到多個計算單元,為了避免長距離數據搬運,需使用非常復雜的算法來優化計算任務的映射。2.2 多節點算力橫向擴展2.2.1 目前大規模分布式技術的挑戰單個計算節點的架構創新和算力提升,并不能滿足日益增長的大規模算力需求。數據中心一般需要部署數以萬計的計算設備,而多個計算節點簡單堆疊和組合往往會產生網絡擁塞現象,特別是在數據密集型場景下,多個
65、并行任務在通信網絡中相互沖突,會造成大量額外的延時和性能損耗,導致整體系統的資源利用率不高。大部分數據中心的計算架構多根據接近于峰值時段的算力需求進行硬件規劃,而其峰值算力需求通常比平時高出幾倍,甚至數十倍。阿里巴巴官方公布的數據顯示14,2017年“雙11”實時數據處理峰值為4.72億條/秒,是日常實時處理峰值(0.4億條/秒)的10倍。因此,如果根據峰值算力需求進行硬件規劃和部署,很容易造成設備閑置。另外,數據中心服務器內部的CPU、GPU和內存等資源配置比較固化,但不同計算任務對資源的需求又不盡相同,數據中心硬件配置一旦固定,由于算力無法靈活調度,其使用率在大部分時間內都相對較低。根據阿
66、里云數據中心和字節跳動對GPU使用率的觀測結果15,16,以GPU整卡為單位,其使用率大概在40%左右。若細分到以GPU內部的流式多處理器(Streaming Multiprocessor,SM)為使用單位,則資源利用率僅為10%左右。更好的做法是將計算資源整合,通過精細化管理,以靈活高效的方式分配給計算任務。這種思路通常被稱為資源池化。傳統模式的資源池化,包括計算池化和內存池化,主要集中在單計算節點之內的資源共享。這種共享模式通過虛擬機監控程序(Hypervisor)技術把CPU、內存等資源切分給不同的虛擬機,并實現多租戶的虛擬機在物理主機上的資源隔離和共享。因此,傳統池化模式沒有突破單計算
67、節點的物理邊界,不能發揮出大規模計算節點間的資源共享優勢。綜上,傳統服務器架構的挑戰可以被總結為以下幾點:大規模光電集成賦能智能算力網絡5以英偉達最新發布的Hopper圖形加速器(Graphics Processing Unit,GPU)架構9為例,其在典型的TLP架構的基礎上,使用了更多、更強大的張量加速核(Tensor Core),并在張量加速核內部增加了更多有助于算力縱向提升的領域專用技術,包括細粒度的結構化稀疏計算和動態編程算法優化等。相對于上一代A100 GPU,基于Hopper架構的H100 GPU在AI訓練任務集上約有24倍的性能提升。另一個比較典型的領域專用加速器是谷歌的張量處
68、理器(TPU)。該加速器的脈動陣列模塊是針對矩陣乘法優化的設計,通過增加對單位數據的多重計算,在緩解“內存墻”效應的同時,顯著提升計算密度。然而,領域專用架構的定制化特征,通常使得其本身缺乏計算完備性。異構計算架構則是把CPU和多類DSA有機地結合在一起,通過讓每一個DSA在自己擅長的領域內發揮出最大性能,從整體上實現最高性能和最佳能效。領域專用架構在取得大幅度算力提升的同時,依然受限于傳統底層元器件以及馮諾伊曼架構。傳統計算芯片的底層元器件是基于硅晶圓的CMOS晶體管,核心的工作原理是由電壓信號來控制晶體管內的電流。隨著CMOS制程的提升,晶體管的尺寸越來越小,量子隧穿效應使得控制電流的效率
69、降低。突破這一瓶頸需要新的底層計算原理。同時,傳統的計算硬件設計通?;隈T諾伊曼架構,即計算和數據分離架構,通過順序控制邏輯把數據搬運到計算單元再執行計算。這種架構的主要問題是數據遷移導致了計算延遲以及處理單位數據時的功耗變大,暴露出“內存墻”問題。盡管現代架構通過向量化、超線程技術、流水線并行和多核架構的不斷創新來提升性能,但馮諾伊曼架構的潛力空間越來越小。隨著計算架構不斷創新,非馮諾伊曼架構也開始出現百花齊放的趨勢。這一類非基于順序控制流執行的顛覆性計算架構(例如生物計算和量子計算),或為了克服馮諾伊曼架構的核心瓶頸而衍生出的架構(例如基于憶阻器的存內計算),通過嶄新的計算模式創造了巨大的
70、性能和能效提升空間。例如,基于3D混合封裝的近內存計算引擎10,通過把多存儲體內存直接連接到計算邏輯單元,讓AI加速器在推薦模型上的性能大幅提升。2.1.2 芯粒系統由于晶體管密度提高的減緩,單個封裝內的底層算力提升只能通過擴大芯片總面積實現。但芯片尺寸不可能無限大,在CMOS工藝的限制下,受限于倍縮光罩的尺寸,單個芯片的最大面積一般在800mm2左右。要進一步擴大芯片總面積,則需另辟蹊徑,來突破單個芯片的面積上限,芯粒系統的新思路由此逐漸興起。得益于先進封裝技術的進步,將滿足不同特定功能的多個芯粒封裝在同一個基板上成為了可能。近年來,世界領先的芯片企業已經越來越多地將芯粒架構應用在高端計算系
71、統里。例如,英特爾的Ponte Vecchio GPU11由超過40個芯粒組成,總面積超過了3,000mm2。Cerebras Systems的晶圓級計算引擎(Wafer Scale Engine,WSE)12總面積超過了40,000mm2,是當前倍縮光罩面積的50倍。除了提升芯片總面積之外,芯粒具有模塊化特性,即來自不同晶圓廠、采用不同制程節點的芯??梢园葱杞M合,因此不僅具有解耦架構設計的靈活性,而且在大幅提升芯片工藝制程的良率的同時,有效降低制造成本。由于實現了芯片內部的領域專用異構計算,芯粒架構能夠更高效地片上適配各種計算任務。目前的芯粒系統產品依然以私有架構為主。多個工業組織正在積極推
72、動芯?;ミB標準(例如UCIe和BOW),以發展片上異構計算。其中不乏行業巨頭,如2021年谷歌發布了開放式芯粒(Open Chiplet)計算架構13,進一步推動芯粒技術生態的發展。然而,芯片總面積變大,會導致數據搬運的時間和能耗成本隨之增加。電在進行數據傳輸的過程中,對能耗、片上面積等資源的消耗隨著距離的增長而提高。在純數字電路中,為了減小數據搬運的消耗,每個計算單元一般只會與其最鄰近的計算單元進行數據傳輸,因此,跨越多個計算單元的數據搬運需要多次跳躍。同時,較大的計算任務通常會被映射到多個計算單元,為了避免長距離數據搬運,需使用非常復雜的算法來優化計算任務的映射。2.2 多節點算力橫向擴展
73、2.2.1 目前大規模分布式技術的挑戰單個計算節點的架構創新和算力提升,并不能滿足日益增長的大規模算力需求。數據中心一般需要部署數以萬計的計算設備,而多個計算節點簡單堆疊和組合往往會產生網絡擁塞現象,特別是在數據密集型場景下,多個并行任務在通信網絡中相互沖突,會造成大量額外的延時和性能損耗,導致整體系統的資源利用率不高。大部分數據中心的計算架構多根據接近于峰值時段的算力需求進行硬件規劃,而其峰值算力需求通常比平時高出幾倍,甚至數十倍。阿里巴巴官方公布的數據顯示14,2017年“雙11”實時數據處理峰值為4.72億條/秒,是日常實時處理峰值(0.4億條/秒)的10倍。因此,如果根據峰值算力需求進
74、行硬件規劃和部署,很容易造成設備閑置。另外,數據中心服務器內部的CPU、GPU和內存等資源配置比較固化,但不同計算任務對資源的需求又不盡相同,數據中心硬件配置一旦固定,由于算力無法靈活調度,其使用率在大部分時間內都相對較低。根據阿里云數據中心和字節跳動對GPU使用率的觀測結果15,16,以GPU整卡為單位,其使用率大概在40%左右。若細分到以GPU內部的流式多處理器(Streaming Multiprocessor,SM)為使用單位,則資源利用率僅為10%左右。更好的做法是將計算資源整合,通過精細化管理,以靈活高效的方式分配給計算任務。這種思路通常被稱為資源池化。傳統模式的資源池化,包括計算池
75、化和內存池化,主要集中在單計算節點之內的資源共享。這種共享模式通過虛擬機監控程序(Hypervisor)技術把CPU、內存等資源切分給不同的虛擬機,并實現多租戶的虛擬機在物理主機上的資源隔離和共享。因此,傳統池化模式沒有突破單計算節點的物理邊界,不能發揮出大規模計算節點間的資源共享優勢。綜上,傳統服務器架構的挑戰可以被總結為以下幾點:大規模光電集成賦能智能算力網絡62.1.2 芯粒系統由于晶體管密度提高的減緩,單個封裝內的底層算力提升只能通過擴大芯片總面積實現。但芯片尺寸不可能無限大,在CMOS工藝的限制下,受限于倍縮光罩的尺寸,單個芯片的最大面積一般在800mm2左右。要進一步擴大芯片總面積
76、,則需另辟蹊徑,來突破單個芯片的面積上限,芯粒系統的新思路由此逐漸興起。得益于先進封裝技術的進步,將滿足不同特定功能的多個芯粒封裝在同一個基板上成為了可能。近年來,世界領先的芯片企業已經越來越多地將芯粒架構應用在高端計算系統里。例如,英特爾的Ponte Vecchio GPU11由超過40個芯粒組成,總面積超過了3,000mm2。Cerebras Systems的晶圓級計算引擎(Wafer Scale Engine,WSE)12總面積超過了40,000mm2,是當前倍縮光罩面積的50倍。除了提升芯片總面積之外,芯粒具有模塊化特性,即來自不同晶圓廠、采用不同制程節點的芯??梢园葱杞M合,因此不僅具
77、有解耦架構設計的靈活性,而且在大幅提升芯片工藝制程的良率的同時,有效降低制造成本。由于實現了芯片內部的領域專用異構計算,芯粒架構能夠更高效地片上適配各種計算任務。目前的芯粒系統產品依然以私有架構為主。多個工業組織正在積極推動芯?;ミB標準(例如UCIe和BOW),以發展片上異構計算。其中不乏行業巨頭,如2021年谷歌發布了開放式芯粒(Open Chiplet)計算架構13,進一步推動芯粒技術生態的發展。然而,芯片總面積變大,會導致數據搬運的時間和能耗成本隨之增加。電在進行數據傳輸的過程中,對能耗、片上面積等資源的消耗隨著距離的增長而提高。在純數字電路中,為了減小數據搬運的消耗,每個計算單元一般只
78、會與其最鄰近的計算單元進行數據傳輸,因此,跨越多個計算單元的數據搬運需要多次跳躍。同時,較大的計算任務通常會被映射到多個計算單元,為了避免長距離數據搬運,需使用非常復雜的算法來優化計算任務的映射。大規模光電集成賦能智能算力網絡72.2 多節點算力橫向擴展2.2.1 目前大規模分布式技術的挑戰單個計算節點的架構創新和算力提升,并不能滿足日益增長的大規模算力需求。數據中心一般需要部署數以萬計的計算設備,而多個計算節點簡單堆疊和組合往往會產生網絡擁塞現象,特別是在數據密集型場景下,多個并行任務在通信網絡中相互沖突,會造成大量額外的延時和性能損耗,導致整體系統的資源利用率不高。大部分數據中心的計算架構
79、多根據接近于峰值時段的算力需求進行硬件規劃,而其峰值算力需求通常比平時高出幾倍,甚至數十倍。阿里巴巴官方公布的數據顯示14,2017年“雙11”實時數據處理峰值為4.72億條/秒,是日常實時處理峰值(0.4億條/秒)的10倍。因此,如果根據峰值算力需求進行硬件規劃和部署,很容易造成設備閑置。另外,數據中心服務器內部的CPU、GPU和內存等資源配置比較固化,但不同計算任務對資源的需求又不盡相同,數據中心硬件配置一旦固定,由于算力無法靈活調度,其使用率在大部分時間內都相對較低。根據阿里云數據中心和字節跳動對GPU使用率的觀測結果15,16,以GPU整卡為單位,其使用率大概在40%左右。若細分到以G
80、PU內部的流式多處理器(Streaming Multiprocessor,SM)為使用單位,則資源利用率僅為10%左右。更好的做法是將計算資源整合,通過精細化管理,以靈活高效的方式分配給計算任務。這種思路通常被稱為資源池化。傳統模式的資源池化,包括計算池化和內存池化,主要集中在單計算節點之內的資源共享。這種共享模式通過虛擬機監控程序(Hypervisor)技術把CPU、內存等資源切分給不同的虛擬機,并實現多租戶的虛擬機在物理主機上的資源隔離和共享。因此,傳統池化模式沒有突破單計算節點的物理邊界,不能發揮出大規模計算節點間的資源共享優勢。綜上,傳統服務器架構的挑戰可以被總結為以下幾點:大規模光電
81、集成賦能智能算力網絡8傳統服務器架構的計算資源配置不靈活,導致系統內資源使用不均衡不同計算任務對計算資源使用模式千差萬別,被調度的計算資源顆粒度(例如GPU卡或者SM)無法精確匹配任務的算力需求,導致計算資源的閑置和浪費對于分布式計算資源的任務映射和優化,需要用戶對底層架構有足夠的理解,因用戶缺乏相關的專業知識而導致計算資源優化的效率不高時有發生計算資源的隔離和容錯性差,很難實現細粒度的資源共享2.2.2 可重構算力池化技術針對以上多種問題,業界出現了新的計算范式:可重構的算力池化。算力池化的主要目標是實現算力規?;蛷椥曰?,通過解耦計算資源、再動態共享來提升資源利用率。算力池化的底層技術是解
82、耦傳統計算框架內的計算、內存和存儲等多種資源,然后每一種資源形成各自的資源池,即所謂的解耦式資源池化。資源池內和資源池之間通過高帶寬、低延遲的互連技術(例如最新的CXL標準),實現計算資源的靈活調配和算力的彈性擴展。如圖2所示,傳統數據中心的資源池化一般限于單個物理機內,容易造成局部資源閑置。而在可重構解耦架構下,每一類資源形成各自的獨立池,包括CPU池(物理機0)、內存池(物理機1)、異構加速器池(物理機2)和存儲池(物理機3)。調度系統根據計算任務的實際需求分配適當的計算資源,以動態組合模式重構計算實例(如虛擬機0、虛擬機1等)。借助新的解耦范式,傳統數據中心未使用的閑置資源可以重新組合以
83、創建新的虛擬機(虛擬機4),相同資源的情況下,虛擬機數量增加了25%。大規模光電集成賦能智能算力網絡9然而,目前數據中心的基礎設施設計難以支持高性能的資源池化。因大規模分布式計算設備之間的物理距離比較大,當前數據中心機柜之間通常采用基于以太網的數據通訊。由于受到以太網數據交換的帶寬限制和較高的通訊延遲,數據中心很難做到接近線性的大規模算力擴展。而且,算力規模越大,擴展的線性度越低。例如,實驗15表明,在基于以太網互連的GPU AI訓練的場景中,當訓練數據批量(Batch Size)較小,如果網絡延遲和帶寬分別從20微秒/50Gbps改變到160微秒/9.4Gbps,GPU性能將下降至原來的1/
84、3。即使增大訓練數據批量,也無法隱藏住性能損失。2.3 算力網絡發展關鍵挑戰算力網絡技術的發展,同時需要領域專用架構的創新實現算力縱向提升,以及通過高效互連技術實現算力橫向擴展,拓展資源池的總體算力容量,完成不同硬件間的算力靈活調度。除此之外,計算架構的軟硬協同設計和優化也是大幅提升計算性能和計算2.2 多節點算力橫向擴展2.2.1 目前大規模分布式技術的挑戰單個計算節點的架構創新和算力提升,并不能滿足日益增長的大規模算力需求。數據中心一般需要部署數以萬計的計算設備,而多個計算節點簡單堆疊和組合往往會產生網絡擁塞現象,特別是在數據密集型場景下,多個并行任務在通信網絡中相互沖突,會造成大量額外的
85、延時和性能損耗,導致整體系統的資源利用率不高。大部分數據中心的計算架構多根據接近于峰值時段的算力需求進行硬件規劃,而其峰值算力需求通常比平時高出幾倍,甚至數十倍。阿里巴巴官方公布的數據顯示14,2017年“雙11”實時數據處理峰值為4.72億條/秒,是日常實時處理峰值(0.4億條/秒)的10倍。因此,如果根據峰值算力需求進行硬件規劃和部署,很容易造成設備閑置。另外,數據中心服務器內部的CPU、GPU和內存等資源配置比較固化,但不同計算任務對資源的需求又不盡相同,數據中心硬件配置一旦固定,由于算力無法靈活調度,其使用率在大部分時間內都相對較低。根據阿里云數據中心和字節跳動對GPU使用率的觀測結果
86、15,16,以GPU整卡為單位,其使用率大概在40%左右。若細分到以GPU內部的流式多處理器(Streaming Multiprocessor,SM)為使用單位,則資源利用率僅為10%左右。更好的做法是將計算資源整合,通過精細化管理,以靈活高效的方式分配給計算任務。這種思路通常被稱為資源池化。傳統模式的資源池化,包括計算池化和內存池化,主要集中在單計算節點之內的資源共享。這種共享模式通過虛擬機監控程序(Hypervisor)技術把CPU、內存等資源切分給不同的虛擬機,并實現多租戶的虛擬機在物理主機上的資源隔離和共享。因此,傳統池化模式沒有突破單計算節點的物理邊界,不能發揮出大規模計算節點間的資
87、源共享優勢。綜上,傳統服務器架構的挑戰可以被總結為以下幾點:物理機0CPU池內存池計算池存儲池虛擬機0CPUDRAMACCSSD虛擬機1CPUDRAMDRAMDRAMACCSSD物理機1虛擬機2虛擬機3CPU池內存池計算池存儲池CPUDRAMCPUCPUCPUDRAMACCACCACCACCSSDSSDSSDSSD物理機0物理機1物理機3物理機2虛擬機0虛擬機2虛擬機1虛擬機3CPU池內存池計算池存儲池CPUSSDCPUCPUCPUCPUCPUDRAMDRAMDRAMDRAMDRAMDRAMSSDSSDSSDSSDSSDACCACCACCACCACCACC傳統數據中心可重構解耦架構數據中心閑置
88、資源閑置資源虛擬機4圖2 傳統數據中心和可重構解耦架構數據中心對比示意圖大規模光電集成賦能智能算力網絡10超越傳統CMOS的新底層計算原理,以及匹配商業化計算任務的異構計算架構高效可擴展的芯粒系統,包括超越傳統電互連的物理層創新以及易用性強的計算任務適配軟件棧高帶寬、低延遲的跨機柜互連技術,包括硬件創新以及互連協議的進步能效的必要手段。綜上所述,為實現真正的算力網絡愿景,仍需克服多項技術挑戰,具體包括:大規模光電集成賦能智能算力網絡11前述章節中描述了數據中心持續提高算力和算效面臨的技術瓶頸和現實挑戰。而突破瓶頸、克服挑戰,需要底層技術的創新。大規模光電集成技術在縱向提高單節點算力以及橫向提高
89、大規模分布式計算的效率兩方面,都有著超越傳統技術的潛力。成立于2017年的光電混合計算公司曦智科技是該領域的先行者。針對未來計算范式的大趨勢,曦智科技擁有多項關鍵技術,為實現算力網絡提供高效支撐。本章將簡要介紹基于大規模光電集成技術的算力網絡新范式。針對各項技術的詳細內容將會在本系列后續的多個專題白皮書中展開論述。3.1 單節點算力提升方案3.1.1 顛覆性計算新原理:光子矩陣計算(oMAC)傳統數字芯片的持續算力提升需要新的底層物理原理。數字芯片的算力提升受限于底層元器件:CMOS晶體管。而光學信號和光學器件遵循不同的物理原理。光學信號與散射介質的互動在大多數情況下是線性的,因此可以被映射為
90、一種線性計算。生活中有諸多光學線性計算的現象,一個典型的例子是光學照相機的鏡頭。鏡頭前的光學信號在穿過鏡頭時,完成了兩次二維空間光學傅立葉變換,然后在感光元件上成像,因此,照相機鏡頭可以被看作一種不可編程的光學線性計算單元。而擁有實用價值的計算單元必須具備可編程性??v觀目前主流的數據中心計算任務,如人工智能、數值仿真等,矩陣乘法占據著核心地位。因此超越摩爾定律的高效矩陣乘法器將擁有廣泛的商業前景。矩陣乘法是一種典型的線性運算,可使用光子線性計算單元來加速??删幊痰墓庾泳仃囉嬎悖∣ptical Multiply Accumulate,oMAC)17有望在摩爾定律失效后繼續支持算力的不斷提升,為數
91、字經濟時代提供強勁的硬件基礎設施。以曦智科技于2021年發布的光子計算處理器PACE(Photonic Arithmetic Computing Engine,光子計算引擎)為例,如圖3所示,PACE展示了一種可編程光學矩陣乘法器的實現方法。該系統在物理層面主要包括光芯片和電芯片,兩塊芯片由3D倒裝堆疊的方式封裝在一起;在功能層面主要包括信號輸入、信號處理和信號輸出三大部分。光信號在進入光芯片后,輸入向量 被光學調制器轉化為多個光信號,這些光信號在經過可編程的光學矩陣 后,輸出的光信號陣列 即矩陣運算 的結果。在PACE中,所有的光器件都集成在一塊光芯片上,而光芯片的控制電路和內存都部署在電芯
92、片上。2.2 多節點算力橫向擴展2.2.1 目前大規模分布式技術的挑戰單個計算節點的架構創新和算力提升,并不能滿足日益增長的大規模算力需求。數據中心一般需要部署數以萬計的計算設備,而多個計算節點簡單堆疊和組合往往會產生網絡擁塞現象,特別是在數據密集型場景下,多個并行任務在通信網絡中相互沖突,會造成大量額外的延時和性能損耗,導致整體系統的資源利用率不高。大部分數據中心的計算架構多根據接近于峰值時段的算力需求進行硬件規劃,而其峰值算力需求通常比平時高出幾倍,甚至數十倍。阿里巴巴官方公布的數據顯示14,2017年“雙11”實時數據處理峰值為4.72億條/秒,是日常實時處理峰值(0.4億條/秒)的10
93、倍。因此,如果根據峰值算力需求進行硬件規劃和部署,很容易造成設備閑置。另外,數據中心服務器內部的CPU、GPU和內存等資源配置比較固化,但不同計算任務對資源的需求又不盡相同,數據中心硬件配置一旦固定,由于算力無法靈活調度,其使用率在大部分時間內都相對較低。根據阿里云數據中心和字節跳動對GPU使用率的觀測結果15,16,以GPU整卡為單位,其使用率大概在40%左右。若細分到以GPU內部的流式多處理器(Streaming Multiprocessor,SM)為使用單位,則資源利用率僅為10%左右。更好的做法是將計算資源整合,通過精細化管理,以靈活高效的方式分配給計算任務。這種思路通常被稱為資源池化
94、。傳統模式的資源池化,包括計算池化和內存池化,主要集中在單計算節點之內的資源共享。這種共享模式通過虛擬機監控程序(Hypervisor)技術把CPU、內存等資源切分給不同的虛擬機,并實現多租戶的虛擬機在物理主機上的資源隔離和共享。因此,傳統池化模式沒有突破單計算節點的物理邊界,不能發揮出大規模計算節點間的資源共享優勢。綜上,傳統服務器架構的挑戰可以被總結為以下幾點:大規模光電集成賦能智能算力網絡12目前,業界針對數據中心算力和算效的提升已做出大量的努力。其中,算力網絡(Computing Power Network)的理念在全球范圍內得到了廣泛認可6。算力網絡是一種根據業務需求,按需分配和靈活
95、調度計算、存儲以及網絡等資源的新型信息基礎設施。其終極目標是將硬件資源抽象化為算力,用戶可根據實際的計算需求向數據中心購買算力,而無需購買或租賃硬件設備,從而實現像使用水、電、氣一樣便捷地使用算力。因此,國外也有文獻把這個算力網絡概念稱為Utility Computing7。為實現這一愿景,算力網絡需要具備眾多高效的計算節點和節點間高效的數據互連。單節點內的縱向算力提升,為算力網絡提供高效的計算資源。在此基礎上,通過高效的數據互連,橫向拓展算力,從而總體上形成龐大的算力容量。算力網絡不僅能夠幫助解決算力的利用率和擴展性問題,而且可以解決算力遷移和易用性問題,通過硬件資源的靈活調度,實現算力網絡
96、內更細粒度的資源共享。本章將簡要介紹目前業界在縱向算力提升和橫向算力拓展兩方面的主要工作及面臨的挑戰。2.1 單節點算力縱向提升數據中心內,以一到兩個CPU為核心的單個服務器通常被看作一個計算節點。在晶體管密度提升放緩的背景下,制程工藝迭代所能帶來的性能提升愈發有限,單個節點的算力提升出現了多種思路。首先是通過芯片架構創新降低相對于CPU的通用性來換取超越CPU的計算效率。在此基礎上,一些研究者尋求跳出傳統的馮諾依曼范式和 CMOS晶體管技術,用顛覆性的新原理來獲得超越摩爾定律的算力提升。另一種思路是通過在單個封裝內容納多個芯粒(Chiplet)來超越倍縮光罩(Reticle)導致的單芯片尺寸
97、上限,從而獲得更高的算力。2.1.1 異構計算架構創新早期的計算架構創新以通用計算架構為主,主要以提升指令級別并行(Instruction-Level Parallelism,ILP)為驅動力,盡最大努力挖掘摩爾定律帶來的片上晶體管資源紅利。例如,超標量CPU架構利用晶體管資源優勢來使能從指令單發到多發(亂序發射亂序執行)再到更深的流水管線,針對單元數據實現了更多計算操作。同時,流水線管線加深有利于減少每一個階段的計算操作,從而實現CPU頻率的大幅提升。隨著半導體工藝的演進,芯片面積的增大也使得芯片上可以集成更多的邏輯功能,包括更大和更多層的數據緩沖、數據預取等功能塊,從而改善由于計算和內存速
98、度的不均衡發展所產生的“內存墻”問題。近期,大規模、高效的數據遷移已成為突破單節點算力瓶頸的新動力。例如高帶寬內存架構(High Bandwidth Memory,HBM)等創新技術,通過提高數據傳輸過程中的效率,為計算架構帶來新一輪的性能提升。這一趨勢在谷歌對其幾代張量加速器(Tensor Processing Unit,TPU)架構演進的總結里有很好的反映8。最后,資源紅利也賦能了計算架構朝著超線程、多核,再到以背景執行環境為支撐的成千上萬個眾線程架構方向發展。同時,加上數據向量化和單指令多數據流(Single Instruction Multiple Data,SIMD)等技術,這種線程
99、級別并行(Thread-Level Parallelism,TLP)為計算架構性能帶來多個數量級的飛躍。在上述通用計算架構的基礎上,領域專用架構(Domain Specific Architecture,DSA)獲得了長足的發展。隨著人工智能、5G、自動駕駛、VR/AR等創新技術的涌現,不同應用場景對芯片算力、功能、功耗、成本、安全性等方面的需求日漸分化,算力需求多元化趨勢下,領域專用架構應運而生。領域專用架構是針對某個應用領域的特殊性而定制設計的專用架構,包括特殊的計算單元、并行機制、數據類型和領域專用語言等。領域專用架構通過犧牲架構的通用性來加速應用性能,從而把硬件的原生計算能力更高效地發
100、揮出來,同時實現比通用計算架構更好的節能效果。以英偉達最新發布的Hopper圖形加速器(Graphics Processing Unit,GPU)架構9為例,其在典型的TLP架構的基礎上,使用了更多、更強大的張量加速核(Tensor Core),并在張量加速核內部增加了更多有助于算力縱向提升的領域專用技術,包括細粒度的結構化稀疏計算和動態編程算法優化等。相對于上一代A100 GPU,基于Hopper架構的H100 GPU在AI訓練任務集上約有24倍的性能提升。另一個比較典型的領域專用加速器是谷歌的張量處理器(TPU)。該加速器的脈動陣列模塊是針對矩陣乘法優化的設計,通過增加對單位數據的多重計算
101、,在緩解“內存墻”效應的同時,顯著提升計算密度。然而,領域專用架構的定制化特征,通常使得其本身缺乏計算完備性。異構計算架構則是把CPU和多類DSA有機地結合在一起,通過讓每一個DSA在自己擅長的領域內發揮出最大性能,從整體上實現最高性能和最佳能效。領域專用架構在取得大幅度算力提升的同時,依然受限于傳統底層元器件以及馮諾伊曼架構。傳統計算芯片的底層元器件是基于硅晶圓的CMOS晶體管,核心的工作原理是由電壓信號來控制晶體管內的電流。隨著CMOS制程的提升,晶體管的尺寸越來越小,量子隧穿效應使得控制電流的效率降低。突破這一瓶頸需要新的底層計算原理。同時,傳統的計算硬件設計通?;隈T諾伊曼架構,即計算
102、和數據分離架構,通過順序控制邏輯把數據搬運到計算單元再執行計算。這種架構的主要問題是數據遷移導致了計算延遲以及處理單位數據時的功耗變大,暴露出“內存墻”問題。盡管現代架構通過向量化、超線程技術、流水線并行和多核架構的不斷創新來提升性能,但馮諾伊曼架構的潛力空間越來越小。隨著計算架構不斷創新,非馮諾伊曼架構也開始出現百花齊放的趨勢。這一類非基于順序控制流執行的顛覆性計算架構(例如生物計算和量子計算),或為了克服馮諾伊曼架構的核心瓶頸而衍生出的架構(例如基于憶阻器的存內計算),通過嶄新的計算模式創造了巨大的性能和能效提升空間。例如,基于3D混合封裝的近內存計算引擎10,通過把多存儲體內存直接連接到
103、計算邏輯單元,讓AI加速器在推薦模型上的性能大幅提升。2.1.2 芯粒系統由于晶體管密度提高的減緩,單個封裝內的底層算力提升只能通過擴大芯片總面積實現。但芯片尺寸不可能無限大,在CMOS工藝的限制下,受限于倍縮光罩的尺寸,單個芯片的最大面積一般在800mm2左右。要進一步擴大芯片總面積,則需另辟蹊徑,來突破單個芯片的面積上限,芯粒系統的新思路由此逐漸興起。得益于先進封裝技術的進步,將滿足不同特定功能的多個芯粒封裝在同一個基板上成為了可能。近年來,世界領先的芯片企業已經越來越多地將芯粒架構應用在高端計算系統里。例如,英特爾的Ponte Vecchio GPU11由超過40個芯粒組成,總面積超過了
104、3,000mm2。Cerebras Systems的晶圓級計算引擎(Wafer Scale Engine,WSE)12總面積超過了40,000mm2,是當前倍縮光罩面積的50倍。除了提升芯片總面積之外,芯粒具有模塊化特性,即來自不同晶圓廠、采用不同制程節點的芯??梢园葱杞M合,因此不僅具有解耦架構設計的靈活性,而且在大幅提升芯片工藝制程的良率的同時,有效降低制造成本。由于實現了芯片內部的領域專用異構計算,芯粒架構能夠更高效地片上適配各種計算任務。目前的芯粒系統產品依然以私有架構為主。多個工業組織正在積極推動芯?;ミB標準(例如UCIe和BOW),以發展片上異構計算。其中不乏行業巨頭,如2021年谷
105、歌發布了開放式芯粒(Open Chiplet)計算架構13,進一步推動芯粒技術生態的發展。然而,芯片總面積變大,會導致數據搬運的時間和能耗成本隨之增加。電在進行數據傳輸的過程中,對能耗、片上面積等資源的消耗隨著距離的增長而提高。在純數字電路中,為了減小數據搬運的消耗,每個計算單元一般只會與其最鄰近的計算單元進行數據傳輸,因此,跨越多個計算單元的數據搬運需要多次跳躍。同時,較大的計算任務通常會被映射到多個計算單元,為了避免長距離數據搬運,需使用非常復雜的算法來優化計算任務的映射。前述章節中描述了數據中心持續提高算力和算效面臨的技術瓶頸和現實挑戰。而突破瓶頸、克服挑戰,需要底層技術的創新。大規模光
106、電集成技術在縱向提高單節點算力以及橫向提高大規模分布式計算的效率兩方面,都有著超越傳統技術的潛力。成立于2017年的光電混合計算公司曦智科技是該領域的先行者。針對未來計算范式的大趨勢,曦智科技擁有多項關鍵技術,為實現算力網絡提供高效支撐。本章將簡要介紹基于大規模光電集成技術的算力網絡新范式。針對各項技術的詳細內容將會在本系列后續的多個專題白皮書中展開論述。3.1 單節點算力提升方案3.1.1 顛覆性計算新原理:光子矩陣計算(oMAC)傳統數字芯片的持續算力提升需要新的底層物理原理。數字芯片的算力提升受限于底層元器件:CMOS晶體管。而光學信號和光學器件遵循不同的物理原理。光學信號與散射介質的互
107、動在大多數情況下是線性的,因此可以被映射為一種線性計算。生活中有諸多光學線性計算的現象,一個典型的例子是光學照相機的鏡頭。鏡頭前的光學信號在穿過鏡頭時,完成了兩次二維空間光學傅立葉變換,然后在感光元件上成像,因此,照相機鏡頭可以被看作一種不可編程的光學線性計算單元。而擁有實用價值的計算單元必須具備可編程性??v觀目前主流的數據中心計算任務,如人工智能、數值仿真等,矩陣乘法占據著核心地位。因此超越摩爾定律的高效矩陣乘法器將擁有廣泛的商業前景。矩陣乘法是一種典型的線性運算,可使用光子線性計算單元來加速??删幊痰墓庾泳仃囉嬎悖∣ptical 邏輯控制發送端 接收端向量載入 權重調節輸出結果權重驅動器及
108、SRAMb1b2b3bNBc1c2c3cNCa11a21a31aM1a12a22a32aM2a13a23a33aM3.a1Na2Na3NaMNA圖3 可編程光子矩陣乘法器原理示意圖電芯片光芯片基板Multiply Accumulate,oMAC)17有望在摩爾定律失效后繼續支持算力的不斷提升,為數字經濟時代提供強勁的硬件基礎設施。以曦智科技于2021年發布的光子計算處理器PACE(Photonic Arithmetic Computing Engine,光子計算引擎)為例,如圖3所示,PACE展示了一種可編程光學矩陣乘法器的實現方法。該系統在物理層面主要包括光芯片和電芯片,兩塊芯片由3D倒裝堆
109、疊的方式封裝在一起;在功能層面主要包括信號輸入、信號處理和信號輸出三大部分。光信號在進入光芯片后,輸入向量 被光學調制器轉化為多個光信號,這些光信號在經過可編程的光學矩陣 后,輸出的光信號陣列 即矩陣運算 的結果。在PACE中,所有的光器件都集成在一塊光芯片上,而光芯片的控制電路和內存都部署在電芯片上。bcAbA2.2 多節點算力橫向擴展2.2.1 目前大規模分布式技術的挑戰單個計算節點的架構創新和算力提升,并不能滿足日益增長的大規模算力需求。數據中心一般需要部署數以萬計的計算設備,而多個計算節點簡單堆疊和組合往往會產生網絡擁塞現象,特別是在數據密集型場景下,多個并行任務在通信網絡中相互沖突,
110、會造成大量額外的延時和性能損耗,導致整體系統的資源利用率不高。大部分數據中心的計算架構多根據接近于峰值時段的算力需求進行硬件規劃,而其峰值算力需求通常比平時高出幾倍,甚至數十倍。阿里巴巴官方公布的數據顯示14,2017年“雙11”實時數據處理峰值為4.72億條/秒,是日常實時處理峰值(0.4億條/秒)的10倍。因此,如果根據峰值算力需求進行硬件規劃和部署,很容易造成設備閑置。另外,數據中心服務器內部的CPU、GPU和內存等資源配置比較固化,但不同計算任務對資源的需求又不盡相同,數據中心硬件配置一旦固定,由于算力無法靈活調度,其使用率在大部分時間內都相對較低。根據阿里云數據中心和字節跳動對GPU
111、使用率的觀測結果15,16,以GPU整卡為單位,其使用率大概在40%左右。若細分到以GPU內部的流式多處理器(Streaming Multiprocessor,SM)為使用單位,則資源利用率僅為10%左右。更好的做法是將計算資源整合,通過精細化管理,以靈活高效的方式分配給計算任務。這種思路通常被稱為資源池化。傳統模式的資源池化,包括計算池化和內存池化,主要集中在單計算節點之內的資源共享。這種共享模式通過虛擬機監控程序(Hypervisor)技術把CPU、內存等資源切分給不同的虛擬機,并實現多租戶的虛擬機在物理主機上的資源隔離和共享。因此,傳統池化模式沒有突破單計算節點的物理邊界,不能發揮出大規
112、模計算節點間的資源共享優勢。綜上,傳統服務器架構的挑戰可以被總結為以下幾點:相比于傳統的CMOS數字電路,光子矩陣計算最顯著的優勢在于低延遲。由于計算的過程即為光信號陣列在芯片中傳輸的過程,計算本身的延遲即可看作光在芯片中傳輸的時間,一般在1ns以下。如圖4所示,對于一個 的脈動矩陣運算單元,其延遲正比于 。一些專門優化延遲的架構,在矩陣規模較小的情況下,延遲可以接近 。而光子矩陣計算消耗的時間主要來自于光電轉換和數模轉換,一般為數個O(N)O(logN)NN大規模光電集成賦能智能算力網絡13時鐘周期,和矩陣的尺寸幾乎無關,相當于 。單次光子矩陣計算的延遲可以做到3ns以下。因此,在 較大的情
113、況下,光子矩陣計算的延遲優勢非常明顯。除此之外,傳統的數字計算,在28nm等相對成熟的制程下,較難實現全局1GHz以上的主頻。而光子矩陣計算的控制電路達到數GHz的頻率的難度較低,從而進一步提高了延遲優勢。脈動矩陣計算延遲光子矩陣計算延遲延遲:L/Cng,1個時鐘周期功耗:K1N+K2N2延遲:kN 時鐘周期功耗:KN2除了延遲優勢以外,光子計算還擁有低能耗的特點。對于 的數字矩陣運算單元,其能耗為 ,其中 與單次乘加的功耗有關,正比于 。而對于光學矩陣乘法器,它的功耗可用 ,與向量輸入和接收端的功耗關聯,而 與矩陣權重部分的功耗關聯。在矩陣本身刷新速度遠低于信號輸入的情況下,其能耗主要來自于
114、前半部分,因此正比于 。在光學器件和其控制電路被較好的優化前提下,基于相對傳統制程的光子計算的能效比可媲美甚至凌駕先進制程的數字芯片。相對于數字計算,光子計算也有一些弱點。例如,光子計算系統所需的光源,會占用一定的體積。目前光源小型化的研發可以使得每個服務器內所用的光源體積在幾個硬幣的尺寸。另外,光子計算作為一種模擬計算,無法支持浮點數,即使對于定點數,當精度超過8比特時,模擬計算在能耗方面的優勢會減小。因此,對于基于浮點數或者8比特以上定點數的算法,需要經過量化的調整,才能夠適用于光子計算硬件并體現優勢。kN2k1N+k2N2k1k2kO(N2)O(N)NN2.2 多節點算力橫向擴展2.2.
115、1 目前大規模分布式技術的挑戰單個計算節點的架構創新和算力提升,并不能滿足日益增長的大規模算力需求。數據中心一般需要部署數以萬計的計算設備,而多個計算節點簡單堆疊和組合往往會產生網絡擁塞現象,特別是在數據密集型場景下,多個并行任務在通信網絡中相互沖突,會造成大量額外的延時和性能損耗,導致整體系統的資源利用率不高。大部分數據中心的計算架構多根據接近于峰值時段的算力需求進行硬件規劃,而其峰值算力需求通常比平時高出幾倍,甚至數十倍。阿里巴巴官方公布的數據顯示14,2017年“雙11”實時數據處理峰值為4.72億條/秒,是日常實時處理峰值(0.4億條/秒)的10倍。因此,如果根據峰值算力需求進行硬件規
116、劃和部署,很容易造成設備閑置。另外,數據中心服務器內部的CPU、GPU和內存等資源配置比較固化,但不同計算任務對資源的需求又不盡相同,數據中心硬件配置一旦固定,由于算力無法靈活調度,其使用率在大部分時間內都相對較低。根據阿里云數據中心和字節跳動對GPU使用率的觀測結果15,16,以GPU整卡為單位,其使用率大概在40%左右。若細分到以GPU內部的流式多處理器(Streaming Multiprocessor,SM)為使用單位,則資源利用率僅為10%左右。更好的做法是將計算資源整合,通過精細化管理,以靈活高效的方式分配給計算任務。這種思路通常被稱為資源池化。傳統模式的資源池化,包括計算池化和內存
117、池化,主要集中在單計算節點之內的資源共享。這種共享模式通過虛擬機監控程序(Hypervisor)技術把CPU、內存等資源切分給不同的虛擬機,并實現多租戶的虛擬機在物理主機上的資源隔離和共享。因此,傳統池化模式沒有突破單計算節點的物理邊界,不能發揮出大規模計算節點間的資源共享優勢。綜上,傳統服務器架構的挑戰可以被總結為以下幾點:相比于傳統的CMOS數字電路,光子矩陣計算最顯著的優勢在于低延遲。由于計算的過程即為光信號陣列在芯片中傳輸的過程,計算本身的延遲即可看作光在芯片中傳輸的時間,一般在1ns以下。如圖4所示,對于一個 的脈動矩陣運算單元,其延遲正比于 。一些專門優化延遲的架構,在矩陣規模較小
118、的情況下,延遲可以接近 。而光子矩陣計算消耗的時間主要來自于光電轉換和數模轉換,一般為數個O(1)N圖4 脈動矩陣計算和光子矩陣計算延遲對比示意圖大規模光電集成賦能智能算力網絡14目前主流的人工智能推理算法大多滿足于8比特以下的定點數,與光子計算特性較為匹配;而科學計算領域的計算大多默認為高精度的浮點數,光子計算在這些領域的應用會涉及一些額外的軟件優化工作。3.1.2 助力高效芯粒系統:片上光網絡(oNOC)在光子矩陣計算之外,大規模光電集成還能夠助力芯粒系統。芯粒系統通過更大的片上面積、更多種類的異構單元來提高單節點的算力和算效。然而,芯粒系統的規模擴大也帶來了信號傳輸的瓶頸。一種解決以上問
119、題的思路是使用片上光網絡(Optical Network On Chip,oNOC)代替模塊間的電互連,如圖5(a)所示,兩個電芯片被堆疊在同一個光芯片上,電芯片之間的數據傳輸由光芯片上的光波導鏈路實現?;诠鈧鬏攲τ诰嚯x不敏感的特點,片上光網絡可以包括大量的長距離通道。如圖5(b)所示,光芯片能夠擴展到整個晶圓,從而實現晶圓級的光互連網絡,可支持數十個以上的電芯片互連,實現二維環繞等各向同性網絡拓撲(如圖5(b)中橙線所示)。在這樣的拓撲下,將計算任務映射到不同芯片的工作被極大簡化,并且達到更高的利用率。不僅如此,片上光網絡也憑借其高帶寬和低延遲的特性可以為面向未來AI加速器的多形態計算架構
120、18(Polymorphic Architecture)提供關鍵的片上互連基礎設施。電芯片波導電芯片光芯片LGA基板(a)電芯片通過光波導互連的截面圖(b)電芯片通過光波導互連形成的 晶圓級光網絡俯視圖激光器光波導互連電芯片光芯片圖5 oNOC系統側視圖及俯視圖大規模光電集成賦能智能算力網絡153.2.1 物理層創新在一個互連系統中,信號在傳播中會遭受損耗、串擾等影響,使得信號質量劣化。多種技術手段可以提高信號質量,滿足誤碼率的要求。最直觀的做法是提高信號本身的強度,但這通常意味著更高的能耗。另一種做法是使用一些糾錯算法來降低誤碼率,例如前向糾錯(Forward Error Correctio
121、n,FEC),但這通常意味著更高的延遲。例如3.2 多節點算力擴展方案:片間光網絡(oNET)目前基于以太網的分布式計算受限于互連延遲和帶寬,在整體效率上有較大提升空間。如圖6所示,在傳統的數據中心架構中,計算芯片對外的光互連需要通過以太網卡。一種優化數據互連的延遲和帶寬的方式是取消網卡,將計算芯片直接和光電轉換模塊連接。如果計算芯片使用了光子矩陣計算模塊,計算的結果甚至有可能直接接入光互連網絡。這類針對計算優化的光互連概念,尚未形成統一業界標準。業界對這類光互連的稱呼包括“芯片出光(Optical I/O)”,“光學計算互連(Optical Compute Interconnect)”等19
122、,20,21。后文中將這類計算芯片之間的光互連概念稱為片間光網絡(Optical inter-chip Networking),簡稱oNET,以區別前面所提及的片上光網絡(oNOC)技術。實現低延遲、高帶寬、低能耗的片間光網絡,需要物理層和互連協議兩方面的創新。計算芯片網卡計算芯片光電轉換光電轉換電信號電信號光信號光信號電信號以太網光互連計算芯片光互連圖6 以太網光互連和計算芯片光互連大規模光電集成賦能智能算力網絡16對于CPU而言,通用的對外通信通過PCIe協議實現。目前數據中心內的光互連解決方案絕大部分是為以太網設計的?;赑CIe的光互連解決方案幾乎處于空白狀態。如表1所示,相比于以太網
123、,PCIe信號的通道數較多,單通道帶寬較小,調制方法不同,對延遲的容忍度小很多。因此,基于以太網的光互連方案無法直接套用到PCIe應用場景,需要重新定義和設計。目前以太網中使用的FEC算法會帶來100ns-200ns的額外延遲22。因此,要同時達到低延遲、低能耗等要求,最佳的辦法是盡力減少信號傳播中的劣化。通常計算芯片輸出的是電信號,而電信號傳輸損耗對距離敏感,因此縮短計算芯片和光電轉換模塊之間的距離有助于降低系統功耗和延遲。如圖7(a)所示,傳統的服務器中,計算芯片對外的光通信通常使用可插拔的光收發模塊。更進一步的方式是圖7(b)所示,將光電轉換模塊放在主板上,盡量接近計算芯片,從而形成板載
124、光學(OBO)互連。而終極的解決方案則是將光收發模塊與計算芯片封裝在同一個基板上。這種方式被稱為共封裝光學(Co-Packaged Optics,CPO)。(a)(b)(c)主板封裝基板計算芯片封裝基板重定時芯片可插拔光模塊主板封裝基板計算芯片板載光學主板封裝基板計算芯片共封裝光學圖7 計算芯片與光電轉換模塊間互連方式的演進大規模光電集成賦能智能算力網絡17基于PCIe通道數較多、延遲容忍度低的特點,集成硅光互連提供了一種較好的解決方案。圖8展示了一種系統結構。光電轉換由一組3D堆疊的電芯片和光芯片完成。整個結構可以被封裝在計算芯片周圍,實現共封裝光學模塊。這類光電轉換模塊也可以被安裝在主板上
125、,形成板載光學模塊。3.2.2 互連協議創新當前主流的分布式計算主要使用基于以太網的軟硬件生態系統,而這一系統存在諸多的提升空間。實現分布式算力網絡需要高效的數據并行和同步機制。目前基于以太網的方案需要使用內存屏障甚至軟件設定臨界區,使得性能開銷大、延遲長,在復雜的控制流程之下甚至會出現死鎖。一種解決以太網缺陷的方法是基于PCIe物理層的CXL(Compute Express Link)23生主流數據格式調制方式延遲容忍度4100GPAM4不敏感1632GNRZ100nsEthernet(400G)PCIe/CXL(Gen 5.0)表1 以太網和PCIe/CXL 光互連解決方案的對比光纖電芯片
126、光芯片LGA 基板計算芯片電芯片光芯片LGA 基板計算芯片圖8 集成硅光互連方案系統架構大規模光電集成賦能智能算力網絡18因此,結合光子矩陣計算(oMAC)、片上光網絡(oNOC)和片間光網絡(oNET)等技術,光電集成技術的光電混合數據中心新范式賦能智能算力網絡將成為可能。態。CXL是由英特爾等公司牽頭的開放互連協議。該協議基于PCIe物理層,強調高帶寬、低延遲。CXL自2019年發布以來獲得了廣泛的支持。CXL董事會成員幾乎囊括了全球所有主要互聯網和半導體企業。相比于以太網協議,CXL協議提供了高效的數據同步,可以大大簡化軟件管理的復雜度,降低CPU處理網絡功能的開銷。點對點的傳輸延遲可以
127、從以太網的10微秒量級減少到100納秒量級。3.3 算力網絡新范式如圖9所示,光子計算提供了一條超越摩爾定律的算力提升路徑;晶圓級片上光網絡使得新范式的計算芯片可以和傳統的電芯片以及存儲芯片有效協同,在單節點內提高算力;在此之外,基于CXL協議的跨機柜光網絡支持了高效的資源池化,使得大型分布式計算系統變得前所未有的高效、靈活和節能。片間光網絡(oNET)CPU池計算池內存池存儲池生態合作伙伴曦智科技解決方案CPUCPUCPUCPUCPUCPU片上光網絡(oNOC)賦能的XPU系統光子矩陣計算(oMAC)服務器圖9 光電集成技術的光電混合數據中心新范式示意圖大規模光電集成賦能智能算力網絡19人類
128、對于算力的渴求永無止境。隨著社會進入數字經濟時代,數據已經成為核心戰略資源,正在加速重構人類的生產和生活方式。生產力的發展將更多的人和物囊括于虛實結合的數字化空間中,通過采集、加工、挖掘、分析數據,人們借助更復雜的模型來洞察數據資源所蘊含的巨大價值,最終驅動生產方式深刻變革,推動數字經濟高質量發展和國家信息化水平提升。算力基礎設施則是驅動數據要素向生產力轉化的核心引擎。因傳統算力提升路徑受限于物理原理,新的算力提升方式必然成為數字經濟時代信息產業發展的焦點,加快算力網絡創新發展對于構筑國家競爭優勢尤其意義重大。在海量數據和豐富應用場景的驅動下,新的算力革命正在醞釀。其中,大規模光電集成技術在傳
129、統數字電路的基礎上,引入基于集成硅光的信息處理和互連能力,提供了一條新的算力提升路徑。如同歷史上所有創新技術的發展歷程,新的計算范式在供應鏈、生態、商業模式上必將經過一個變遷階段,從最底層的光電元器件制造到最頂層的應用軟件開發,在充分利用現有集成電路生態的同時,也需要摸索出最符合行業特性的做法??梢钥吹?,站在電芯片生態的肩膀上,光電混合技術近幾年發展迅速,孵化于麻省理工學院的光電混合計算初創企業曦智科技,從2017年其創始人沈亦晨博士發明光子矩陣計算技術(oMAC)到2021年發布全球首款6464光子張量協處理器PACE只用了四年時間,而電芯片達到同樣階段經歷了數十年的歷程。隨著硅光全產業鏈的
130、日益完善、相關技術標準的相繼形成,以及學術界、產業界的大力推動,硅光產業發展和生態建設正不斷加速。大規模光電集成的算力網絡新范式必將形成更大的競爭優勢,成為助推數字經濟與實體經濟融合的重要動力之一。大規模光電集成賦能智能算力網絡20AIBOWCMOSCPOCXLDSAFECGPUHBMILPLGAOBOoMACoNEToNOCPCIeSIMDSMSRAM TLPTPUUCIeWSEXPUArtificial IntelligenceBunch of WiresComplementary Metal-Oxide-SemiconductorCo-Packaged OpticsCompute Exp
131、ress LinkDomain Specific ArchitectureForward Error CorrectionGraphics Processing UnitHigh Bandwidth MemoryInstruction-Level ParallelismLand Grid ArrayOn-Board OpticsOptical Multiply AccumulateOptical inter-chip NetworkingOptical Network On ChipPeripheral Component Interconnect ExpressSingle Instruct
132、ion Multiple DataStreaming MultiprocessorStatic Random-Access MemoryThread-Level ParallelismTensor Processing UnitUniversal Chiplet Interconnect ExpressWafer Scale EngineCPU,GPU,.人工智能線束互連接口互補金屬氧化物半導體共封裝光學計算互連標準領域專用架構前向糾錯圖形處理器高帶寬存儲架構指令級別并行觸點陣列封裝板載光學光子矩陣計算片間光網絡片上光網絡外設組件互連標準單指令多數據流流式多處理器靜態隨機存取存儲器線程級別并行
133、張量加速器通用芯?;ミB技術標準晶圓級計算引擎非特定架構處理器縮寫全稱中文大規模光電集成賦能智能算力網絡211 Dario Amodei,Danny Hernandez,et al.AI and compute,2019 Online.Available:https:/ope- Dennard,Robert H.,et al.Design of ion-implanted MOSFETs with very small physical dimen-sions.IEEE Journal of solid-state circuits 9.5(1974):256-2683 David Rotman
134、,Were not prepared for the end of Moores Law,MIT Tech Review,2020 Online.Available:https:/ Johnsson,L.,and Gilbert Netzer.The impact of Moores Law and loss of Dennard scaling:Are DSP SoCs an energy efficient alternative to x86 SoCs?,Journal of Physics:Conference Series.Vol.762.No.1.IOP Publishing,20
135、165 中國信息通信研究院產業與規劃研究所,阿里云計算有限公司,“新一代體系化創新的云”,20226 Yukun Sun,et al,Computing Power Network:A Survey,2022 Online.Available:https:/arxiv.org/pdf/2210.06080.pdf7 Padala,Pradeep et al.Adaptive control of virtualized resources in utility computing environments.European Conference on Computer Systems(2007
136、).8 Norman P.Jouppi et al.,Ten Lessons From Three Generations Shaped Googles TPUv4i:Industri-al Product,ACM/IEEE 48th Annual International Symposium on Computer Architecture(ISCA),pp.1-14,20219 Micheal Andersch,et al,Nvidia Hopper Architecture In-Depth,2022 Online.Available:https:/ Dimin Niu,et al,1
137、84QPS/W 64Mb/mm2 3D Logic-to-DRAM Hybrid Bonding with Process-Near-Memory Engine for Recommendation System,ISSCC,202211 Wilfred Gomes et al.,Ponte Vecchio:A Multi-Tile 3D Stacked Processor for Exascale Computing,ISSCC,202212 Sean Lie,Wafer-Scale Deep Learning,Hot Chips,201913 Ricmib,OCP Google OpenC
138、hiplet spec,2021 Online.Available:https:/ 阿里科技.如何扛住1.8億/秒的雙11數據洪峰?阿里流計算技術全揭秘,2022 Online.Available:https:/ Pengfei Fan,et al.,HARP:An efficient and elastic GPU-sharing system,OReilly Conference TensorFlow World,2019大規模光電集成賦能智能算力網絡2216 Yibo Zhu,Maximizing GPU utilization in Large Scale Machine Learni
139、ng Infrastructure,Nvidia GTC,202217 CXL Consortium,Compute Express Link:The breakthrough CPU-to-Device Interconnect,Online.Available:https:/puteexpresslink.org/18 Yichen Shen,et al.,Deep learning with coherent nanophotonic circuits,Nature Photon 11,441446,201719 Weifeng Zhang,Polymorphic Architectur
140、e for Future AI/ML Applications,OCP Future Technol-ogy Symposium,San Jose,202220 Mark Wade,TeraPHY:a chiplet technology for low-power,high-bandwidth in-package optical I/O,Hotchips,201921 Joris Van Campenhout,Silicon photonics technology for terabit-scale optical I/O,ACM/IEEE International Workshop
141、on System Level Interconnect Prediction(SLIP),202122 Eduard Roytman,HPC/AI system opportunity with integrated photonics chiplets,HiPChips Chiplet Workshop ISCA Conference,202223 Ilya Lyubomirsky et al.,FEC Latency and Power/Area Tradeoffs for 100G KR/CR,IEEE P802.3ck Meeting,Indianapolis,2019大規模光電集成
142、賦能智能算力網絡本白皮書撰寫過程中獲得了相關技術領域內眾多專家的指導與鼓勵。感謝李儒新院士百忙之中為白皮書作序,感謝蔡海文研究員、郝沁汾研究員、黃衛平教授、李明研究員、劉勤讓研究員、錢嶺博士、謝崇進博士、張新亮教授等專家(按姓氏首字母排序,排名不分先后)對白皮書提出非常中肯的意見和建議。對專家們的支持和幫助表示最誠摯的感謝。同時,特別感謝曦智科技所有參與本白皮書撰寫工作的團隊成員。這份白皮書是曦智科技多年以來深耕前沿科技和踐行技術應用的結晶,囊括了團隊在集成光電技術、計算科學等諸多領域的研究成果和前瞻性思考。感謝團隊的高效合作和不懈努力,使本白皮書得以順利完成。最后,我們要感謝讀者和社會各界對
143、本白皮書的關注和支持。希望這份白皮書能夠為大規模光電集成技術在智能算力網絡領域的應用和發展提供有益的思路和啟示,為構建數字化、智能化社會做出貢獻。免責聲明:曦智科技致力在本資料中提供準確的信息,但不保證本資料的部分內容不含有技術性誤差或印刷性錯誤。據此,曦智科技對本資料中的信息準確性、適當性不承擔任何責任。曦智科技保留在無任何通知或提示的情況下對本資料的內容進行修改的權利。版權聲明:本白皮書版權歸上海曦智科技有限公司所有,并受法律保護。任何轉載、引用或利用其他方式使用本白皮書文字、圖片或觀點的,應注明來源于上海曦智科技有限公司,否則將視為侵權。了解更多信息,請訪問曦智科技官方網站https:/www.lightelligence.co/地址:上海市浦東新區松濤路696號聯想大廈A區4層電話:+86(021)5068 9856曦智研究院:rilightelligence.aiCopyright上海曦智科技有限公司 保留一切權力