《益企研究院:算力經濟時代-2023新型算力中心調研報告(131頁).pdf》由會員分享,可在線閱讀,更多相關《益企研究院:算力經濟時代-2023新型算力中心調研報告(131頁).pdf(131頁珍藏版)》請在三個皮匠報告上搜索。
1、1算力經濟時代 數字中國萬里行2023新型算力中心調研報告張廣彬 王海峰 張翼 I 著 出品指導2特 別 鳴 謝3序:算力經濟發展趨勢分析與展望 P0011、從洞察算力到提出“算力經濟”2、狹義算力經濟與廣義算力經濟 3、AGI 時代來臨,模型服務(MaaS)商業模式呈現 4、科學計算:傳統科學與 AI 深度融合 5、算網融合帶來算力市場變局 6、用算力服務標準確保算力服務健康發展 P001 P003 P004 P005 P006 P006第一章 算力經濟時代的基礎設施新價值 P007多類算力基礎設施并行發展 P011多元算力與高速互聯 P016高效綠色的數據存儲與管理 P022 高安全數字基
2、礎設施是趨勢 P024 綠色低碳持續推廣 P027 能源與算力協同 P029 第二章 多元算力:CPU+GPU P031GPU:大芯片與小芯片 P033CPU:性能核與能效核 P034摩爾謝幕,Chiplet 當道 P037 摩爾定律放緩 P037 Chiplet 簡史 P037 四等分:形似神不似 P040Chiplet 與芯片布局 P041 網格架構:Arm 與 Intel P043Arm 新升:NVIDIA Grace 與 AmpereOne P045網格架構的兩類 Chiplet P049 EMIB 及其帶寬估算 P053目錄 CONTENTS4第三章 算存互連:Chiplet 與 C
3、XL P055SRAM 的面積律 P056向上堆疊,翻越內存墻 P057 回首 eDRAM 時光 P061HBM 崛起:從 GPU 到 CPU P063 中介層:CoWoS 與 EMIB P065向下發展:基礎層加持 P067標準化:Chiplet 和 UCIe、CXL P072 CXL:內存的解耦與擴展 P073 UCIe 與異構算力 P080 Chiplet 的中國力量 P084 Chiplet 走出“初級階段”P085第四章 算力互連:由內及外,由小漸大 P087 為 GPU 而生的 CPU P088NVLink 之 GPU 互連 P094NVLink 組網超級集群 P096Infini
4、Band 擴大規模 P102第五章 綠色低碳和可持續發展 P105 液冷應用 高性能計算中心跨越功耗墻 P110液冷實踐 全棧數據中心理念落地 P1111、業務前置 模塊化交付 P1142、以全棧的視角 垂直整合 P1153、產業生態融合演化 P117智算中心 跑出液冷加速度 P119節能減排新實踐 重構排碳之源 P1212023 新型算力中心調研報告 目錄1序:算力經濟發展趨勢分析與展望在今年兩會期間,我遞交了一份關于算力發展的提案:關于合理規劃算力網建設,確保東數西算健康發展的提案(W01072),核心內容是算力網和東數西算。在算力經濟時代數字中國萬里行 2023 新型算力中心調研報告 出
5、版之際,希望通過這篇文章來解釋這份提案產生的背景,同時也對當前算力經濟的發展做一些展望。當人類社會從熱力時代過渡到算力時代,計算也隨之成為未來智能設備的關鍵驅動力,這點在數字經濟時代尤為突出,算力經濟名詞也在 2018年被提出。1、從洞察算力到提出“算力經濟”算力經濟最初定義的維度是比較簡單的。在從事超級計算 30 余年的過程中,我對計算技術的發展和應用有深刻的理解,早期的超算并不傾向于使用 GPU。2008 年英偉達提出 Fermi 架構,將顯卡擴展為通用計算GPU,希望用在超級計算機上,但在當時,GPU在科學計算的應用都不是很成功,如超級計算機中的曙光星云、天河1、天河 2 等在使用中的效
6、果沒有達到預想效果。到 2010 年,我們團隊整理中國高性能計算機 TOP100 排行榜的計算機結構后發現,CPU+GPU 正成為超級計算機的技術發展趨勢。這一趨勢在 2015 年之后更為明顯,AlphaGo 圍棋大戰之后,人工智能取得成功,發現 GPU 其實更適合深度學習,英偉達將 GPU 的應用重點從超級計算機轉到人工智能上。全國政協委員中國科學院計算技術研究所研究員益企研究院首席專家顧問 張云泉22023 新型算力中心調研報告 序 邁進算力經濟時代一直以來,超級計算主要是做科學計算和基礎研究,需要具備長期投資的理念,很難直接和國民經濟發生關系,地方政府在算經濟賬時,會考慮投資的回報率是多
7、少、投資周期是多長?多少年能收回投資成本?能拉動多大的經濟增長?因此說服政府投資超級計算平臺很難。2018 年,有了“算力”這個名詞后,這一問題出現了轉折點。起初算力這個詞來源于區塊鏈、挖礦領域,相對比較狹窄、有點偏負面。但隨著超級計算和人工智能、云計算的結合,甚至包括區塊鏈和大數據的融合,“算力”似乎和國民經濟的關系更密切了。過去面臨的關于超算的經濟回報問題,在人工智能時代(我們稱之為“智能計算時代”),應該可以說清楚了?;谶@個想法,在區塊鏈的啟發下,國內的專家們開始把超級計算的“計算”,泛化成“算力”。2018 年,我參加地方政府的相關活動時提出“算力經濟”這一理念,當時認為,隨著超級計
8、算技術的發展,大數據、云計算、人工智能、區塊鏈彼此之間的融合創新,算力經濟會成為經濟發展的重要抓手,會成為地方政府新舊動能轉換的重要手段。但在那時,“算力經濟”其實還不太被社會接受。那時最熱的是大數據、人工智能、區塊鏈,但算力不熱,沒什么人談“算力經濟”。這一觀點在隨后就得到印證,2018 年益企研究院(E 企研究院)開啟數字中國萬里行,實地考察了全國 8 個超大規模云數據中心,并出版了首個中國超大規模云數據中心考察報告聚焦數據中心架構創新和技術迭代,探索智能基礎設施的上層應用,呈現新技術和新型算力基礎設施的價值。2019 年發布的中國高性能計算機 TOP100 排行榜中我們發現,這一年超算應
9、用的領域也發生了極大的變化。過去超算主要集中于科學計算、政府行業、能源行業、電力行業以及氣象領域。但隨著許多互聯網公司開始申報超級計算機,在TOP100中,有30%的系統都來自互聯網行業,比如云計算、機器學習、人工智能、大數據分析以及短視頻領域。這些領域對于計算需求的急劇上升,超級計算繼續與互聯網技術進行融合。同時,算力基礎設施中除了云數據中心和超算中心,還出現智能計算中心為代表的算力基礎設施。其中較為典型的案例就是國家超算濟南中心科技園與騰訊在上海松江打造的人工智能計算中心。2020 年,益企研究院發起數字中國萬里行第三年之際,我在接受益企研究院訪談中,正式提出:我們即將進入一個依靠算力的人
10、工智能時代,這3也是未來發展的必然趨勢之一,同時,隨著用戶對算力需求的不斷增長,算力經濟時代將登上歷史舞臺。2020 年后,我在相關調研實踐中不斷總結,最后形成了“超算與人工智能融合創新的算力經濟時代”的思考。2、狹義算力經濟與廣義算力經濟中國高性能計算機 TOP100 排行榜已經發布了 20 多年,行業一直通過排行榜觀察中國超級計算產業的發展趨勢。到 2021 年,我們又發現一個新的現象:在 TOP100 的前 10 名有 7 臺機器,它們不是專門服務某些行業,而且這些機器沒有具體的應用目標,是公司買過來之后專門用于賣算力的,而且這些機器性能很強。面對這個新出現的狀況,TOP100的專家委員
11、定義了一個新領域叫算力服務業。當時間進入 2022 年,算力服務的性能指標相比上一年已經翻倍,增長速度很快。算力服務業在 20212022 年的異軍突起,也意味著中國正式進入算力經濟時代,其背后的原因是超級計算技術的發展,大數據、人工智能、區塊鏈彼此之間的融合創新,而這些因素背后的核心要素就是算力。算力應用已經開始滲透到千行萬業之中,這也是在 2018 年提出算力經濟概念之后,我們觀察到這個行業的極速變化。算力經濟最初定義的維度是比較簡單的。首先計算要成為算力經濟的核心,未來,以計算能力來衡量一個地方或地區的數字經濟發展水平,使之成為一個很重要的指標。一個地區的算力產業是不是發達,也意味著數字
12、經濟是不是有機會,尤其在東數西算成為國家發展戰略之后,算力經濟也成為西部地區新一輪經濟發展的強力抓手。就目前來說,針對算力還沒有一個統一的定義,我們可以將其理解為硬件和軟件的配合,共同執行某種計算需求的能力,這個定義現在看來不是很全面。我認為狹義的算力經濟定義是指與算力強關聯的算力服務產業鏈,其中包括了 4 類參與者:一是算力生產者,二是算力調度者,三是算力服務商,四是算力消費者;他們共同閉環成為一種商業模式。隨著認識的深化,隨后又有一個廣義的“算力經濟”,我們稱之為算力+。這不是我一個人提出來的。凡是可以用到算力的國民經濟的各個方向單元,都是算力經濟的范圍。只要以算力為核心生產要素,以算力為
13、引擎,就都是廣義的算力經濟。這是數字經濟很重要的一個組成部分,在數字經42023 新型算力中心調研報告 序 邁進算力經濟時代濟中的比重會越來越大。統計數據顯示,在世界各國的算力排名中,中國排在世界第二,人均算力處于中等國家的水平,目前中國還是有很大的算力鴻溝。在我國,算力的需求毋庸置疑,人工智能、5G、區塊鏈、元宇宙的發展都對算力提出了強烈的需求,其增長前景是沒有問題的?,F在有各種各樣新的概念,很多課題組也開展了很多研究。在針對算力研究的著作中,算力:數字經濟的新引擎這本書正式把算力進行系統的研究,提出來無數據不經濟,這個定義非常好,比算力經濟最初的概念更近了一步,提出了引擎性自主創新驅動的先
14、進計算產業以及算力賦能和服務衍生的新模式、新業態形成了算力經濟,作者是經濟學家,從經濟學角度闡述了算力對于經濟的巨大影響力。書中指出,算力經濟是數字經濟衍生的新經濟形態,數據作為主要的生產要素通過算力、算法的技術創新,促進數據經濟和實體經濟的深度融合,實現效率、效能、質量提升和經濟結構優化升級。綜上所述,圍繞算力本身產生的算力服務產業中,我們看到里面有芯片、操作系統,我認為可以從狹義和廣義兩個角度來看算力經濟,狹義的算力經濟指算力服務業產業鏈;有更廣義的算力經濟叫數字產業化、產業數字化、城鎮數字化這種提供各種基礎設施、提供各種支撐保障的新模式、新業態,也就是是算力+產業。3、AGI 時代來臨,
15、模型服務(MaaS)商業模式呈現隨著算力經濟的發展,超級計算機技術和人工智能融合創新會產生一類新的基建,專門用于人工智能計算的中心,也成為當下非常熱的資產中心。就在 ChatGPT 面世之前,我們還不知道大模型可以實現令科技界為之興奮的應用水平,只是知道它可以寫一點新聞、聊天、畫畫,這些簡單的功能會在更多應用場景中帶來價值。從 GPT3 到 ChatGPT 的過程,是大模型技術發展的關鍵節點,也是中國人工智能之路和美國人工智能之路的分歧點。這兩年大模型國內也有相當數量的公司參與其中,但我們追求的是參數量,從千億級到萬億級很快的躍進,但是智能屬性沒有涌現。OpenAI 走了另外一條路,利用人工反
16、饋的訓練機制,通過標注、對齊高質量數據,最后把這條路走通了,用千億參數的大模型把通用智能挖掘出來了,這個事情是值得國內科技界去反思的。5另外一條路是人工智能內容生成 AIGC,包括大家在微信朋友圈里看到各種畫,也成為現在的熱門賽道。在 AIGC 賽道國內已經有布局了,從上游、中游到下游都有一些中國公司在做。這些都意味著人工智能進入通用人工智能(AGI:Artificial General Intelligence)時代,具備五個特性:涌現性(參數超過臨界值,模型能力實現突變)、工程化、通用性、密集型、顛覆性。這里就不多展開闡述。4、科學計算:傳統科學與 AI 深度融合當計算改變科學,人工智能生
17、物算法反過來被融合到科技計算建模中,相當于把數據科學和計算科學(AI for Science)整合在一起,這時產生一個新的“智能科學”賽道。以前科學計算的四個范式分別是實驗科學、理論科學、計算科學和數據科學,智能科學范式(AI 范式)被稱之為第五范式。其代表是斬獲 2020 年戈登貝爾獎的 Deep Potential 方法展示了 AI 和分子動力學模型的有效結合,在保證精度的同時,指數級地提升了物理模型的效率?;诳茖W計算的深度學習怎么反哺科學計算、解決計算問題,AI 范式確實創造了新的科學計算的方向,尤其是制藥這個行業特別有效,極大提高了科學計算的精度,降低了成本。比如近年來,AlphaF
18、old 等人工智能(AI)工具的出現,在生命科學領域促成了多項突破性進展。蛋白質的功能預測與設計成為最先受益的領域之一,在 科學(Science)雜志上,Baker 教授團隊帶來了蛋白質設計的又一項革命性突破:利用強化學習,“自上而下”(top-down)設計蛋白質復合物結構。在幾年前,預測蛋白質三維結構都遙不可及,更不用說從頭進行設計了。這套顛覆了傳統方案的全新突破不僅可能為我們帶來更有效的疫苗及藥物,還有望引領蛋白質設計的全新時代。AI for Science 的數據來自各個學科的數據積累;模型來自各領域科學家發現的科學原理和規律;算法源自機器學習算法和數值方法等方面的創新。需要多樣算力融
19、合的綜合型智能計算平臺,通過分布式異構并行體系結構,實現多樣算力的融合、優勢互補,為 AI 訓練、AI 推理、數值模擬等不同應用提供不同算力,實現高精度到低精度算力的全覆蓋、多種計算類型的全覆蓋,以及 AI 訓練+推理全覆蓋。65、算網融合帶來算力市場變局在算力布局方面,國內目前有很多算力中心,有超算中心、智算中心,還有超大規模云數據中心,我認為未來算力中心慢慢會融合到統一的形態上,只是功能不同。隨著算力中心的發展,我國的算網融合也取得了長足的進步。算力網絡,是一種根據業務需求,在云、網、邊之間按需分配和靈活調度計算資源、存儲資源以及網絡資源的新型信息基礎設施。算力網絡體系包括算力度量、算力感
20、知、算力路由、算力編排、算力交易等內容。目前,中國聯通、中國移動、中國電信的算網融合戰略很清晰,標準也很清楚,他們將通過實施算網融合戰略轉型為算力供應商。6、用算力服務標準確保算力服務健康發展對于未來的展望講過很多,東數西算工程標志著算力經濟時代正式的拉開帷幕。未來,算力將加速普及,類似于電力插座變成算力插座。我們使用算力不需要帶一臺電腦,隨便一個卡或者一個東西,就可以通過一個標準的計量方式來使用算力。未來還可能會出現類似于發電廠的算力工廠,尤其在西部地區會出現,據說在煤礦、水電站的附近已經開始建設算力工廠,電力極其便宜,成本特別低。工業時代有公路、電網,算力時代也有算力網絡。隨著算力服務的發
21、展,未來在算網時代有三類不同角色:一是網絡通信商,通過算網融合參與進來;另外超算的供應商、云計算供應商,通過超算互聯網也會參與提供算力服務;還有國家電網通過建設發電廠,參與提供算力服務。三類角色從不同的技術途徑搶占算力服務市場?;诖?,市場也在呼喚算力服務標準,確保算力健康發展。新一年度的數字中國萬里行即將開啟,希望有更多的力量參與到算力+產業的考察實踐中,推動中國算力經濟的發展和升級。2023 新型算力中心調研報告 序 邁進算力經濟時代72023 新型算力中心調研報告CHAPTER1算力經濟時代的基礎設施新價值8第一章算力經濟時代的基礎設施新價值2023 年始,ChatGPT 和 GPT-4
22、 再次掀起了人工智能的熱潮,并打開了海量的應用場景:生成應用和布局、搜索和數據分析、程序生成和分析、文本生成、內容創作ChatGPT 基于其龐大的算力和算法分析,可覆蓋教育、科研、新聞、游戲等行業。從 2018 年第一代生成式預訓練模型 GPT-1 誕生以來,GPT 系列模型幾乎按照每年一代的速度進行迭代升級,2022 年以來,新的通用人工智能開始以更加高效的方式解決海量的開放式任務,它更加接近人的智能,而且能夠產生有智慧的內容,也帶來了新的研究范式基于一個非常強大的多模態基礎模型,通過強化學習和人的反饋,不斷解鎖模型的新能力。ChatGPT 是 AI 大模型創新從量變到質變長期積累的結果,是
23、通用人工智能(AGI,Artificial General Intelligence)發展的重要里程碑。以 GPT-4 為例,超大規模預訓練模型展示了一條通向通用人工智能的可能方向,人們通過輸入提示詞和多模態內容,便可生成多模態數據。更重要的是,它可以用自然語言方式生成任務描述,以非常靈活的方式應對大量長尾問題和開放性任務,甚至是一些主觀的描述?!按竽P?大算力+大數據”成為邁向通用人工智能的一條可行路徑,比如大模型技術是自動駕駛行業近年的熱議趨勢。自動駕駛多模態大模型可以做到感知和決策一體化。在輸出端,通過環境解碼器可對 3D 環境進行重建,實現環境的可視化理解;行為解碼可生成完整的路徑規劃
24、;同時,動機解碼器可以用自然語言描述推理的過程,進而使自動駕駛系統變得可以解釋。而大規模深度學習模型的參數和數據量達到了一定量級,超大規模AI 大模型的訓練一般必須在擁有成百上千加速卡的 AI 服務器集群上進行,需要相應算力的支撐。根據 OpenAI 的數據,GPT-3 XL 參數規模為 13.2 億,訓練所需算力為 27.5PFlop/s-day。由于 ChatGPT是在 13 億參數的 InstructGPT 基礎上微調而來,參數量與 GPT-3 XL接近,因此預計 ChatGPT 訓練所需算力約為 27.5PFlop/s-day。+新的通用人工智能開始以更加高效的方式解決海量的開放式任務
25、,它更加接近人的智能,而且能夠產生有智慧的內容,也帶來了新的研究范式基于一個非常強 大 的 多 模 態 基 礎 模型,通過強化學習和人的反饋,不斷解鎖模型的新能力。2023 新型算力中心調研報告 算力經濟時代的基礎設施新價值9(截止 4 月份國內 AI 大模型項目發布情況匯總,信息來源網絡 益企研究院整理)企業AI 名稱發布情況具體發布日期百度文心千帆2023 年 3 月 16 日2023 年 3 月 16 日華為盤古 NLP 模型2023 年 4 月 10 日未知昆侖萬維天工 3.52023 年 4 月 17 日測試未知搜狗百川智能2023 年 4 月 10 日預計 2023 年底字節跳動M
26、y AI2023 年 4 月 11 日2023 年 4 月 11 日阿里巴巴通義千問2023 年 4 月 11 日2023 年 4 月 11 日360360 智腦2023 年 4 月 10 日2023 年 4 月 10 日商湯科技日日新2023 年 4 月 10 日2023 年 4 月 10 日騰訊混元2023 年 4 月預計 2023 年內科大訊飛1+N 智能大模型2022 年 12 月2023 年 5 月 6 日京東言犀產業大模型2023 年 2 月 10 日發布 125 計劃預計 2023 年內清華大學ChatGLM-6B2023 年 3 月 28 日2023 年 3 月 28 日復旦大
27、學MOSS2023 年 2 月 20 日2023 年 2 月 20 日達觀數據曹植2023 年 3 月 18 日公布試用未知網易玉言2023 年 1 月 17 日測試未知瀾舟科技孟子2023 年 3 月 14 日2023 年 3 月 14 日中科院自動化所紫東太初2021 年 9 月 27 日2021 年 9 月 27 日智源研究院悟道 2.02021 年 6 月 1 日2021 年 6 月 1 日知乎知海圖 AI2023 年 4 月 13 日發布2023 年 4 月 13 日心識宇宙MindOS2022 年 11 月內測2023 年 1 月上線MiniMaxGlow2023 年 2 月 16
28、 日2023 年 2 月 16 日 國內 AI 大模型項目發布情況匯總10同樣,算力作為自動駕駛的基本要素,從視覺檢測、傳感器融合、軌跡預測到行車規劃,上萬個算法模型需要同時完成高并發的并行計算,需要更高性能的智算中心來完成訓練、標注等工作。從 2022 年開始,人工智能算力成為主要增量,數字中國萬里行考察期間,小鵬汽車和阿里云共同發布在烏蘭察布合建當時國內最大的自動駕駛智算中心“扶搖”,專門用于自動駕駛模型訓練,算力規模達600PFLOPS,相當于每秒可以完成 60 億億次浮點運算。從 2018 年開始,益企研究院(E 企研究院)開啟數字中國萬里行,幾年來,數字中國萬里行的足跡遍布“全國一體
29、化大數據中心”體系下的 8 個樞紐節點,出發點切合了國家后來提出“新基建”,路線選擇和洞察也與國家“東數西算”工程的規劃高度契合,深入實地對風、光、儲能的考察符合“雙碳戰略”。結合算力經濟時代的算力基礎設施發展,我們認為以下幾個方向值得討論。+2023 新型算力中心調研報告 算力經濟時代的基礎設施新價值11多類算力基礎設施并行發展迄今為止,數字中國萬里行已經考察了位于全國一體化算力網絡十大數據中心集群中的多個不同類型數據中心,包含:互聯網/云計算數據中心、金融數據中心、運營商數據中心、第三方 IDC、超算中心、智算中心。2022 年,我國算力基礎設施迎來了多樣化發展的繁榮期,從數據中心承載的應
30、用來看,需要多類算力基礎設施并行發展,保障算力資源的多元供給。1、云數據中心加速算力普惠過去幾年,云計算行業均處于蓬勃發展階段,技術演進結合客戶需求釋放,推動市場規模加速增長,促使云服務商加大全球數據中心布局。從全球來看,在過去三年對數字化轉型進行了持續的 IT 投資后,通貨膨脹推動公共云成本不斷上升,迫使企業客戶優化公共云支出。宏觀經濟的不確定性導致信息技術預算采用更加保守的方案。越來越多的客戶正在調整云策略,以提高效率和控制能力,在 2022年,云基礎設施服務的增長開始變緩。從Canalys的數據來看,2022年全年,云基礎設施服務總支出從 2021 的 1917 億美元增長至2471 億
31、美元,增幅達 29%。季度增長率放緩,2022 年第一季度為34%,2022 年第四季度為23%。Canalys 預計,在未來幾個季度,云基礎設施服務的增長速度將繼續放緩。2023 年,全球云基礎設施服務支出將增長 23%。同樣,Synergy Research Group 的數據顯示,2022 年第四季度全球企業在云基礎設施服務方面的支出超過 610 億美元。從數據來看,比 2021 年第四季度增長了 100 多億美元,前四季度的平均增長率為 31%。由于市場規模越來越大,Synergy 認為增長率的下降在一定程度上是意料之中的,但毫無疑問,當前的經濟環境也產生了不利影響。而對于中國市場而言
32、,2022 年是保守的一年,傳統云服務商市場增長了 10%,總額達到 303 億美元。Canalys 數據顯示,2022 年第四季度,云計算支出總額為 79 億美元,同比增長 4%。與過去幾年的強勁表現(前三年的年增長率超過 30%)相比,2022 年的增長率大幅下降。Canalys 預計,2023 年,中國云基礎設施服務支出將增長 12%。+303億美元10%4%79億美元12%2022 年,中國傳統云服務商市場2023 年,中國云基礎設施服務支出將增長 12%季度增長率放緩12https:/ IaaS 服務主力軍。從中國移動、中國電信、中國聯通 2022 年年報業績來看,三家企業營收、凈利
33、潤均實現增長,云計算成為拉動增長的主力,2022 年:中國電信天翼云營收 579 億元,同比增長 108%;聯通云營收 361 億元,同比增長 121%;移動云營收 503 億元,同比增長 108%。作為算力的聚集點,云數據中心的規?;沟盟懔Φ靡云栈莼?,用戶按需采購算力、存儲、帶寬即可開展業務。隨著國內大模型市場的快速發展對我國的基礎算力提出更高的要求,沒有算力基礎,算法等發展難以為繼。此時,云計算廠商的算力基礎設施優勢凸顯,大模型的爆發會導致訓練的應用場景越來越多,對訓練的需求大幅增長,如何保證算力不衰減,對算力的高帶寬、存算一體等提出新要求,需要底層平臺+分布式框架+加速算法的高效集
34、成。2023 年,云計算廠商開始發布人工智能大模型,4 月份,阿里云通過官方微信公眾號官宣了旗下的超大規模語言模型;華為云也介紹了華為盤古大模型的架構以及應用場景,還有在礦山、鐵路、氣象、醫藥分子等細分行業的應用。+579億元361億元503億元108%121%108%2023 新型算力中心調研報告 算力經濟時代的基礎設施新價值13未來,云數據中心的的核心依然是:讓算力更加普惠,促使 AI 大規模普及。全方位的算力服務能力依然是云服務商競爭力的基石,算力基礎設施的使用效率,會直接影響到云服務商的創新能力和盈利能力。另外,大模型是一場“AI+云計算”的全方位競爭,超千億參數的大模型研發,并不僅僅
35、是算法問題,而是囊括了底層龐大算力、網絡、大數據、機器學習等諸多領域的復雜系統性工程,需要有超大規模 AI基礎設施的支撐。因此,云服務商不斷優化硬件基礎設施提升算力效率,提供通用計算、智能計算能力,通過云統一管理多種算力,靈活調度算力資源,并形成完整的產業生態,推動新興產業發展。2、智算中心加快智能算力部署智算中心是服務于人工智能的數據計算中心,采用領先的人工智能計算架構,提供人工智能應用所需算力服務、數據服務和算法服務的公共算力新型基礎設施。2022 年,智算中心作為發展最快的一種算力供給形式,全球人工智能算力成為主要增量。據 IDC 統計,2021 年中國 Al 服務器市場規模為 53.9
36、 億美元,預計 2025 年達到 103.4 億美元,20212025 年 CAGR 達 17.7%;2021 年中國智能算力規模為 155.2EFLOPS,預 計 2025 年 達 922.8EFLOPS,20212025 年CAGR 達 56.15%。在中國,智算中心發展尚處于初期階段但發展迅速。從國家信息中心發布的智能計算中心創新發展指南來看,當前我國超過 30 個城53.9億美元2021 年中國 Al 服務器市場規模155.2EFLOPS2021 年中國智能算力規模103.4億美元預計 2025 年達到922.8EFLOPS預計 2025 年達到17.7%20212025 年 CAGR
37、 達56.15%20212025 年 CAGR 達14市正在建設或提出建設智算中心,整體布局以東部地區為主,并逐漸向中西部地區拓展。智算中心建設目的促進產業AI化、AI產業化,主要應用在城市治理、智能制造、自動駕駛等領域。2023 年火熱的大模型計算的需求加速了算力的商業應用以及智算中心的發展。無論是智慧城市還是智能制造、無人駕駛、數字孿生等場景,除了要有數據支撐以外,還要和各領域、各場景的知識模型、機理模型甚至物理模型相疊加,形成基于人工智能的新應用和場景實現。以 AI 芯片為主的高效率、低成本、大規模的智能算力基礎設施將成為訓練 AI 大模型的前提。比如商湯科技發布多模態多任務通用大模型“
38、書生(INTERN)2.5”,其圖文跨模態開放任務處理能力可為自動駕駛、機器人等通用場景任務提供高效精準的感知和理解能力支持。多任務、多模態的能力需要強大的算力基礎設施,以數字中國萬里行參觀的商湯上海臨港人工智能計算中心(AIDC)一期為例,作為SenseCore 商湯 AI 大裝置的算力基座,AIDC 基于 2.7 萬塊 GPU 的并行計算系統實現了 5.0 exaFLOPS 的算力輸出,可支持最多 20 個千億參數量超大模型(以千卡并行)同時訓練。目前商湯有 320 億參數規模的通用視覺模型,在 NLP 領域也有接近 2000 億參數的大模型,有能力去訓練 1800 億參數的多模態大模型。
39、大模型進一步促進智算中心的發展。智算中心有技術實現復雜、建設周期長、資源投入巨大、產業輻射面廣的特點。一方面,智能算力需求呈現幾何式增長,本地智算中心主要服務本地產業和科研機構,無320億2000億1800億參數規模的通用視覺模型參數規模的大模型參數的多模態大模型商湯上海臨港人工智能計算中心(AIDC)2023 新型算力中心調研報告 算力經濟時代的基礎設施新價值15法向全國提供算力服務。另一方面,為了提供相匹配的超大規模的算力支撐,通過算力的生產、聚合、調度和釋放,支撐產業創新聚集,亟需構建云化的智能算力網絡,通過情況和各地區的需求情況進行算力動態調配,確保已建成的人工智能計算中心保持高效運營
40、。3、超算中心產業化超算算力是基于超級計算機等計算集群所提供的高性能計算能力,通過各種互聯技術將多個計算機系統連接在一起,利用所有被連接系統的綜合計算能力來處理大型計算問題,所以又通常被稱為高性能計算集群。目前已有 11 個國家級超算中心,多個省級超算中心和高校級超算中心。一般來說,超算中心主要面向科研和科學計算進行計算密集型的任務處理,應用在基礎學科研究、模擬仿真、氣象環境、天文地理等領域??茖W計算是大模型之外,AI 發展的另一重要方向,借助 HPC,科學計算對基礎科學研究和行業發展起到重大的推動作用。隨著業務場景越來越復雜,AI+HPC 的算力融合成為趨勢。2022 年,超算商業化進程不斷
41、提速,我國超算進入到以應用為需求導向的發展階段。國內很多超算中心加強了商業化運行改革,算力服務異軍突起,加速科研創新,以云服務方式提供通用超算資源,為拓展科學邊界、推進技術創新提供了更強勁的動力。從 2022 年中國高性能計算機性能 TOP100 排行榜來看,應用于“算力服務”的系統性能份額占比達到 57%,超算中心、大數據、云計算、科學計算、視頻應用分別以 18%、6%、4%、4%、3%排在其后。應用領域性能份額+超算算力是基于超級計算機等計算集群所提供的高性能計算能力,通過各種互聯技術將多個計算機系統連接在一起,利用所有被連接系統的綜合計算能力來處理大型計算問題,所以又通常被稱為高性能計算
42、集群。目前已有 11 個國家級超算中心,多個省級超算中心和高校級超算中心。+16在應用領域新增算力服務,充分反映了在大數據、人工智能算法和算力三駕馬車協同配合時代中算力經濟的發展,算力的多樣化正成為高性能計算領域的發展趨勢。目前,國家也重視超算互聯網工程,整合多個超算中心和云計算中心的軟硬件資源,平衡算力的需求與供給,通過建設超算資源共享與交易平臺,支持算力、數據、軟件、應用等資源的共享與交易,同時向用戶提供多樣化的算力服務。多元算力與高速互聯自動駕駛,云游戲、短視頻、人工智能等應用場景呈現多樣化,使得數據中心側傳統單一的結構難以滿足要求。而隨著非結構化數據占比增大,原來可以用數據庫二維表結構
43、實現的結構化數據,現在需要對海量、多種多樣非結構化數據(如文本、圖片、語音、視頻)進行加工、處理,自然需要多樣性計算來進行匹配。多樣性計算需求,加速算力格局變換?;?x86 的通用計算繼續構建數字經濟發展的基礎,依然保持計算的核心地位。一方面繼續提供更強的核心和更多的核心數滿足客戶不同場景需求,如第四代 AMD EPYC處理器基于業界領先的5nm的制程工藝,提供多達96個“Zen 4”架構核心、192 線程,以及最大 384MB 的 L3 緩存容量。另一方面,在 AI 應用的規?;渴鸷蛯嵺`中發揮重要的作用。為了更加充分地利用 CPU 的資源,幾年前英特爾就在 CPU 中內置針對 AI 進行
44、加速的專用運算單元或指令集,英特爾第四代至強可擴展處理器新集成 5 種加速器,并搭配以更為簡單易用、能夠降低部署和優化難度的軟件工具。而在 Arm 陣營中,算力繼續快速延伸至服務器市場,目前在國外,基于 Arm 指令集兼容架構的服務器芯片廠商主要有 NVIDIA、Ampere Computing、亞馬遜和富士通。NVIDIA Grace CPU 基于最新的 Armv9 架構,為 AI、HPC、云計算和超大規模應用而設計。如Ampere Computing(安晟培半導體)致力于為數據中心帶來創新的云原生處理器,基于 Arm 架構的 Ampere Altra 產品系列包括 80 核的 Ampere
45、 Altra 和 128 核的 Ampere Altra Max,并最新推出基于 192 個自研核的 AmpereOne。目前國內騰訊云、阿里云、優刻得 UCloud、京東、字節跳動等多個超大規??蛻舻臄祿行囊言?2023 新型算力中心調研報告 算力經濟時代的基礎設施新價值17部署 Ampere Computing 產品。亞馬遜云科技(AWS)也發布采用了 Graviton 3 的 C7g 應用實例,成為業界首款采用 Arm Neoverse 架構并支援 DDR5 的云端應用實例。在國內,鯤鵬、飛騰耕耘市場多年,Arm 服務器市場份額持續增加。同時,Arm解決方案已經在云服務商、高性能計算領
46、域發揮重要作用。目前云數據中心領域正在進行 x86+Arm 多元算力的布局。阿里巴巴浙江云計算仁和液冷數據中心已經大規模應用自研 CPU 芯片倚天710 以及搭載倚天 710 的阿里云自研磐久服務器。在 2022 云棲大會期間,阿里云宣布搭載倚天 710 芯片的阿里云彈性計算實例正式上線,從現場官方公布的數據來看,在新型云計算架構體系下,倚天+飛天+CIPU 的組合表現亮眼,在大數據和 AI 及高性能計算、視頻編解碼等場景下性能可提升 20%以上。騰訊云 CVM 標準型實例 SR1,基于主頻達 2.8GHz 的 Ampere Altra 處理器,結合全新優化虛擬化平臺,提供了平衡、穩定的計算、
47、內存和網絡資源。+18飛騰系列 CPU 也是基于 Arm 指令集兼容架構設計的處理器,共推出高性能服務器 CPU、高效能桌面 CPU 和高端嵌入式 CPU 等多個系列。數字中國萬里行在順義考察了中國電子按照國家關鍵信息基礎設施標準打造的中國電子信創云基地,支撐異構多節點云的管理,基于飛騰Arm 架構和 x86 架構構建云平臺資源池,其中國產化飛騰 Arm 體系滿足國家安全規定,自主安全要求的信創基礎設施資源池;x86 體系的資源,作為現有部分適配難度較大的業務運行的非信創過渡資源池,服務諸多央企和政府用戶。在高性能計算領域,從全球來看,全球超級計算機 TOP500 排行榜中,已有 5 臺基于
48、Arm 指令集兼容架構處理器構建的超級計算機入圍。同時,美國、日本、歐洲也都發布了多臺基于 Arm 指令集兼容架構處理器的超級計算機建設計劃,Arm 指令集兼容架構有望成為未來 HPC 的主流技術和發展趨勢。+2023 新型算力中心調研報告 算力經濟時代的基礎設施新價值19基于 Arm 指令集兼容架構處理器的超級計算機進入全球超級計算機 TOP500 排行榜,已經很大程度上彰顯出 Arm 指令集兼容架構在高性能計算領域的潛力。在國內,以 Arm、RISC-V 為代表的多樣性計算平臺逐漸發揮重要作用?;谌A為鯤鵬 920 CPU 的 TaiShan 服務器基于 Arm 指令集兼容架構的高性能處理
49、器,面向高性能計算、大數據、分布式存儲和 Arm 原生應用等場景,能夠充分發揮 Arm 指令集兼容架構在多核、高能效等方面的優勢。+全球高性能計算機 TOP500 排行榜中基于 Arm 指令集兼容架構處理器的超級計算機超算名稱FugakuWisteriaTOKI-SORAFlowAstraSC2022TOP500排名2233987467峰值性能537.21 PFlop/s25.95 PFlop/s19.46 PFlop/s7.79 PFlop/s2.30 PFlop/sCPU 數量/核數158976/487680/485760/482304/483990/36處理器型號A64FX 48C 2.
50、2GHzA64FX 48C 2.2GHzA64FX 48C 2.2GHzA64FX 48C 2.2GHzMarvell ThunderX2 CN9975-2000 28C 2GHz處理器架構Armv8.2-A SVE 512 位Armv8.2-A SVE 512 位Armv8.2-A SVE 512 位Armv8.2-A SVE 512 位Armv8.1部署地 日本理研計算科學中心日本東京大學信息技術中心日本宇宙航空工業振興機構日本名古屋大學信息技術中心美國桑迪亞國家實驗室部署年份20202021202020202018數據來源:根據 SC2022 TOP500 排名整理20比如上海交通大學“
51、交我算”校級計算平臺,在上海交通大學閔行校區的網絡信息中心上線了國內高校首臺基于鯤鵬處理器的集群系統?!敖晃宜恪钡啮H鵬集群共 100 個計算節點,節點采用雙路 64 核華為鯤鵬920 處理器,每個計算節點擁有128核處理器和256GB內存,總計 12800 核,系統理論雙精度峰值性能達 133TFLOPS,覆蓋了材料科學、生命科學和流體力學等多個高性能計算應用領域。在智能計算場景領域,以 CPU+AI 芯片(GPU、FPGA、ASIC)提供的異構算力,并行計算能力優越、互聯帶寬高,可以支持 AI 計算效力實現最大化,成為智能計算的主流解決方案。人工智能算法需要從海量的圖像、語音、視頻等非結構化
52、數據中挖掘信息。從大模型的訓練、場景化的微調以及推理應用場景,都需要算力支撐。在大模型層面,以 GPU 等 AI 訓練芯片為主,為 AI 計算提供更大的計算規模和更快的計算速度。+2023 新型算力中心調研報告 算力經濟時代的基礎設施新價值21除了大模型,目前在 AI for Science 領域,人工智能正在給科學計算帶來重大的范式革命。AI for Science 的數據來自各個學科的數據積累,模型來自各領域科學家發現的科學原理和規律;算法源自機器學習算法和數值方法等方面的創新;需要多樣算力融合的綜合型智能計算平臺,通過分布式異構并行體系結構,實現多樣算力的融合、優勢互補,為 AI 訓練、
53、AI 推理、數值模擬等不同應用提供不同算力,實現高精度到低精度算力的全覆蓋、多種計算類型的全覆蓋,以及 AI訓練+推理全覆蓋。多元算力的多元開發生態體系相對獨立,應用的跨架構開發和遷移困難,需通過開源、開放的方式建立可屏蔽底層硬件差異的統一異構開發平臺。算力服務成為一種新的業態,將通用計算、智能計算、并行計算等多樣性算力統一納管和調度,屏蔽不同硬件架構差異,實現大規模異構計算資源的統一調度,實現算力的普惠化。同時,當算力和網絡的發展呈現一體共生之勢時,從算網協同到算網融合,業務需求的變化會通過芯片、計算和存儲等 IT 設備傳導到網絡架構層面,即數據中心作為基礎設施也會相應的產生自上而下的變化。
54、為此,除了算力網絡,數字中國萬里行考察期間也重點關注 DPU/IPU 乃至芯片間的互連,展現數據中心基礎設施如何應對這些變化與挑戰,更好的服務于用戶,并可持續的良性發展。+算力服務成為一種新的業態,將通用計算、智能計算、并行計算等多樣性算力統一納管和調度,屏蔽不同硬件架構差異,實現大規模異構計算資源的統一調度,實現算力的普惠化。22高效綠色的數據存儲與管理2022 年的“東數西算”工程在實現數據中心一體化協同創新的戰略價值被大家認同,東數西算是“全國一體化算力網絡”下轄的一個子概念,而后者旨在推進技術融合、業務融合、數據融合,實現跨層級、跨地域、跨系統、跨部門、跨業務的協同管理和服務。從“東數
55、西存”到“東數西算”,促使更多行業和企業重視數據,帶動數據存儲、管理、使用的需求增長。用戶對數據存儲容量、數據傳輸速度、硬件設備性能等各方面有了新的認知。有了算力,業界也提出了“存力”這一概念。但實際上,定義存力這一概念較難,涉及的維度較多。我們可以認為:算力的底層支撐為計算芯片,同理,存力的底層支撐則為存儲器介質(DRAM、NAND Flash SSD、硬盤等)。存力可以通過存儲服務器或存儲系統來承載,存力最基本的度量至少需要包括容量、性能兩個維度。尤其對于超大規模數據中心而言,需要突破 SSD/硬盤容量和瓶頸的同時提升服務器/存儲系統的可擴展能力,需要構建高可靠、低成本的存儲方案與服務,有
56、效地激活數據價值。在服務器中,大容量機械硬盤是海量數據的有效載體。機械硬盤的容量在持續增長。數字中國萬里行發現,目前希捷的企業級銀河系列 20TB 硬盤已經開始大量部署。預計 2023 年底,希捷將發布 30TB 容量的硬盤。隨著硬盤容量的不斷增長,系統散熱、風扇設計、噪音振動等挑戰接踵而至,對服務器架構的設計提出了更高的要求,硬盤廠商與服務器廠商需要更緊密協作,尋求硬盤和服務器的“更優兼容”,以保證整體解決方案的性能和穩定性。而在有些場景中,機械硬盤無法滿足現代工作負載對于數據訪問更高速度的需求,同時機械硬盤還會占據數據中心的較大空間,會增加空間、電源、散熱和備件更換方面的成本。為了追求更高
57、的帶寬、更短的延遲,SSD 的應用日趨廣泛。SSD 擅長應用在高IOPS、高吞吐量的場景中,常見的如數據庫和云計算/虛擬化,以及熱門的 AI、高性能計算,還有搜索等。雖然 SSD 的性能增長速度、成本下降速度遠遠超過機械硬盤的發展速度,但到目前為止,SSD 的單位容量價格依然與硬盤有著數量級的差距。SSD 與硬盤各自的特點需要各自繼續發展,而彼此之間的落差,也急需填補。+從“東數西存”到“東數西算”,促使更多行業和企業重視數據,帶動數據存儲、管理、使用的需求增長。用戶對數據存儲容量、數據傳輸速度、硬件設備性能等各方面有了新的認知。2023 新型算力中心調研報告 算力經濟時代的基礎設施新價值23
58、從硬盤角度,值得一提的是希捷的熱輔助磁記錄技術(英文縮寫為“HAMR”),它是未來實現更高容量硬盤的關鍵技術。該技術通過不斷增加硬盤的面密度和存儲容量,打造新一代高性能硬盤。HAMR 硬盤在讀寫速度、性能、可靠性、穩定性等方面均表現卓越,是非常重要的一個存儲技術創新,增加了可用存儲區域的數據存儲量即俗稱的磁盤“磁密度”。磁密度的提升將有助于在下一個十年推動硬盤產品的發展和增長。根據希捷最新公布的技術路線圖,HAMR 技術將幫助希捷在未來四年中翻倍提升硬盤單碟容量,為市場提供更大容量的存儲產品,同時降低數據存儲成本。以今天 20TB 硬盤為例,目前每個碟片承載 2TB的容量,需要 10 個碟片,
59、而在 4 年后,5 個碟片就可以實現 20TB的存儲量,總體擁有成本將得到顯著降低。SSD 的發展也多面開花。其一,通過接口、控制器的迭代(如正在進入市場的 PCIe 5.0 接口)繼續提升 SSD 的整體性能。其二,通過NAND Flash 介質的 3D 堆疊進一步提升存儲密度和單芯片的接口速度。譬如在 2022 年中,各大廠商普遍將堆疊層數推進到了 200 層以上,在 2023 年初的 ISSCC 會議上,SK 海力士還發表了關于 300層產品的論文。其三,NAND 的多值化進一步提升了 SSD 的容量并降低單位容量成本,譬如 Intel 在 2020 年通過 QLC 技術將 SSD單盤容
60、量推至 30.72TB;在 2023 年,Solidigm 推出第四代 QLC NAND,堆疊 192 層,單芯片容量達到 1.3Tb,SSD 的單盤容量將會+24進一步提升;面向未來的 PLC 技術,也已經有了樣品,在剛剛結束的 CFMS2023 中,Solidigm 宣稱 PLC SSD 進行 1000PE 擦寫和高溫老化后的數據保持能力依舊可以滿足需求。不斷追求高密度、低成本、低功耗,符合雙碳政策引導之下的綠色數據中心需求。從 SSD 廠商視角,“硬盤替代”是 QLC、PLC 甚至 HLC 等技術不斷發展的驅動力。硬盤廠商則希望將單位容量成本的優勢盡量延續。而對于用戶而言,在成本制約下,
61、“存力”的容量與性能兩個維度是存在矛盾的追求容量的場景,適合部署大量的硬盤,但需要付出空間和性能的代價;追求性能的場景,對 SSD 的使用需要精打細算、物盡其用。當然,更現實的情況是結合 SSD 和硬盤的特點,進行混合部署。二者的結合,也從早期的“分工協作”(將不同特點的業務安排在不同的陣列/節點),逐步演化為“取長補短”(存儲分層)。軟件定義存儲顛覆了傳統的應用觀念,存儲性能的分層對最終用戶趨于透明,主要基于硬件冗余實現的存儲安全機制也被重構,從而釋放出更多資源(容量、性能)供用戶使用??梢哉f,如何充分釋放“存力”的價值,應用水平、運維管理能力也是至關重要,可以將其視為度量“存力”的“隱形維
62、度”。數據中心高效的核心是算力和存力的協同調度,計算與存儲高度融合,方能充分發揮生產力,真正形成核心競爭力。在從介質到數據中心的綿長產業鏈條當中,每一個環節都在思考如何為客戶提供更大的價值。高安全數字基礎設施是趨勢數字中國建設整體布局規劃明確,數字中國建設按照“2522”整體框架布局,強調強化數字中國關鍵能力,構筑自立自強的數字技術創新體系,筑牢可信可控的數字安全屏障。近年來,隨著網絡安全法、數據安全法、個人信息保護法出臺,將我國數據安全保護及管理要求提升至新的高度。同時,“十四五”以來,國家出臺多項政策要求加快培育數據要素市場,建立高效共享的普惠型數據要素市場。構建高安全可控的數字基礎設施,
63、是維護、夯實數字基礎設施和數據資源體系的重要保障,是發展數字經濟的重要技術支撐。根據 IDC 2023 年全球數字政府十大預測,到 2024 年,由于經濟和地緣政治事件,45%的國家政府將認為“數字主權對于保護關鍵國2023 新型算力中心調研報告 算力經濟時代的基礎設施新價值+25家基礎設施以提高國家生存能力至關重要”。數字主權關系到國家的未來,數字主權上升到前所未有的高度。注釋:根據 IDC 的定義,數字主權涵蓋多個層次,包括數據主權、技術主權、運營主權、業務可用主權、供應鏈主權和地域主權。通過多個層次的建設,達到數字主權的不同階段,最終實現從自控(self-determination)、自
64、足(Self-sufficiency)到自生(Sur vivability)。在 IDC2023 年全球數字基礎設施未來十大預測預測報告中也提到了業務導向、安全的相關的預測,包括:到 2023 年,80%的 G5000 基礎設施客戶將采取積極的多源策略來保護自己免受未來 IT 供應風險的影響。到 2025 年,70%的 G2000 客戶將優先考慮主權云的可信基礎設施,以確保特定敏感業務、數據的安全性和本地法規遵從性。到 2026 年,65%的技術買家將優先考慮基礎設施即服務的消費模式,以幫助抑制 IT 支出增長,并填補 IT 人才缺口。注釋:G5000 指的是 global 5000,就是全球
65、 5000 強的大公司。隨著國產處理器、國產操作系統、國產數據庫的發展和成熟,在黨政機構、能源、金融等關鍵行業領域,實現了高安全數字基礎設施的“從無到有、從有到優”,高安全數字基礎設施成為建設數字中國的重要力量。數字中國萬里行在考察調研多個政府數據中心和采訪國內頭部擁有自主技術的廠商后分析得出,高安全數字基礎設施包含以下關鍵要素:可信可控具備高水平自立自強的數字創新體系,實現在云、計算、存儲、網絡、安全、數據、智能等關鍵核心技術攻關,擁有所有的技術資料、知識產權、源代碼,云平臺中不存在惡意后門并可以不斷改進升級,不受制于其他技術壁壘。原生安全安全效果不能依靠單一技術或產品來解決,需要依靠“系統
66、論”思想,進行體系性建設。通過搭建云平臺原生安全、可信安全、云原生安全產品、合規安全等構建可信云原生安全架構??尚旁圃踩軜嬀邆渌拇蠛诵脑踩芰Γ嚎尚虐踩?、云原生安全、數據原生安全、智能安全。+80%70%65%2023 年,G5000 基礎設施客戶將采取積極的多源策略2025 年,G2000 客戶將優先考慮主權云2026 年,買家將優先考慮基礎設施即服務的消費模式26統合算力通過構建自主可控的算力調度服務平臺,逐步開展異構云資源納管,系統優化算力基礎設施布局,對通用算力、超算、智算、邊緣數據算力等算力資源進行統一調配,實現數據資源高效配置,數據要素加速流通,數據價值全面釋放,數據安全
67、有效保障。數智融通數據和人工智能是數實融合的關鍵,數智能力需要融入數字基礎設施,構建云、網、智、算融合體系的數字經濟基礎底座。加大對大數據、人工智能、5G、區塊鏈等數字技術的創新應用,利用AI 技術激活數據價值,加快釋放行業數字化生產力,實現質量、效率和動力變革。以中國電子云為代表的中國信創云為例,依托中國電子自主計算產業體系,中國電子云走自主技術創新的道路,從云數融合、市場牽引到商業成功,秉承跟隨到超越的產品體系理念,在數字基礎設施建設運營、數據資源體系規劃建設、數字技術的創新應用等方面全面布局,體現出以下優勢:全棧自研產品及自主技術。依托中國電子自主計算體系及豐富的網信產業資源,中國電子云
68、能夠縱向打穿整個自主計算產業生態鏈,通過跨產線、跨企業的組合性產品解決方案,將各個單點優勢再結合,形成電子云的整體優勢,以云化形式對外輸出中國電子整體自主核心技術和產品能力。全棧分布式云原生架構。中國電子云整體架構體系貫徹云原生、安全原生、數據原生的理念,打造具有分布式云原生、云數融合和原生安全三大關鍵技術優勢的全棧分布式云,不斷提升專屬云運營質量。通過分布式云原生云操作系統CCOS,以及軟硬一體的“雨燕架構”共同支撐,提供統一技術服務底座。其中,云管理平臺與云服務使用 Go 語言全面重構,實現內存開銷減少 45%,CPU開銷減少 30%;基于容器微服務的系統高可用,實現云服務與云管平臺的全
69、Operator 化;基于容器操作系統實現計算虛擬化產品,實現容器、虛擬機同平臺管理和統一調度能力。靈活部署與規模優勢,功能全面和性能提升兼容并蓄。中國電子云專屬云 CECSTACK 可實現單集群、同架構從 3 臺到 30 萬臺平滑線性進化,同時在多集群管理、多集群調度,以及在性能、損2023 新型算力中心調研報告 算力經濟時代的基礎設施新價值27耗和靈活性等方面具有優勢。例如,通過對大數據計算集群基于云底座的容器化改造,合并大數據集群到云資源池,有效解決潮汐算力問題,提升算力利用率,降低存儲空間。落實“云數融合”。中國電子云”現有產品體系包含三層,一是提供算力基礎平臺的產品,包括專屬云 CE
70、CSTACK、超融合CeaCube、云原生分布式存儲 CeaStor、云原生安全 CeaSEC 等;二是提供數據管理平臺的產品,包括飛瞰數據中臺、飛思 AI 智能中臺、云數據庫平臺 CeaSQL、大數據平臺 CeaInsight 等;三是在業務層可提供各種商業模式和業務架構的分布式云全棧全域解決方案,包括運營云、專屬云、分支云、邊緣云等。同時產品性能具備國內國際競爭力,例如,中國電子云 Ceastor 18116E 全閃存儲產品在 SPC-1 認證測試中集群(30 節點)性能 1000 萬IOPS、時延 500s,在全球分布式存儲廠商中位列世界第一。并且具備無限擴展的能力。作為首個大型央企全棧
71、信創云數字 CEC,中國電子云采用全棧信創,成為中國信創云的“創新者+實踐者”,通過構建安全、高效、協同的“數字 CEC 管理體系”,服務大型央企數字化,打造集團數字化底座,支撐中國電子集團及 687 家成員單位,服務 21 萬中國電子員工。2022 年,中國電子云信創產品及技術已經演進為可支撐國家重大項目、支撐關鍵行業數字化,包括國家部委項目、省級信創云項目,能源、金融等關鍵行業。綠色低碳持續推廣東數西算是促進綠色節能,助力實現碳達峰、碳中和目標的重要手段?!皷|數西算”工程聚焦創新節能,在集約化、規?;?、綠色化方面著重發力,支持高效供配電技術、制冷技術、節能協同技術研發和應用,鼓勵自發自用、
72、微網直供、本地儲能等手段提高可再生能源使用率,改善數據中心電能利用率(PUE),引導其向清潔低碳、循環利用方向發展,推動數據中心與綠色低碳產業深度融合,建設綠色制造體系和服務體系,力爭將綠色生產方式貫徹數據中心全行業全鏈條,助力我國在 2060 年前實現碳中和目標。在“東數西算”政策引導下,部分計算業務將逐漸向西部遷移,而那些調用頻次高、對網絡時延要求極高的業務,又要求數據中心不能離+東數西算是促進綠色節能,助力實現碳達峰、碳中和目標的重要手段?!皷|數西算”工程聚焦創新節能,在集約化、規?;?、綠色化方面著重發力,支持高效供配電技術、制冷技術、節能協同技術研發和應用,鼓勵 自 發 自 用、微 網
73、 直供、本地儲能等手段提高可再生能源使用率。28經濟發達地區太遠;還有智能制造、科學探索、生物制藥、自動駕駛、數字孿生等場景等基于人工智能的新應用和場景實現,需要面向 AI 的算力基礎設施,仍需要本地數據中心承擔。強算力通常意味著高能耗。當數據中心的算力大幅度提升,CPU/GPU 功率和服務器的功耗也在增加。在雙碳背景下,數據中心也迎來轉型的關鍵期。雙碳不僅是環保概念,更是決定技術路線。西部擁有豐富的可再生資源(風能、太陽能等),并可利用氣候優勢來幫助數據中心散熱;東部數據中心綠色化發展則更多需要從節能技術創新、優化節能模式入手,來降低數據中心的能源消耗。作為更高效的冷卻方式,液冷日益受到廣泛
74、關注。液冷是以液體作為熱量傳導媒介,通過冷卻液與服務器發熱部件直接或者間接接觸的方式換熱,將熱量帶走的一種服務器散熱技術。目前數據中心液冷典型方式為冷板式液冷和浸沒式液冷。從液冷的優勢來看,可以有效提升服務器的使用效率和穩定性,實現數據中心節能、降噪,不受海拔和地域等環境影響,液冷并有助于提高數據中心單位機柜的服務器密度,大幅提升數據中心的運算效率,更適合高密度功率且有節能要求的數據中心。傳統風冷冷卻技術成熟,冷板式冷卻技術對數據中心架構和機柜結構所需改變較少,未來一段時間內,風液混合成為數據中心首選。強算力通常意味著高能耗。當數據中心的算力大幅度提升,CPU/GPU 功率和服務器的功耗也在增
75、加。在雙碳背景下,數據中心迎來轉型的關鍵期。+2023 新型算力中心調研報告 算力經濟時代的基礎設施新價值29浸沒式液冷技術需要對數據中心架構做較大調整,更適合新建設的數據中心。大型互聯網和云計算公司主導的超大規模數據中心,將對液冷服務器的普及產生決定性影響。以數字中國萬里行團隊實地考察的阿里巴巴浙江云計算仁和液冷數據中心為例,有一棟機房樓專用于部署單相浸沒式液冷服務器,服務器被浸泡在特殊的絕緣冷卻液里,運算產生的熱量可被直接吸收,經過與外循環的交換帶走,無需風扇、空調、冷機等,全程用于散熱的能耗幾乎為零 根據官方提供的數據,PUE可低至 1.09,每年可節電 7000 萬度,節約的電力可以供
76、西湖周邊所有路燈連續亮 8 年。能源與算力協同隨著數據中心的計算和處理能力不斷加強,對能源的需求也就越來越大。2022 年數字中國萬里行考察中發現,云服務商通過技術驅動實現“數據中心節能”和“數據節能”,構建智能、綠色、高效能的基礎設施以提升可持續性。目前東部算力需求旺盛,但東部地區在氣候、資源、環境等方面、不太利于低碳、綠色數據中心的建設。通過算力基礎設施向西部遷移,可以充分發揮西部地區在氣候、能源、環境等方面的優勢,引導數據中心向西部資源豐富地區聚集,擴大可再生能源的供給。當然東部區域也在盡其所能。以長三角區域為例,騰訊云儀征東升數據中心分布式光伏項目已經全容量并網發電。該項目充分利用 8
77、 棟大平層機房樓的屋頂面積,共計安裝光伏組件 2 萬 8 千多塊,總裝機容量近 13 兆瓦,是江蘇省目前最大的數據中心屋頂分布式光伏項目。每個屋頂還配有光伏組件自動清洗機器人,保持光伏組件清潔度,實現光伏系統的自動化高效運維。在北京,中國電子信創云基地也最大化利用可再生能源,信創云基地在樓體立面布置了單晶光伏組件,為園區照明辦公系統提供電能供應,由綠色能源保證了辦公等輔助用電,為降低PUE做出了貢獻。除此之外,水源熱泵技術通過將信創云基地內服務器產生的熱能進行回收再利用給辦公等輔助區域供熱使用,積極響應了國家“雙碳”政策要求。目前,對清潔能源的開發利用還有較大提升空間。由于光伏和風力等可再生能
78、源的不穩定特點,我國西北部地區每年棄風棄光電量約 125 0能耗1.097000萬度全程用于散熱的能耗幾乎為零PUE 可低至 1.09每年可節電 7000 萬度+30億度,如果在這些地方依托電廠和電網布局就近建設大型以上數據中心,并利用儲能系統和調度系統創新解決穩定負載的柔性供能問題,可以促進可再生能源開發利用,有效降低中西部地區棄風和棄光電量,進一步減少碳排放。數據中心把能源轉化為算力,瓦特轉化為數字比特,成為數字化的基礎設施。數字中國萬里行考察中發現,基于云計算的發展,促進了能源行業的數字化和智能化的發展。加快能源數字化平臺建設,可推動能源生產、傳輸、存儲、銷售、使用等整個數字化的升級過程
79、,為各級政府“雙碳”治理、產業綠色低碳發展提供強有力的支撐。比如中國電子云與華電電科院、華電南自華盾公司合作開發的國內首個行業級自主可控燃機智慧運維云平臺正式上線。平臺對標國際知名燃機診斷運維平臺,全面采用了自主可控的基礎軟硬件產品和內生安全的中國電子云平臺,以“云邊部署,多級應用”的原則,采用“1+N”的云邊協同架構,在電廠側重點建設預警診斷、性能分析、運行優化等 9 大業務模塊;在集團側重點建設決策中心、監管中心等 4 大中心;在行業側重點建設燃機診斷運維服務平臺和生態,推動了燃氣發電行業的數字化、智能化發展,助力傳統電廠向智慧電廠升級,支持新產業、新模式、新業態的創新發展,為國家的“雙碳
80、”目標和能源安全做出央企應盡的責任和義務。從 2018 年到 2022 年,數字中國萬里行始終關注云計算、人工智能高速發展下的技術應用趨勢和算力演進。進入算力經濟時代,無論是人工智能大模型還是數字經濟持續發展,對算力中心提出更高的挑戰,建設高效集約、普適普惠的新型基礎設施,不僅成為行業共識,行業從業者更是通過實踐推動計算力向綠色化和集約化方向加速演進。+2023 新型算力中心調研報告 算力經濟時代的基礎設施新價值31CHAPTER2多元算力CPU+GPU2023 新型算力中心調研報告32多元算力:CPU+GPU超級計算(SuperComputing,SC),即人們常說的超算或者高 性 能 計
81、算(High Performance Computing,HPC),被 譽 為計算機界“皇冠上的明珠”,合稱 ABC 的人工智能(Artificial Intelligence,AI)、大 數 據(Big data)和 云 計 算(Cloud computing)都受益于超算領域的探索。超算系統追求完成(特定)任務所需的算力和效率,為其構建的數據中心(超算中心)通常規模不是很大但具有很高的密度。從數據中心建設的角度,我們可以把云計算中心視為超算中心在通用算力方向上的大規?;虺笠幠0姹?,而智算中心與超算中心相比也有以(算力)精度換規模的成分。ChatGPT 的爆火讓智算中心的熱度再次走高,GP
82、U 更是成為大廠們爭搶的對象。GPU 不僅是智算中心的靈魂,在超算領域的應用也越來越普遍。在 2023 年 5 月下旬公布的最新一屆 TOP500 榜單中:使用加速器或協處理器的系統從上一屆的 179 套增加到 185套,其中 150 套使用了英偉達(NVIDIA)的 Volta(如 V100)或 Ampere(如 A100)GPU;榜單前 10 名中有 7 套使用了 GPU,前 5 名中也只有第二名沒有借力 GPU。+超算系統追求完成(特定)任務所需的算力和效率,為其構建的數據中心(超算中心)通常規模不是很大但具有很高的密度。從數據中心建設的角度,我們可以把云計算中心視為超算中心在通用算力方
83、向上的大規?;虺笠幠0姹?,而智算中心與超算中心相比也有以(算力)精度換規模的成分。2023 新型算力中心調研報告 多元算力:CPU+GPU MareNostrum 5 的介紹有很多值得關注的信息,譬如 65 千瓦和 100千瓦的單柜功率,以及冷板式液冷(DLC)和液冷后門33當然,CPU 依然不可或缺.仍以榜單前 10 名為例,AMC EPYC 家族處理器占了 4 套,英特爾至強家族處理器和 IBM 的 POWER9 各占 2套,Arm 也有 1 套(富士通 A64FX)且高居第二。通用算力與智能算力相輔相成,可以適應多變的算力需求。以歐洲高性能計算聯合事業(EuroHPC JU)正在部署的
84、MareNostrum 5為例:基于第四代英特爾至強可擴展處理器的通用算力計劃于 2023 年 6 月開放服務,基于 NVIDIA Grace CPU 的“下一代”通用算力,以及第四代英特爾至強可擴展處理器與 NVIDIA Hopper GPU(如 H100)組成的加速算力,也將于 2023 年下半年投入使用。GPU:大芯片與小芯片英偉達在GPU市場上占據統治地位,不過AMD和英特爾也并未放棄。仍以最新的 TOP500 榜單前 10 名為例,4 套基于 AMC EPYC 家族處理器的系統中,搭配 AMD Instinct MI250X 與 NVIDIA A100 的各有2 套,前者的排名還靠前
85、,分居第一、三位。但是英偉達 GPU 在 AI 應用上的優勢就要顯著得多,GTC2022 上發布的 NVIDIA H100 Tensor Core GPU 進一步鞏固了其領先地位。H100 GPU基于英偉達Hopper架構,采用臺積電(TSMC)N4制程,具有多達 800 億晶體管,算、存、連全方位提升:132 個 SM(Streaming Multiprocessor,流式多處理器)、第4 代 Tensor Core,每時鐘周期性能翻倍;比前代更大的 50MB L2 緩存與升級到 HBM3 的顯存,組成新的內存子系統;第 4 代 NVLink,總帶寬達 900GB/s,支持 NVLink 網
86、絡,PCIe也升級到 5.0。英特爾也終于在 2023 年 1 月,與第四代英特爾至強可擴展處理器和英特爾至強 CPU Max 系列一起,推出了代號 Ponte Vecchio 的英特爾數據中心 GPU Max 系列。英特爾數據中心 GPU Max 系列利用英特爾的Foveros和EMIB技術構建,在單個產品上整合47個小芯片,集成超過 1000 億個晶體管,具有多達 408MB 的 L2 緩存和 128GB 的HBM2e 顯存,充分體現了 Chiplet 的理念。+NVIDIA Hooper 架 構 的H100 GPU 核心區(die)34CPU:性能核與能效核作為通用算力的代表,面對不同應
87、用場景的需求,也漸呈多元化的趨勢。先后在手機、PC(含筆記本電腦)等終端產品中得到驗證的“大小核”架構,也開始在服務器 CPU 市場形成潮流。當然,服務器的特點是“集群”作戰,并不(迫切)需要在同一款 CPU 內部實現大小核搭配,主流廠商正在用全是大核(突出單核性能,偏重縱向擴展)或小核(注重核數密度,偏重橫向擴展)的 CPU 去滿足不同的客戶需求。作為 big.LITTLE 技術的發明者,Arm 把異構核的理念帶入服務器CPU 市場,也已經有年頭了。Arm 的 Neoverse 平臺分為三大系列:Neoverse V 系列用于打造高性能 CPU,為追求高性能的計算和內存密集型應用程序的系統提
88、供盡可能高的每核心性能。主要面向高性能計算(HPC)、人工智能/機器學習(AI/ML)加速等工作負載。Neoverse N 系列關注橫向擴展性能,提供經過優化的平衡的CPU 設計,以提供理想的每瓦性能。其主要面向橫向擴展云、企業網絡、智能網卡/DPU 和定制 ASIC 加速器、5G 基礎設施以及電源和空間受限的邊緣場景。Neoverse E 系列期望以最小的功耗支持高數據吞吐量,面向網絡數據平面處理器、低功耗網關的 5G 部署。+Arm Neoverse 三大系列核心架構2023 新型算力中心調研報告 多元算力:CPU+GPU35如果把應用場景限定在規模較大的云計算中心和智算中心、超算中心,相
89、對側重單核(縱向擴展,Scale-up)的V系列,與側重多核(橫向擴展,Scale-out)的 N 系列,完全可以視為大小核架構在數據中心市場的實踐。目前,比較有代表性的 V 系產品包括 64 核的 AWS Graviton3(推測V1)和 72 核的 NVIDIA Grace CPU(V2),N 系產品除了 128 核的阿里云倚天 710(推測 N2),還在 DPU 中獲得了較為廣泛的應用。2023 年 5 月中發布的 AmpereOne 采用 Ampere Computing 公司的自研(A1)核,從其最多 192 個核心來看,更接近 Neoverse N系的風格。英特爾在面向投資者的會議
90、上也公布了類似的規劃:定于 2023 年第四季度推出的第五代英特爾至強可擴展處理器(代號 Emerald Rapids),和預計 2024 年推出、代號 Granite Rapids 的更新一代產品,將延續目前的性能核(Performance-Core,P-Core)路線;預計 2024 年上半年推出、代號 Sierra Forest 的 CPU,將是第一代能效核(Efficient-core,E-Core)至強處理器,具有144個核心。第五代英特爾至強可擴展處理器與第四代共平臺,易于遷移,而Granite Rapids 和 Sierra Forest 都將采用 Intel 3 制程。P-Co
91、re與E-Core的組合已經在英特爾的客戶端CPU上得到檢驗,兩者之間一個很大的區別是有無超線程。E-Core 每核心只有一個線程且注重能效,適合追求更高(物理)核密度的云原生應用。+EmeraldRapids預計 2023 年第四季度推出Granite Rapids預計 2024 年推出Sierra Forest預計 2024 年上半年推出36AMD 的策略大同小異。2022 年 11 月 AMD 發布代號 Genoa(熱那亞)的第四代 EPYC 處理器,具有多達 96 個 5nm 的 Zen 4 核心;在2023年年中,AMD將推出代號Bergamo的“云原生”處理器,據傳有多達 128
92、個核心,通過縮小核心及緩存來提供更高的核心密度。性能核與能效核這兩條路線之間存在著(物理)核心數量的差異,但各自增加核心數則是共識。CPU 核心數量的持續增長要求更高的內存帶寬,僅僅從 DDR4 升級到 DDR5 是不夠的,AMD 第四代 EPYC處理器(Genoa)已經把每 CPU 的 DDR 通道數量從 8 條擴充至 12條,Ampere Computing 也有類似的規劃。100 多核的 CPU 已經超出了一些企業用戶的實際需求,每 CPU 的12條內存通道,在雙路配置下也給服務器主板設計提出了新的挑戰。在多種因素作用下,單路服務器在數據中心市場的份額是否會迎來比較顯著的增長?讓我們拭目
93、以待。AMD 第四代 EPYC 處理器擁有 12 個 DDR5 內存通道,但單路(2DPC)和雙路(1DPC)配置都不超過 24 個內存槽,比 8 內存通道 CPU 的雙路配置(32 個內存槽)還要少。換言之,單 CPU 的內存通道數增加了,雙路配置的內存槽數反而減少了2023 新型算力中心調研報告 多元算力:CPU+GPU37摩爾謝幕,Chiplet 當道摩爾定律放緩“摩爾定律已死”是近幾年來半導體行業內不斷被提起的話題,在提升晶體管密度的過程中,困難實在太多了,尤其是 EUV(Extreme UltraViolet,極紫外)光刻技術的量產曾遭遇多次延遲,大大拖慢了微縮工藝的發展。產業界、學
94、術界在不斷的碰壁、失敗當中,難免發出這樣的哀嘆。幸好半導體行業的增長動力不僅僅來自光刻技術的精進,封裝技術的創新也提供了許多新的思路。譬如以 AMD EPYC 系列處理器為代表的“以小博大”,通過將較小的處理器核心進行組合,甚至將 I/O 單元分開制造,再封裝為一體的方式,實現了不同工藝特性的解耦,并提升了良率,從而讓核心數量的增長駛上了快車道。這種理念被稱為:Chiplet(小芯片)。在數據中心 CPU 市場,AMD EPYC(霄龍)家族處理器的成功,使得 Chiplet 技術廣為人知,也不可避免的產生了一些誤解。然而,這種多個die(芯粒、晶片)封裝為一個整體的技術,并不是憑空出現的。Ch
95、iplet 簡史光刻技術之外的創新重新喚起了業界對半導體未來發展速度的期待,諸如 More Moore(深度摩爾)、More than Moore(超越摩爾)等等,當然,也包括材料等創新,所謂 Beyond CMOS(新器件)?;氐?Chiplet,“過來人”可能會認為:在一個封裝基板上放置若干核心并不是什么新鮮事,譬如英特爾(Intel)在消費級的 Pentium D、Pentium Extreme Edition(EE)上就實現了“膠水雙核”;再往前看,Pentium Pro 的處理器內核和 L2 Cache(緩存)也是兩顆獨立的裸晶封裝在一起這是 1995 年的事情。+38確實,從制造角
96、度而言,Chiplet 算不上創新,MCM(Multi-Chip Module)、SiP(System in Package)已經存在多年了。先進封裝是提升芯片規模的基礎,而 Chiplet 則是一種設計理念。Chiplet 要做的是充分利用先進封裝技術,實現芯片架構或系統架構的創新。創造 Chiplet 這個概念,其實是向以往單一追求晶體管微縮、追求晶體管規模的發展方式告別,更強調以合理的方式、合理的成本實現目標。過去的 MCM 更像是一種權宜之計,當晶體管微縮能力進一步提升后,出于性能和成本的考慮,曾經分立的器件會再度被整合到一片裸晶之內,前面提到的Pentium Pro、Pentium
97、D的形態,在之后十年并未復現。而現在的 Chiplet,則是一條明確的長期演進路線,多芯粒的組合將是常態。Chiplet 之路不會反復的原因主要有:1、高性能、高并發的需求使得數據中心、超算等領域對增加核心規模和數量的需求非常迫切,不論光刻工藝如何精進,頂級供應商都會傾向于將晶體管數量和裸晶面積堆砌到工程上難以負+核心代號 Presler 的 Intel Pentium D 處理器 Intel Pentium Pro 處理器,封裝左側為核心,右側為緩存2023 新型算力中心調研報告 多元算力:CPU+GPU39荷的程度。通過微縮減少裸晶面積、降低單位成本,并不是高性能產品主要的考慮方向。2、2
98、8nm 制造工藝之后,微縮已經無法降低單位晶體管的生產成本。另外,不同特點的器件在微縮中的收益也并不相同。譬如a)I/O 部分適用于較成熟的工藝;b)運算器件可以明顯受益于先進工藝;c)存儲器件介于上述二者之間,且主流存儲器本質上是電容,即便使用先進工藝,也不能獲得如邏輯器件那樣顯著的面積縮小效果。而高性能處理器對存儲帶寬及容量、I/O 帶寬及數量的要求也越來越高,SRAM、存儲控制器、I/O 控制器及 PHY(物理層)所占用的晶體管數量、面積已經大到不可忽視的程度。3、Chiplet 的芯??梢詰玫蕉嗫町a品上,增加了產品開發的靈活性。譬如 AMD 的 CCD 和 IOD 可以按需組合,同代
99、的消費級(Ryzen)和服務器 CPU(EPYC)可以使用相同的 CCD,但數量不同,并搭配不同規模的 IOD。隨著業界對先進封裝的應用越來越熟練,芯粒正在進一步細分,如 GPU、內存控制器、PHY等單元都有獨立出來的實例,一塊芯片內封裝十顆以上的芯粒將是常事。進一步的,IP開發者可以不僅僅是向芯片設計者出售授權,而是可以將受歡迎的 IP 核“硬化”為芯粒,并將這些芯粒直接提供給封裝環節。4、芯粒的標準化集成也促進了標準化接口的產生。早期的 Chiplet是芯片所有者的“家務事”,其使用自有接口、自有總線,捆綁特定晶圓廠、封裝廠進行生產。但隨著第三方IP的硬化和集成越來越多,芯粒之間 I/O
100、的標準化就成為必選項。簡而言之,芯粒的“通用化”和接口的“標準化”賦予 Chiplet 旺盛的生命力,Chiplet 不僅僅是頂級企業、頂級產品的專屬,而會出現在廣泛的產品當中。未來芯片的基板就如同過去的主板一般,將承載多種不同的芯粒。+高性能、高并發的需求使得數據中心、超算等領域對增加核心規模和數量的需求非常迫切,不論光刻工藝如何精進,頂級供應商都會傾向于將晶體管數量和裸晶面積堆砌到工程上難以負荷的程度。通過微縮減少裸晶面積、降低單位成本,并不是高性能產品主要的考慮方向。40四等分:形似神不似在2021 中國云數據中心考察報告的第二章“多元算力”篇,提到了代號 Naples(那不勒斯)的 A
101、MD 第一代 EPYC 處理器,與代號 Sapphire Rapids(SPR)的第四代英特爾至強(Xeon)可擴展處理器,在四等分這個視角上的相似性。隨著第四代英特爾至強處理器在 2023 年 1 月中旬正式發布,架構細節逐漸公開,下面簡單比較一下異同。第 一 代 EPYC 處 理 器 采 用 14nm 制 程,由 4 個 CCD(Core Complex Die,核心復合體)組成,CCD 的中間是 8 個 CPU 核心及其緩存(Cache),I/O分布在外圍,包括雙通道DDR內存控制器、用于晶片間互聯的 IFOP(Infinity Fabric On-Package)、PCIe 控制器或用
102、于 CPU 之間互連的 IFIS(Infinity Fabric Inter-Socket)。這4個CCD理論上是一樣的,可以視為同一款(SKU)。在布局上,其中的半數要水平旋轉 180,以保證 4 個 CCD 上的 8 個 DDR 內存控制器“一致對外”,滿足內存插槽物理布局的需要。代價是 PCIe控制器或 IFIS 的走線不好布置,需要借助分層來避免交叉。AMD 將 上 述 架 構 命 名 為 多 芯 片 模 塊(Multi-Chip Module,MCM),同樣由 4 個 die(晶片)對等拼接而成的第四代英特爾至強可擴展處理器就已經或主動或被動的歸類為 Chiplet了。這當然主要歸因
103、于歷史的進程,但也有微小的“個體努力”造成的差異。+第一代 EPYC 處理器用 1 種 die 滿足了 4 die 組合的需求,代價是布線難度加大,各 die 也會空置一個 IFOP2023 新型算力中心調研報告 多元算力:CPU+GPU41第四代英特爾至強可擴展處理器采用 10nm 級別的 Intel 7 制程,分MCC和XCC兩大構型,后者才是Chiplet版本:由4個die拼接而成,最多可達 56 60 核心。這 4 個 die 也排列為 22 的矩陣,但與第一代 EPYC 處理器的不同之處在于,XCC 構型的第四代至強可擴展處理器由 2 種互為鏡像的晶片構成,在對角線上的 2 個是同一
104、款(SKU)。Chiplet 與芯片布局在 CPU 的 Chiplet 實現上,AMD 和英特爾都和大家有“點”不一樣。從代號羅馬(Rome)的第二代 EPYC 開始,AMD 將 DDR 內存控制器、Infinity Fabric 和 PCIe 控制器等 I/O 器件從 CCD 中“抽取”出來,集中到一個單獨的 die 里,居中充當交換機的角色,即 IOD(I/O Die),這部分從制程提高到 7nm 中獲益很小,仍然采用成熟的14nm 制程;CCD 內部的 8 個核心加(L3)緩存所占面積由 56%提高到 86%,可以從 7nm 制程中獲得較大的收益。IOD 和 CCD 分開制造,按需組合,
105、“解耦”帶來的優點有很多:獨立優化:可以按照 I/O、運算、存儲(SRAM)的不同要求分別選擇成本適宜的制程,譬如代號 Genoa(熱那亞)的第四代+第四代英特爾至強可擴展處理器的 Chiplet 實現42EPYC 處理器就分別“進化”為 5nm 制程的 CCD 搭配 6nm 制程的 IOD;高度靈活:1 個 IOD 可以搭配數量不等的 CCD,以提供不同的CPU 核心數,譬如代號 Rome(羅馬)的第二代 EPYC 處理器,最多支持 8 個 CCD,但也可以把數量減少到 6、4、2 個,總之能輕松自如的提供 8 64 個核心。如果將這個 CCD 看作 8 核的 CPU,IOD 看作原來服務器
106、中的北橋或 MCH(Memory Controller Hub),第二代 EPYC 就相當于一套微縮到封裝里的八路服務器,用這種方法構建 64 核,難度比在單個 die 上提供 64 核要低多了,還有良率和靈活性上的優勢。擴大規模也更為容易:在 IOD 的支持下,通過增加 CCD 的數量,可以“簡單粗暴”地獲得更多的 CPU 核心,譬如第四代 EPYC 處理器就憑借 12 個 CCD 將核心數量擴展到 96 個。+AMD 第四代 EPYC 處理器,12 顆 CCD 環繞 1 顆 IOD2023 新型算力中心調研報告 多元算力:CPU+GPU43第二至四代 EPYC 以 IOD 為中心連接多個較
107、小規模的 CCD,是比較典型的星形拓撲結構。這種架構的優勢在于 IOD 及其成本,增加PCIe、內存控制器的數量比較容易;劣勢是任意核心與其他資源的距離太遠,帶寬和時延會受限。在 AMD 享有明顯的制程優勢(并體現在核數優勢)的時候,EPYC 家族處理器即使單核性能略遜,多核性能依舊能相對優異。但隨著英特爾的制造工藝改進,或者其他架構競爭者(如 Arm)的大核性能提升,AMD 的核數優勢有被削弱的趨勢,目前的多核性能優勢恐難以保持。在過去幾年中,AMD借助較小的CCD以較低成本實現了橫向擴展(總核數提升),未來的可持續性尚待觀察。目前其他幾家的多核 CPU在布局上普遍采取網格化的思路,實現核心
108、、緩存、外部 I/O(包括內存、PCIe 等)的快速互聯,減小任意核心與其他核心或 I/O 資源的訪問距離,從而更有效地控制時延(latency)。網格架構:Arm 與 Intel作為 x86 陣營的帶頭大哥,英特爾從開啟至強可擴展處理器系列至今,四代產品都基于網格(2D Mesh)架構。致力于顛覆 x86 在服務器 CPU 市場霸主地位的 Arm 陣營,所采用的 Corelink 互連方案 CMN(Coherent Mesh Network,一致性網格網絡),顯然也是一種網格架構。(2D)Mesh 是水平(X)和垂直(Y)方向的連線組成的二維交換矩陣,其中的一個個交叉點(Crosspoint
109、,XP)用以連接 CPU/Cache、DDR/PCIe 控制器等設備。出于布線方便等考慮,內存控制器、PCIe 控制器、UPI/CCIX 等負責對外 I/O 的設備都布置在最外面一圈,其他交叉點留給 CPU 和緩存(Cache)等“核心資產”。顯然,網格的規模越大,交叉點就越多,可以布置的 CPU、緩存、I/O 資源也就隨之增加。譬如:至強可擴展處理器從第一代的 66 矩陣發展到第三代的 78 矩陣,核心數從 28 個擴展至 40 個,DDR 內存控制器和 PCIe 控制器的數量也有所增長;代號 Genoa 的 AMD 第四代 EPYC 處理器44Arm Neoverse 平臺從 CMN-60
110、0 的 88 矩陣升級到 CMN-700的 1212 矩陣,支持的每 die 核心數從 64 個增長到 256 個,系統級緩存(System Level Cache,SLC)容量也從 128MB 提高到 512MB。隨著矩陣規模的擴大,居中的核心訪問 I/O 資源的路徑也會有所延長,但通過增加 I/O 資源數量并優化其分布及訪問策略等手段,可以較好的抑制時延增長。同樣是網格架構,Arm 和英特爾在細節上還是有些值得注意的不同,主要體現在節點(交叉點)上。CMN-700 每個交叉點上的設備從 CMN-600 的 2 個增加到3 5 個,以英偉達(NVIDIA)基于 Arm Neoverse V2
111、 的Grace CPU 為例,每個節點通常會有 2 個 CPU 核心及對應的2 片(slice)L3 緩存,在矩陣邊上的節點還很可能會連接內存控制器、PCIe/NVLink 等 I/O 設備。NVIDIA Grace 的 SCF 網格注意:通過 Coherent NVLink,NVIDIA Grace 可支持多達四路 CPU 的一致性+2023 新型算力中心調研報告 多元算力:CPU+GPU45英特爾至強可擴展處理器的每個(非 I/O)節點上只有 1 個 CPU核心及其對應的 L3 Cache,考慮到每個 CPU 核心支持超線程(Hyper-Threading,HT),可以當作 2 個邏輯核心
112、使用,在每個節點上論邏輯核心數量的話,和 Arm 倒是一樣的。Arm 新升:NVIDIA Grace 與 AmpereOneArm 在過去十年中一直期望能夠在服務器市場獲得一席之地。亞馬遜、高通、華為等企業都推出了基于 Arm 指令集的服務器 CPU。隨著亞馬遜的 Graviton、Ampere Altra 等系列產品逐漸在市場站穩了腳跟,Arm 在服務器 CPU 市場漸入佳境。而且,隨著異構計算的興起,Arm 在高性能計算、AI/ML 算力基礎設施中的影響力正在擴大或許,隨著 Neoverse V2 推出和英偉達加入戰團,Arm在服務器 CPU 領域有望從一個參與者變為領先者。早在 2021
113、 年,英偉達就對外介紹了基于 Arm Neoverse 架構的數據中心專屬 CPU NVIDIA Grace,擁有 72 個核心。Grace CPU 超級芯片(Superchip)則由兩個 Grace 芯片組成,它們之間通過 NVLink-C2C(Chip-2-Chip)連接在一起,可以在單插座內提供 144 個核心,以及 1TB LPDDR5X 內存。除了雙 CPU 的組合,在 GTC2022 上,NVIDIA 還宣稱 Grace 可以通過 NVLink-C2C與 Hopper GPU 連接,組成 Grace Hopper 超級芯片。NVIDIA Grace 是基于 Arm Neoverse
114、 V2 IP 的第一款重磅產品。目前還沒看到 NVIDIA Grace 晶體管規模的相關資料,不妨先參照兩位“前輩”的數據。據推測基于 Arm Neoverse V1 的 AWS Graviton 3 是 550 億晶體管,對應 64 核、8 通道 DDR5 內存;據推測基于 Arm Neoverse N2 的阿里云倚天 710 是 600 億晶體管,對應 128 核、8 通道 DDR5 內存、96 通道 PCIe 5.0。從NVIDIA Grace Hopper 超級芯片的渲染圖看,Grace 的芯片面積與 Hopper 近似,而已知后者為 800 億晶體管,二者均基于臺積電 N4 制程節點
115、。據此推測 72 核的 Grace 芯片的晶體管規模大于Graviton 3、倚天710是合理的,也與Grace基于Neoverse V2(支持 Arm V9 指令集、SVE2)的情況相符。隨著亞馬遜的Graviton、Ampere Altra 等系列產品逐漸在市場站穩了腳跟,Arm在服務器 CPU 市場似乎漸入佳境。而且,隨著異構計算的興起,Arm 在高性能計算、AI/ML 算力基礎設施中的影響力正在擴大或許,隨著Neoverse V2 推出和英偉達加入戰團,Arm 在服務器 CPU 領域有望從一個參與者變為領先者。+46Arm Neoverse V2 配 套 的 互 連 方 案 是 CMN
116、-700,在 NVIDIA Grace 這里稱作 SCF(Scalable Coherency Fabric,可擴展一致性結構)。英偉達宣稱 Grace 的網格支持超過 72 個 CPU 核心的擴展實際上,在英偉達白皮書的配圖中可以數出來 80 個 CPU 核心。每個核心 1MB L2 緩存,整個 CPU 有多達 117MB L3 緩存(合每個核心 1.625MB),明顯高于其他同屬“旗艦級”的 Arm 處理器。NVIDIA Grace CPU 的網格布局NVIDIA SCF 在芯片內的設備(如 CPU 核心、內存控制器、NVLink等系統 I/O 控制器)之間提供 3.2 TB/s 的分段帶
117、寬。網格的節點稱為 CSN(Cache Switch Nodes,緩存交換節點),每個 CSN通常要連接 2 個核心及 2 個 SCC(SCF Cache partitions,SCF緩存分區)。但從示意圖來看,位于網格角落的 4 個 CSN 連接的是 2 個核心和 1 個 SCC,而位于中部兩側 4 個 CSN 連接的是 1 個核心和 2 個 SCC。整體而言,Grace 的網格內應該有 80 個核心和 76 個 SCC,其中 8 個核心應該是出于良率等因素而屏蔽。而網格外圍“缺失”的 4 個核心和 8 個 SCC 對應的位置被用于連接NVLink、NVLink-C2C、PCIe、LPDDR
118、5X 內存控制器等。NVIDIA Grace 支持 Arm 的許多管理特性,譬如服務器基礎系統架構(SBSA)、服務器基礎啟動要求(SBBR)、內存分區與監控(MPAM)、性能監控單元(PMU)等等。通過 Arm 的內存分區+2023 新型算力中心調研報告 多元算力:CPU+GPU47和監控(Memory Partitioning and Monitoring,MPAM)功能,可以解決 CPU 訪問緩存過程中因為共享資源的競爭導致的性能下降問題。高優先級的任務可以優先占用 L3 緩存,或者根據虛擬機預先劃分資源,實現業務之間的性能隔離。NVIDIA Grace CPU 超級芯片NVIDIA G
119、race 作為已知的最新最強版本 Arm 架構核心(Neoverse V2)的實例,再加上其必將獲得自家 GPGPU 的深厚實力加持,業界從一開始就給予了高度關注,期待其在超算、機器學習等領域的表現。在 GTC2023 上,人們終于看到了 Grace 的實物,其實際市場表現仍需要一段時間的等待。GTC2023 演講中展示的 Grace 超級芯片實物+48作 為 Arm Neoverse V1 的“后 浪”,Neoverse V2 的 升 級可以說是全方位的,包括基于 Armv9-A 指令集、更高的性能和微架構能效,加上更多的核心數和更大的 L3 緩存,NVIDIA Grace CPU 在 Ar
120、m 版圖中高于 Graviton3,是可以預期的。英偉達畢竟是 Arm 服務器 CPU 領域的新手,在這方面資深的 Ampere Computing(安晟培半導體)經過多代產品積累之后,在 2023 年 5 月中正式發布擁有 192 個單線程自研核的AmpereOne 系列處理器,這個核心數量也創下了(主流)服務器 CPU 的新紀錄。AmpereOne 采用臺積電 5nm 制程,提供的 Ampere(A1)核數量覆蓋136192個的區間,每個核心配備2MB L2緩存,這一點與 Neoverse V2(的上限)相當,達到 Ampere Altra 和Altra Max 系列的兩倍。系統級緩存(S
121、LC)為 64MB,分別是Altra 和 Altra Max 系列的 2 4 倍,與 AWS Graviton3 持平。其他如 8 通道 DDR5 內存和 128 個 PCIe 5.0 通道,都屬于新一代+2023 新型算力中心調研報告 多元算力:CPU+GPU49服務器 CPU 的正常水平。由 于 每 個 核 心 相 對 不 那 么 復 雜,又 采 用 了 比 較 先 進 的 制程,AmpereOne 系列的使用功耗在 200 350 瓦(W)之間,平均每核心不到 2 瓦。NVIDIA Grace CPU 的功耗也不算高,超級芯片加上內存的 TDP“才”500 瓦,即單個(72 核的)Gra
122、ce CPU在 250 瓦以內。盡 管 從 核 心 微 架 構 到 外 部 I/O 都 獲 得 了 全 面 的 升 級,但AmpereOne 并沒有取代 Altra 和 Altra Max 系列的任務,Altra Max 系列繼續提供 128 核與 96 核,Altra 系列覆蓋 80 核及以下的需求。我們認為,這種布局也與網格架構的特性有關,我們接下來討論這個話題。網格架構的兩類 ChipletAmpereOne 畢竟有多達 192 個核心和 384MB L2 緩存,采用漸趨流行的 Chiplet 技術并不出人意料。目前比較普遍的推測是做法與AWS Graviton3 類似,即 CPU 及緩
123、存單獨一個 die,DDR 控制器的 die 在其兩側,PCIe 控制器的 die 在其下方。把 CPU 核心及緩存,與負責外部 I/O 的控制器,分離在不同的 die上,是服務器 CPU 實現 Chiplet 的主流做法。+50前面已經提到,AMD EPYC 家族處理器采取星形拓撲,把 I/O 部分集中放在 1 個 IOD 上,CPU 核心及緩存(CCD)環繞四周的設計。網格架構的特性決定了 CPU 核心及緩存必須在中間,I/O 部分分散在外圍,所以拆分開時就是一個相反的布局。共同點是中間的 die 大,四周的 die 小。與 EPYC 家族的架構比,網格架構的整體性比較強,天生的單體式(M
124、onolithic)結構,不太利于拆分。網格架構必須考慮交叉點(節點)的利用率問題,如果有太多的交叉點空置,會造成很大的資源浪費,不如縮小網格的規模。以初代英特爾至強可擴展處理器為例,為了滿足從 4 28 個的核+IOD 居 中 的 AMD 第 二 代 EPYC 處 理 器,與 核 心 die 居 中 的 AWS Graviton3 處理器2023 新型算力中心調研報告 多元算力:CPU+GPU51數(Core Count,CC)變化范圍,提供了 3 種不同構型的 die(die chop),分別是:66的XCC(eXtreme CC,最多核or極多核),可支持到28個核心;64 的 HCC(
125、High CC,高核數),可支持到 18 個核心;44 的 LCC(Low CC,低核數),可支持到 10 個核心。從這個角度來看,AmpereOne不支持128核及以下也是合理的,除非增加 die 的構型,而這又離不開公司規模和出貨量的支持量的問題還得量來解決。第四代英特爾至強可擴展處理器就提供了 2 種構型的 die,其中,MCC(Medium CC,中等核數)主要滿足 32 核及以下的需求,這個核數要求比代號 Ice Lake 的第三代英特爾至強可擴展處理器的 40 核還要低,所以網格的規模也比后者的 78 還少 1 列,為77,在布局上最多可以安置 34 個核心及其緩存。36 60 個
126、核心的需求就必須由 XCC 來滿足了,它就是前面提到過的 Chiplet 版本,把網格架構從中間切成了 4 等分,可謂獨樹一幟。XCC 版的第四代英特爾至強可擴展處理器由 2 種互為鏡像的 die 拼成 22 的(大)矩陣,所以這個整體高度對稱上下、左右都對稱,前三代產品和同代的 MCC 版都沒有如此對稱。+52+英特爾認為(XCC 版)的第四代英特爾至強可擴展處理器 4 個 die拼接的效果是一個準單體式(quasi-monolithic)的 die。單體式不難理解,常見的網格架構就是如此,第四代英特爾至強可擴展處理器外圈的左右有 DDR 內存控制器,上下是 PCIe 控制器和集成的加速器(
127、DSA/QAT/DLB/IAA),UPI 位于四角,也是典型的網格架構布局。單體式前面的“準”是怎么達成的呢?就要看網格結構內部的“縫合”技術了。2023 新型算力中心調研報告 多元算力:CPU+GPU53+EMIB 及其帶寬估算如果沒有采用 Chiplet 技術,XCC 版本的第四代英特爾至強可擴展處理器應該是一個10 8的網格架構,最多60個核心,留下20個(節點)給 I/O。如果直接把這個單體式的 die 四等分,那每一部分就應該是一個54 的小網格。但事實是這 4 個 die 要連為一體,就要為它們增加一行一列的連接點,其中多出來的一行有4個,一列有6個。4個die對接到一起,就用 2
128、0 個交叉點形成了 10 個 EMIB 的“橋”。第四代英特爾至強可擴展處理器的 EMIB 連接 54EMIB(Embedded Multi-die Interconnect Bridge,嵌入式多芯片互連橋接)是英特爾用于實現 2.5D 封裝的技術。第四代英特爾至強可擴展處理器內部封裝了 4 個 XCC 的 die,每個 die 擁有 14條 EMIB 互聯,其中 4 條用于對外連接 HBM2e 內存,10 條(6 橫4 縱)用于相鄰 XCC Tile 之間的互聯。目前英特爾尚未公布 die 層面 EMIB 互聯的具體帶寬,我們僅能從工藝角度獲知 EMIB 互聯總線每對觸點可以提供 5.4G
129、b/s 以上的帶寬(Pin Speed),凸塊間距為 55m(微米),die 之間的距離為 100m。我們可以通過間接的方式進行估算。每 die 的 4 條 EMIB 對應16GB 8-Hi HBM2e。HBM2e每個引腳的數據傳輸率為3.2Gb/s,每堆棧(Stack)為 1024bit 位寬,總帶寬為 400GB/s 量級。因此,每條連接 HBM2e 的 EMIB PHY 至少可以提供約 100GB/s 的帶寬。將每堆棧 HBM2e 的 1024bit 位寬均攤到 4 條 EMIB,則為每條至少256bit。將 EMIB 每 pin 5.4Gb/s 的帶寬代入,則每條 EMIB 的理論帶寬
130、起碼可以達到 173GB/s。將上述估算套回 XCC 的 die 間互聯,則可知第四代英特爾至強可擴展處理器每個 XCC 的互聯帶寬約為 1 2TB/s 量級(1TB 1.7TB/s),相鄰兩個 XCC 之間的互聯為 600GB/s 1TB/s(左右向 6組 PHY)或 400GB/s 691GB/s(上下向 4 組 PHY)。2023 新型算力中心調研報告 多元算力:CPU+GPU55CHAPTER3算存互連Chiplet 與 CXL2023 新型算力中心調研報告56算存互連:Chiplet 與 CXL“東數西存”是“東數西算”的基礎、前奏,還是子集?這牽涉到數據、存儲與計算之間的關系。數據
131、在人口密集的東部產生,在地廣人稀的西部存儲,主要的難點是如何較低成本的完成數據傳輸。計算需要頻繁的訪問數據,在跨地域的情況下,網絡的帶寬和時延就成為難以逾越的障礙。與數據的傳輸和計算相比,存儲不算耗能,但很占地。核心區域永遠是稀缺資源,就像核心城市的核心地段不會用來建設超大規模數據中心,CPU 的核心區能留給存儲器的硅片面積也是相當有限?!皷|數西算”并非一日之功,超大規模數據中心與核心城市也是漸行漸遠,而且不是越遠越好。同理,圍繞 CPU 早已構筑了一套分層的存儲體系,雖然從 Cache 到內存都是易失性的存儲器(Memory),但往往越是那些處于中間狀態的數據,對訪問時延的要求越高,也就需要
132、離核心更近如果真是需要長期保存的數據,距離遠一些反倒無妨,訪問頻率很低的還可以“西存”嘛。距離 CPU 核心最近的存儲器,非基于 SRAM 的各級 Cache(緩存)莫屬。不過,既然都分級了,那還是有遠近之分。在現代CPU中,L1和 L2 Cache 已經屬于核心的一部分,需要為占地面積發愁的,主要是 L3 Cache。SRAM 的面積律在 IEDM 2019 上,臺積電展示了其引入 EUV 的 5nm 制程成果。當時業界便留意到一個問題:芯片的邏輯密度提高了 1.84 倍,而SRAM 密度僅提高了 1.35 倍。在 ISSCC2020 中,關于 5nm SRAM的論文還展示了 2011 20
133、19 年 SRAM 面積的演進過程。在下圖中可以很明顯看出:2017 年之前,SRAM 的面積縮減基本上與制程改進同步;距離 CPU 核心最近的存儲器,非基于 SRAM 的各級 Cache(緩存)莫屬。不過,既然都分級了,那還是有遠近之分。在 現 代 CPU 中,L1 和L2 Cache 已經屬于核心的一部分,需要為占地面積發愁的,主要是 L3 Cache。2023 新型算力中心調研報告 算存互連:Chiplet 與 CXL57之后,SRAM 面積的縮減近乎停滯,即使應用了 EUV 技術,改善也不明顯?,F在是 2023 年,制造工藝正在向 3nm 邁進。臺積電公布其 N3 制程的 SRAM 單
134、元面積為 0.0199 平方微米,相比 N5 制程的面積為0.021 平方微米,只縮小了 5%。更要命的是,由于良率和成本問題,預計 N3 并不是臺積電的主力工藝,客戶們更關注第二代 3nm工藝 N3E。而 N3E 的 SRAM 單元面積為 0.021 平方微米,和 N5工藝完全相同。至于成本方面,據傳 N3 一片晶圓是 2 萬美元,N5報價是 1.6 萬美元,意味著 N3 的 SRAM 比 N5 貴 25%。作為參考,Intel 7 制程(10nm)的 SRAM 面積為 0.0312 平方微米,Intel 4 制程(7nm)的 SRAM 面積為 0.024 平方毫米,和臺積電的 N5、N3E
135、 工藝差不多。半導體制造商們的報價是商業機密,但 SRAM 越來越貴,密度也難再提高,終究是事實。于是,將 SRAM 單獨制造再次變為合理,且可以配合先進封裝實現高帶寬、低時延。向上堆疊,翻越內存墻積極引入新制程生產 CCD 的 AMD 對 SRAM 成本的感受顯然比較深刻,在基于臺積電 5nm 制程的 Zen 4 架構 CCD 中,L2、L3 Cache 占用的面積已經達到整體的約一半比例。+58 Zen4 CCD 的布局,請感受一下 L3 Cache 的面積AMD 當前架構面臨內存性能落后的問題,其原因包括核心數量較多導致的平均每核心的內存帶寬偏小、核心與內存的“距離”較遠導致延遲偏大、跨
136、 CCD 的帶寬過小等。這就促使 AMD 需要用較大規模的 L3 Cache 來彌補訪問內存的劣勢。而從 Zen 2 到 Zen 4 架構,AMD 每個 CCD 的 L3 Cache 都為 32MB,并沒有“與時俱進”。為了解決 SRAM 規模拖后腿的問題,AMD 決定將 SRAM 擴容的機會獨立于 CPU 之外。AMD 在代號 Milan-X 的 EPYC 7003X 系列處理器上應用了第一代3D V-Cache 技術。這些處理器采用 Zen 3 架構核心,每片 Cache(L3 Cache Die,簡稱 L3D)為 64MB 容量,面積約 41mm,采用 7nm 工藝制造回顧 ISSCC2
137、020 的論文,7nm 恰恰是 SRAM的微縮之路遇挫的拐點。緩存芯片通過混合鍵合、TSV(Through Silicon Vias,硅通孔)工藝與 CCD(背面)垂直連接,該單元包含 4 個組成部分:最下層的 CCD、上層中間部分 L3D,以及上層兩側的支撐結構采用硅材質,將整組結構在垂直方向找平,并將下方 CCX(Core Complex,核心復合體)部分的熱量傳導到頂蓋。AMD 在 Zen 3 架構核心設計之初就備了這一手,預留了必要的邏輯電路以及 TSV 電路,相關部分大約使 CCD 增加了 4%的面積。L3D 堆疊的位置正好位于 CCD 的 L2/L3 Cache 區域上方,這一方2
138、023 新型算力中心調研報告 算存互連:Chiplet 與 CXL59面匹配了雙向環形總線的 CCD 內的 Cache 居中、CPU 核心分居兩側的布局,另一方面是考慮到(L3)Cache 的功率密度相對低于CPU 核心,有利于控制整個 Cache 區域的發熱量。Zen 3 的 L3 Cache 為 8 個切片(Slice),每片 4MB;L3D 也設計為 8 個切片,每片 8MB。兩組 Cache 的每個切片之間是 1024 個TSV 連接,總共 8192 個連接。AMD 宣稱這外加的 L3 Cache 只增加 4 個周期的時延。隨著 Zen 4 架構處理器進入市場,第二代 3D V-Cac
139、he 也粉墨登場,其帶寬從上一代的 2TB/s 提升到 2.5TB/s,容量依舊為64MB,制程依舊為 7nm,但面積縮減為 36mm2??s減的面積主要是來自 TSV 部分,AMD 宣稱基于上一代積累的經驗和改進,在TSV 最小間距沒有縮小的情況下,相關區域的面積縮小了 50%。代號 Genoa-X 的 EPYC 系列產品預計在 2023 年中發布。SRAM 容量增加可以大幅提高 Cache 命中率,減少內存延遲對性能的拖累。AMD 3D V-Cache 以比較合理的成本,實現了 Cache 容量的巨大提升(在 CCD 內 L3 Cache 基礎上增加 2 倍),對性能的改進也確實是相當明顯。
140、代價方面,3D V-Cache 限制了處理器整體功耗和核心頻率的提升,在豐富了產品矩陣的同時,用戶需要根據自己的實際應用特點進行抉擇。那么,堆疊 SRAM 會是 Chiplet 大潮中的主流嗎?3D V-Cache 結構示意圖+60說到這里,其實是為了提出一個外部 SRAM 必須考慮的問題:更好的外形兼容性。堆疊于處理器頂部是兼容性最差的形態,堆疊于側面的性能會有所限制,堆疊于底部則需要 3D 封裝的進一步普及。對于第三種情況,使用硅基礎層的門檻還是比較高的,可以看作是Chiplet 的一個重大階段。以目前 AMD 通過 IC 載板布線水平封裝CCD 和 IOD 的模式,將 SRAM 置于 C
141、CD 底部是不可行的。至于未來 Zen 5、Zen 6 的組織架構何時出現重大變更還暫時未知。對于數據中心,核數是硬指標。表面上,目前 3D V-Cache 很適合與規模較小的 CCD 匹配,畢竟一片 L3D 只有幾十平方毫米的大小。但其他高性能處理器的內核尺寸比 CCD 大得多,在垂直方向堆疊SRAM 似乎不太匹配。但實際上,這個是處理器內部總線的特征決定的問題:垂直堆疊 SRAM,不論其角色是 L2 還是 L3 Cache,都更適合 Cache 集中布置的環形總線架構。對于面積更大的處理器,怎么突破 SRAM 的成本約束呢?不但要找 SRAM 的(廉價)替代品,還要解決“放在哪兒”的問題。
142、應用 3D V-Cache 的 AMD EPYC 7003X 處理器+對于數據中心,核數是硬指標。表面上,目前3D V-Cache 很 適 合 與規模較小的CCD匹配,畢竟一片 L3D 只有幾十平方毫米的大小。但其他高性能處理器的內核尺寸比 CCD 大得多,在垂直方向堆疊 SRAM 似乎不太匹配。2023 新型算力中心調研報告 算存互連:Chiplet 與 CXL61回首 eDRAM 時光緩存容量的問題,本質上是彌補內存的性能落差。SRAM 快但是貴,DRAM 便宜但是慢。如果 SRAM 已經很難更快(頻率、容量被限制),且越來越貴,那么,為什么不把增加的成本用在 DRAM 上呢?能不能找到更
143、貴但更快的 DRAM?答案是肯定的。因此,最務實的思路就是提升內存性能,以及拉近內存與核心的距離。提升 DRAM 性能的一種比較著名的嘗試是 eDRAM(embedded DRAM,嵌入式 DRAM)。由于每單元 SRAM 需要由 4 或 6 個晶體管構成,其面積必然偏大,密度不如 DRAM,成本也比 eDRAM 更高一些。IBM 是 eDRAM 的 積 極 應 用 者,宣 稱 eDRAM 的 每 Mb 面 積約 為 SRAM 的 三 分 之 一,并 從 2004 年 的 PowerPC 440 就開 始 內 嵌 eDRAM 作 為 L3 Cache 使 用。之 后 的 Power7 到Pow
144、er9,eDRAM 都被用作 L3 Cache 使用,于是“只有”12/24核的 Power9 處理器,L3 Cache 容量已經高達 120MB。這種愛好蔓延到了 IBM Z15 這樣的主機處理器。2019 年發布的 Z System 大型機使用的中央處理器(Central Processor,CP Chip)有12個核心,面積696mm2,其L2、L3 Cache均由eDRAM構成,其中 L2 Cache 為(4+4)12=96MB,L3 Cache 為 256MB。然后,Z15 還可以通過系統控制器(System Controller,SC Chip)提供 960MB L4 Cache,
145、SC 的面積也是 696mm2。上一代的 Z14也是類似的架構,L3 和 L4 Cache 分別為 128MB 和 672MB。兩代芯片均采用 14nm SOI 制程。格芯和 IBM 宣稱基于 14nm 制程的 eDRAM 每單元面積為 0.0174平方微米,比 5nm 的 SRAM 還要小。當然,任何技術優勢在競爭壓力面前都會被壓榨到極限,eDRAM 的單位成本雖低,也架不住堆量。因此,IBM 用 eDRAM 作為 Cache 的實際代價其實也是很大的:大家可以從圖片中看到 L3、L4 eDRAM 在 Z15 的 CP 和 SC 中占用的面積。+62x86 服務器 CPU 對 eDRAM 則
146、沒有什么興趣。在處理器內部,其面積占用依舊不可忽視,且其本質是 DRAM,目前仍未看到 DRAM 能夠推進到 10nm 以下制程。IBM 的 Power10基于三星的 7nm 制程,便不再提及 eDRAM 的問題。在處理器外部,eDRAM 并非業界廣泛認可的標準化產品,市場規模小,成本偏高,性能和容量也相對有限。后起之秀 HBM(High Bandwidth Memory,高帶寬內存)則很好的解決了上述問題:首先,不去 CPU 所在的 die 里搶地盤;其次,縱向堆疊封裝,可通過提升存儲密度實現擴容;最后,在前兩條的基礎上,較好的實現了標準化。HBM 的好處都是通過與 CPU 核心解耦實現的,
147、代價是生態位更靠近內存而不是 Cache,以時延換容量,很科學。Z15 中央處理器 Z15 系統控制器2023 新型算力中心調研報告 算存互連:Chiplet 與 CXL63+HBM 崛起:從 GPU 到 CPUHBM 是 2014 年 AMD、SK 海力士共同發布的,使用 TSV 技術將數個 DRAM Die(晶片)堆疊起來,大幅提高了容量和數據傳輸速率。隨后三星、美光、NVIDIA、Synopsys 等企業積極參與這個技術路線,標準化組織 JEDEC 也將從 HBM2 列入標準(JESD235A),并陸續迭代了 HBM2e(JESD235B),以及 HBM3(JESD235C)。得益于堆疊
148、封裝,以及巨大的位寬(單封裝 1024bit),HBM 提供了遠超其他常見內存形態(DDR DRAM、LPDDR、GDDR 等)的帶寬和容量。典型的實現方式是通過 2.5D 封裝將 HBM 與處理器核心連接,這在 CPU、GPU 等產品中均有應用。早期也有觀點把 HBM 視作 L4 Cache,從 TB/s 級的帶寬角度看,也算合理。而從容量角度,HBM就比 SRAM 或 eDRAM 大太多了。由此,HBM 既可以勝任(一部分)Cache 的工作,也可以當做高性能內存使用。AMD 是 HBM 的早期使用者,發展至今,AMD Instinct MI250X 計算卡在單一封裝內集成了 2 顆計算核
149、心和 8 顆 HBM2e,容量共128GB,帶寬達到 3276.8GB/s。NVIDIA 應用 HBM 的主要是專業卡,其 2016 年的 TESLA P100 的HBM 版搭配了 16GB HBM2,隨后的 V100 搭配了 32GB HBM2。目前當紅的 A100 和 H100 也都有 HBM 版,前者最大提供 80GB HBM2e、帶寬約 2TB/s;后者升級到 HBM3,帶寬約 3.9TB/s。華為的昇騰 910 處理器也集成了 4 顆 HBM。對于計算卡、智能網傳速率(單 pin)封裝內堆疊數量最大封裝容量帶寬(1024bit)HBM1Gbps44GB128GBpsHBM23.2Gb
150、ps2/4/816GB410GBpsHBM2E3.65Gbps4/8/1224GB460GBpsHBM36.4Gbps4/8/12/1664GB819GBps AMD Instinct MI250X NVIDIA Tesla P100 NVIDIA GPU A10064卡、高速 FPGA 等產品,HBM 作為一種 GDDR 的替代品,應用已經非常成熟了。CPU 也已開始集成 HBM,其中最突出的案例是曾經問鼎超算TOP500 的富岳(Fugaku),使用富士通研發的 A64FX 處理器。A64FX 基于 Armv8.2-A,采用 7nm 制程,每封裝內集成了 4 顆HBM2,容量 32GB,帶
151、寬 1TB/s。英特爾在 2023 年 1 月中與第四代至強可擴展處理器一同推出的至強 Max 系列,在前者的基礎上集成了 64GB 的 HBM2e。這些HBM2e 可以作為內存獨立使用(HBM Only 模式),也可以搭配DDR5 內存共同使用(HBM Flat Mode 和 HBM Caching Mode 兩種工作模式)。Intel Xeon Max 系列,注意外圍的 4 顆 HBM 芯片+富士通 A64FX CPU2023 新型算力中心調研報告 算存互連:Chiplet 與 CXL65中介層:CoWoS 與 EMIB值得一提的是,目前 HBM 與處理器“組裝”在一起都需要借助硅中介層。
152、傳統的 ABS 材質基板等難以勝任超高密度的觸點數量和高頻率。但硅中介層有兩種技術思路,代表是臺積電的 CoWoS(chip-on-wafer-on-substrate)和英特爾的 EMIB(Embedded Multi-die Interconnect Bridge)。HBM 的基本結構。左側彩色的 5 層結構為 HBM 封裝?;疑珵橹薪閷优_積電 CoWoS-S 通過硅中介層承載處理器和 HBM。其硅中介層也被稱為硅基礎層,因為中介層會完全承載其他芯片。換句話說,處理器和若干 HBM 的投影面積決定了硅基礎層的大小,而基礎層的面積會限制 HBM 的使用數量(常見的就是 4 顆)。硅中介層使用
153、65nm 之類的成熟工藝制造,其成本并不高昂,但尺寸受限于光刻掩膜尺寸。這就成為了早期 HBM 應用的瓶頸需要 HBM 的往往是高性能的大芯片,而大芯片的規模本身就已經逼近了掩膜尺寸極限,給 HBM 留下的面積非常有限。到了 2016 年,臺積電終于突破了這個限制,實現 1.5 倍于掩模尺寸的中介層,從此單芯片內部可封裝 4 顆 HBM,這就是當前市場上的主流形態了。+66 臺積電 CoWoS-S 發展路線2019 年,臺積電宣稱實現 2 倍掩膜尺寸,可以支持 6 顆 HBM 了。很快,2020 年發布的 NEC SX-Aurora TSUBASA 矢量處理器,集成 6 顆共 48GB HBM
154、2;同年的英偉達 A100 則是 6 顆共 40GB HBM2e(有一顆 HBM 未啟用)。至于可以封裝 12 顆 HBM 的巨型芯片,預計面積將達到 3200 平方毫米。硅中介層的面積如此發展,下一個瓶頸就是硅晶圓的切割效率了。另一種思路是英特爾的 EMIB,使用的硅中介層要小得多。以第四代英特爾至強可擴展處理器的渲染圖為例,棕色的小方塊就是EMIB 的“橋”,用以將 4 個 XCC 的 die 拼為一個整體;而在至強Max 系列中,每個 die 還需要通過 EMIB 去連接對應的 HBM 芯片。結合 HBM 的架構示意圖可以看出,英特爾認為只需要通過硅中介層連接內存和處理器的 PHY 部分
155、,其他信號依然可以直通基板。整體而言,EMIB 充分利用了硅中介層和有機載板的技術特點和電氣特性,但也存在組裝成本高的缺點(需要在有機載板中鑲嵌,增加了工藝復雜度,限制了載板的選擇)。當然,對于更復雜的“組裝”,英特爾也有對應的方案,如代號Ponte Vecchio 的英特爾數據中心 GPU Max 系列整合了基于 5 種制造工藝生產的 47 個小芯片,其中的基礎層(Base Die)的面積為 650mm2。該產品綜合了 Foveros 3D 封裝和 EMIB 2.5D 封裝的特點,縱向橫向齊發展。英特爾認為只需要通過硅中介層連接內存和處理器的 PHY 部分,其他信號依然可以直通基板。整體而言
156、,EMIB 充分利用了硅中介層和有機載板的技術特點和電氣特性,但也存在組裝成本高的缺點。+2023 新型算力中心調研報告 算存互連:Chiplet 與 CXL67向下發展:基礎層加持英特爾數據中心 Max GPU 系列引入了 Base Tile 的概念,姑且稱之為基礎芯片。相對于中介層的概念,我們也可以把基礎芯片看做是基礎層?;A層表面上看與硅中介層功能類似,都是承載計算核心、高速 I/O(如 HBM),但實際上功能要多得多。硅中介層的本質是利用成熟的半導體光刻、沉積等工藝(65nm 等級),在硅上形成超高密度的電氣連接。而基礎層更進一步:既然都要加工多層圖案,為什么不把邏輯電路之類的也做進去
157、呢?英特爾數據中心 Max GPU+68Intel 在 ISSCC2022 中 展 示 了 英 特 爾 數 據 中 心 Max GPU 的Chiplet(小芯片)架構,其中,基礎芯片面積為 640mm2,采用了 Intel 7 制程這是目前 Intel 用于主流處理器的先進制程。為何在“基礎”芯片上就需要使用先進制程呢?因為 Intel 將高速I/O 的 SerDes 都集成在基礎芯片中了,其作用有點兒類似AMD的IOD。這些高速IO包括HBM PHY、Xe Link PHY、PCIe 5.0,以及,這一節的重點:Cache。這些電路都比較適合5nm以上的工藝制造,將它們與計算核心解耦后重新打
158、包在一個制程之內是相當合理的選擇。英特爾數據中心 Max GPU 的 Chiplet 架構 英特爾數據中心 Max GPU 的基礎芯片。注意,此圖中的兩組 Xe Link PHY 應是筆誤。芯片下方應為兩個 HBM PHY 和一個 Xe Link PHY+2023 新型算力中心調研報告 算存互連:Chiplet 與 CXL69英特爾數據中心 Max GPU 系列通過 Foveros 封裝技術在基礎芯片上方疊加8顆計算芯片(Compute Tile)、4顆RAMBO芯片(RAMBO Tile)。計算芯片采用臺積電 N5 工藝制造,每顆芯片自有 4MB L1 Cache。RAMBO 是“Rando
159、m Access Memory,Bandwidth Optimized”的縮寫,即為帶寬優化的隨機訪問存儲器。獨立的RAMBO 芯片基于 Intel 7 制程,每顆有 4 個 3.75MB 的 Bank,共15MB。每組 4 顆 RAMBO 共提供了 60MB 的 L3 Cache。此外,在基礎芯片中也有 RAMBO,容量 144MB,外加 L3 Cache 的交換網絡(Switch Fabric)。因此,在英特爾數據中心 Max GPU 中,基礎芯片通過 Cache 交換網絡,將基礎層內的 144MB Cache,與 8 顆計算芯片、4 顆RAMBO 芯片的 60MB Cache 組織在一起
160、,總共 204MB L2/L3 Cache,整個封裝是兩組,就是 408MB L2/L3 Cache。英特爾數據中心 Max GPU 的每組處理單元都通過 Xe Link Tile 與另外 7 組進行連接。Xe Link 芯片采用臺積電 N7 工藝制造。Xe HPC 的邏輯架構Xe Link 的網狀連接 +70前面已經提到,I/O 芯片獨立是大勢所趨,共享 Cache 與 I/O拉近也是趨勢。英特爾數據中心 Max GPU 將 Cache 與各種高速 I/O 的 PHY 集成在同一芯片內,正是前述趨勢的集大成者。至于 HBM、Xe Link 芯片,以及同一封裝內相鄰的基礎芯片,則通過 EMIB
161、(爆炸圖中的橙色部分)連接在一起。英特爾數據中心 Max GPU 爆炸圖根據英特爾在 HotChips 上公布的數據,英特爾數據中心 Max GPU 的 L2 Cache 總帶寬可以達到 13TB/s??紤]到封裝了兩組基礎芯片和計算芯片,我們給帶寬打個對折,基礎芯片和 4 顆RAMBO 芯片的帶寬是 6.5TB/s,依舊遠遠超過了目前至強和 EPYC的 L2、L3 Cache 的帶寬。其實之前 AMD 已經通過指甲蓋大小的3D V-Cache 證明了 3D 封裝的性能,那就更不用說英特爾數據中心 Max GPU 的 RAMBO 及基礎芯片的面積了。+2023 新型算力中心調研報告 算存互連:C
162、hiplet 與 CXL71 英特爾數據中心 Max GPU 的存儲帶寬回顧一下 3D V-Cache 的弱點“散熱”不良,我們還發現將Cache 集成到基礎芯片當中還有一個優點:將高功耗的計算核心安排在整個封裝的上層,更有利于散熱。再往遠一些看,在網格化的處理器架構中,L3 Cache 并非簡單的若干個塊(切片),而是分成數十甚至上百單元,分別掛在網格節點上的?;A芯片在垂直方向可以完全覆蓋(或容納)處理器芯片,其中的 SRAM 可以分成等量的單元與處理器的網格節點相連。換句話說,對于網格化的處理器,將 L3 Cache 移出到基礎芯片是有合理性的。目前已經成熟的 3D 封裝技術的凸點間距在
163、 30 50 微米的量級,足夠勝任每平方毫米內數百至數千個連接的需要,可以滿足當前網格節點帶寬的需求。更高密度的連接當然也是可行的,10微米甚至亞微米的技術正在推進當中,但優先的場景是 HBM、3D NAND 這種高度定制化的內部堆棧的混合鍵合,未必適合 Chiplet對靈活性的要求。+72標準化:Chiplet 與 UCIeChiplet 的優勢已經獲得了充分的驗證,接下來的問題就是通用化、標準化。通過標準化,來自不同供應商的芯片可以更容易地實現封裝內的互聯,在這個前提下,部分 IP 可以固化為芯片,而不再需要分別集成到不同客戶的芯片中,也不需要適配太多版本的生產工藝。在 此 愿 景 之 下
164、,2022 年 3 月,通 用 處 理 器 市 場 的 核 心 玩 家Intel、AMD、Arm 等聯合發布了新的互聯標準 UCIe(Universal Chiplet Interconnect Express,通用小芯片互連通道),希望解決 Chiplet 的行業標準問題。由于標準的主導者與 PCIe 和 CXL(Compute Express Link)已有千絲萬縷的關系,因此,UCIe 非常強調與 PCIe/CXL 的協同,在協議層本地端提供 PCIe 和 CXL 協議映射。與 CXL 的協同,說明 UCIe 的目標不僅僅是解決芯片制造中的互聯互通問題,而是希望芯片與設備、設備與設備之間
165、的交互是無縫的。在 UCIe 1.0 標準中,即展現了兩種層面的應用:Chiplet(In package)和 Rack space(Off package)。+2023 新型算力中心調研報告 算存互連:Chiplet 與 CXL73CXL:內存的解耦與擴展PCIe 經過十年的發展,已經是最為廣泛的板卡互連協議。這種兼容性基礎正在向節點外擴展,也就是 UCIe 所稱的 Rack(機柜)空間。隨著新一代 Arm 和 x86 架構服務器處理器平臺(第四代英特爾至強可擴展處理器和 AMD 第四代 EPYC 處理器)進入市場,CXL 協議有望獲得廣泛的支持。當前 CXL 1.1 的物理層基于成熟的 P
166、CIe 5.0。以第四代英特爾至強可擴展處理器公開宣稱的支持 CXL Type 1、Type 2 Device 看,首先從 CXL 獲益的將是 GPGPU、智能網卡、計算卡等設備。而非常有趣的是,AMD 第四代 EPYC 處理器則完全相反,聲稱支持 CXL Type 3 Device,也就是 CXL 內存模塊,而不支持 Type 1、Type 2 Device。第四代英特爾至強可擴展處理器正式支持 CXL 1.1 中的 Type 1、Type 2+UCIe 規劃的機架連接交給了 CXL74 CXL 定義的三種類型設備相對于 PCIe,CXL 最重要的價值是減少了各子系統內存的訪問延遲(理論上
167、PCIe 協議的延遲為 100ns 量級,CXL 為 10ns 量級),譬如 GPU 訪問系統內存,這對于設備間的大容量數據交換至關重要。這種改進主要來源于兩方面:首先,PCIe 在設計之初沒有考慮緩存一致性問題,通過 PCIe DMA跨設備讀寫數據時,在操作延遲期間,內存數據可能已經發生變化,因此需要額外加入驗證過程,這增加了指令復雜度和延遲。而 CXL 通過 CXL.cache 和 CXL.memory 協議解決了緩存一致性問題,簡化了操作,也減少了延遲。其次,PCIe的初衷是大流量,針對大數據塊(512B、1KB、2KB、4KB)進行優化,希望減少指令開銷。CXL 則針對 64B 傳輸進
168、行優化,對于固定大小的數據塊而言,操作延遲較低。換言之,PCIe發展至今,其協議特點更適合用于 NVMe SSD 為代表的塊存儲設備,而對于看重字節級尋址能力的計算型設備,CXL 更為適合。除了充分釋放異構計算的算力,CXL 還讓內存池化的愿景看到了標準化的希望。CXL Type 3 Device 的用途就是 Memory Buffer(內存緩沖),利用 CXL.io 和 CXL.memory 的協議實現擴展遠端內存。在擴展后,系統內存的帶寬和容量即為本地內存和CXL內存模塊的疊加。在新一代 CPU 較普遍支持的 CXL 1.0/1.1 中,CXL 內存模塊先實現了主機級的內存擴展,試圖突破傳
169、統CPU內存控制器的發展瓶頸,CPU2023 新型算力中心調研報告 算存互連:Chiplet 與 CXL75核心數量增長的速度遠遠快于內存通道的增加速度是原因之一。過去十年間,CPU 的核心數量從 8 12 個的水平,增長到了 60乃至 96 核,Arm 已有 192 核的產品,而每插槽 CPU 的內存通道數僅從 4 通道增加到 8 或 12 通道。每通道的內存在此期間也經過了三次大的迭代,帶寬大概增加 1.5 2 倍,存儲密度大約為 4 倍。從發展趨勢來看,每個 CPU 核心所能分配到的內存通道數量在明顯下降,每核心可以分配的內存容量和內存帶寬其實也有所下降。這是內存墻的一種表現形式,導致
170、CPU 核心因為不能充分得到數據來處于滿負荷的運行狀態,會導致整體計算效率下降。為什么增加內存通道如此緩慢?因為增加內存通道不僅僅需要增加芯片面積,還需要擴展對外接口,在電氣連接方式沒有根本性改變的情況下,觸點數量的大量增加會導致 CPU 封裝面積劇增。10年前的英特爾至強(Intel Xeon)處理器的 LGA2011 封裝尺寸為52.5mm45.0mm(毫米),當前 Xeon 所用 LGA 4677 封裝尺寸為 77.5mm56.5mm,觸點數量增加了 1.33 倍,封裝面積增加了 1.85倍。而AMD第四代EPYC啟用的新封裝SP5更大,有6096個觸點,封裝面積達到 75.4mm72m
171、m,跟一張撲克牌差不多大了,畢竟它的內存通道數量達到了 12 個。為了與 AMD 和 Arm 繼續“核戰”,英特爾代號 Granite Rapids 和 Sierra Forest 的下一代 Xeon 將啟用 LGA 7529 插槽,尺寸 105mm70.5mm。作為參考,iPhone 4 的正面尺寸是 115.2mm58.6mm,iPhone 8 則為 138.4mm67.3mm。+過去十年間,CPU 的核心數量從 8 12 個的水平,增長到了 60 乃至 96 核,Arm 已有192 核的產品。而每插槽 CPU 的內存通道數僅從 4 通道增加到 8 或 12通道。每通道的內存在此期間也經過
172、了三次大的迭代,帶寬大概增加1.5 2 倍,存儲密度大約為 4 倍。76 LGA 4677 已接近信用卡大小同時,主板上內存相關的走線數量和距離也需要相應增加,保證信號質量的難度加大。CPU 插槽面積增加、內存槽數量增加,還受到主板面積的限制。按照英特爾和AMD的通用處理器的這個發展趨勢,雙路服務器的主板布局將會愈加困難,其市場份額可能會逐步下降。通過 CXL 擴展內存,可以將 CPU 與內存從沿革多年的緊耦合關系變為松耦合,利用 PCIe/CXL 通道的物理帶寬增加內存總帶寬,而不僅僅限于內存控制器自身的通道總數(即使前者的帶寬相對較低,但也是增量),利用機箱的立體空間容納更大容量的內存,而
173、不再受主板面積的約束。CXL 內存+2023 新型算力中心調研報告 算存互連:Chiplet 與 CXL77考慮到人工智能,尤其是機器學習領域的發展,模型容量在過去 5年間大致增加了 50 倍,內存容量的擴展方式確實值得突破一下。不過這也不是一蹴而就的,畢竟第四代英特爾至強可擴展處理器每插槽 CPU 只支持 4 個 CXL 設備,給計算卡之類的一分就沒了。所以也就不用糾結它暫時沒有宣布支持CXL Type 3 Device(Memory Buffer)。在第四代可擴展至強處理器平臺上,如果支持 CXL 1.1 的加速卡/計算卡/智能網卡能夠提供比 PCIe 5.0 更好的性能,稍微拉近跟 SM
174、X接口(NVLink)的性能落差,那就非常開心了。而AMD則反過來,處理器大核確實多,而且不論單路還是雙路處理器,內存槽上限都是24 條,如果不優先另辟蹊徑擴展內存容量,每個核心能夠分配到的內存資源其實反而會落了下風,補短板看起來更迫切。但是,AMD同樣也會面臨內存擴展與計算卡搶 PCIe 通道數量的問題??傊?,不論這兩家通用處理器具體各懷啥心思,CXL 的第一輪普及工作就是不盡如人意,顧此失彼。甚至現在還不到糾結內存擴展的時候,即使 CXL 內存模組已然是各種技術論壇中樣品最接近現實的CXL 設備。在這個階段,解決 CXL 設備的有無問題,借機逐步導入EDSFF,初步形成生態環境,就算是成功
175、。至于內存的大事情,且得看下一代平臺以及更新版本的 CXL。CXL 的本地內存擴展+有約 50%的服務器的實際內存利用率不到一半。這是由于內存的分配是與 CPU 核心綁定的,當客戶按照預設的實例配置租用資源時,每個核心便搭配了固定容量的內存,譬如 2GB。當主機的 CPU 核心數量被分配完畢后,未被搭配的內存便被閑置了。78到了 CXL 2.0,通過 CXL Switch,內存擴展將可以跨 CPU 實現。這個階段將構建機柜級的資源池化。這其中的好處多多,此處主要集中在云服務的需求角度去看。微軟曾調研了 Azure 公有云數據中心的內存使用情況,其結論是:有約 50%的服務器的實際內存利用率不到
176、一半。這是由于內存的分配是與 CPU 核心綁定的,當客戶按照預設的實例配置租用資源時,每個核心便搭配了固定容量的內存,譬如 2GB。當主機的 CPU核心數量被分配完畢后,未被搭配的內存便被閑置了??紤]到預先配置的內存容量相對核心數量必然是超配的,譬如 56 核的至強,搭配 128GB 內存,每個實例配 2GB 內存的話,那注定有 128-256=16GB 內存將會被閑置。如果服務器核心未被充分利用,被閑置的內存將會更多。而運行中的實例,其實際內存占用率通常也不高。由此,無從分配的、未被分配的、分配但未充分使用的,這三種性質的浪費疊加之后,主機的實際內存浪費相當驚人。由此,微軟提出通過內存池來解
177、決這個問題。各主機搭配容量較少的內存,其余內存放入內存資源池。當 CPU 本地內存不足時,再到內存池調用。這雖然增加了一些訪問延遲,但會降低內存的總成本。如果減少 10%的內存搭配數量,對于大型數據中心而言也是數以億計的資金節約。微軟預計通過 CXL 和內存池化,可以為云數據中心減少 4 5%的成本。除了節約總內存投入,內存池化還可以帶來內存持久化、內存故障熱遷移等等新的功能特性以供業界進一步挖掘,此處暫不展開。CXL 的完整愿景,需要到 CXL 3.0 規范才能實現。首先是帶寬,CXL 3.0 基于 PCIe 6.0,更換了 PCIe 沿革多年的NRZ 調制方案,變為 PAM-4 脈沖幅度調
178、制編碼,在電氣特性變化不大的情況下,鏈路帶寬翻倍,從 32GT/s 提升到了 64GT/s。其次,CXL 3.0 增加了對二層交換機的支持,也就是葉脊(Leaf-Spine)網絡架構,資源池化也不再局限于內存,而是可以實現CPU 資源池、加速器資源池、網卡資源池等。+當 CPU 本 地 內 存 不 足時,再到內存池調用。這雖然增加了一些訪問延遲,但會降低內存的總成本。如果減少 10%的內存搭配數量,對于大型數據中心而言也是數以億計的資金節約。微軟預計通過 CXL 和內存池化,可以為云數據中心減少 4 5%的成本。2023 新型算力中心調研報告 算存互連:Chiplet 與 CXL79 CXL
179、3.0 將改變資源的組織方式 CXL 2.0 實現的是機柜內的池化,CXL 3.0 除了可以在一個機柜內實現計算資源和存儲資源的解耦和池化,還可以在多個機柜之間建立更大的資源池??缰鳈C、跨機柜調度規模巨大的計算資源,已經是超算的范疇了。然后,CXL 3.0 網絡可以支持 4096 個 CXL 節點!單純從數量上看,這遠遠超過了NVLink網絡256個節點的規模(見下一章)。這將是CXL對私有但標榜高性能的NVLink最有力的挑戰。當然,CXL 3.0 依舊暫時還未落地,而 NVIDIA 新一代的系統已經正式發布了。二者在機柜互聯方面的帶寬遠超 400G InfiniBand 或者以太網,實際運
180、行效率都是非常值得期待的。另外,考慮到 CPU 和加速器都可以從內存池訪問數據,那么,CPU確實不需要再去(替其他設備)管理那么多本地內存。畢竟,計算卡通過 CXL 訪問 CPU 內存控制器下的內存,和訪問內存資源池,瓶頸都在CXL,性能上沒有本質差異。因此,CPU可以搭配容量更小,但速度更高的內存,例如 HBM 等。如此一來,CPU 就可以作為一種更高效的計算資源存在,而不再負擔統籌的工作。到這一層次的時候,這幾年時不時被談起的諸如 CPU 為中心、DPU 為中心之類的話題也就沒有太大意義了。80UCIe 與異構算力UCIe 的 In package 本質就是將整個芯片封裝視作主板,在基板上
181、組裝大量的芯粒,包括各種處理器、收發器,以及硬化的 IP。整體而言,UCIe 是一個基于并行連接的高性能系統接 口,主 要 是 面 向 PCIe/CXL 設 備(芯 片)的“組 裝”,如CPU、GPU、DSA、FPGA、ASIC 等的互聯。隨著人工智能時代的到來,異構計算已經是顯學,原則上,只要功率密度允許,這些異構計算單元的高密度集成可以交給UCIe完成。除了集成度的考慮,標準化的 Chiplet 也帶來了功能和成本的靈活性,對于不需要的單元,在制造時不參與封裝即可而對于傳統的處理器而言,對部分用戶無用的單元常常成為無用的“暗硅”,意味著成本的浪費。一個典型的例子就是 DSA,如英特爾第四代
182、可擴展至強處理器中的若干加速器,用戶可以付費開啟,但是,如果用戶不付費呢?這些 DSA 其實已經制造出來了。CXL 規劃了多種內存組織方式2023 新型算力中心調研報告 算存互連:Chiplet 與 CXL81 UCIe 的 In package 本質就是將整個芯片封裝視作主板UCIe 包括協議層(Protocol Layer)、適配層(Adapter Layer)和物理層(Physical Layer)。協議層支持 PCIe 6.0、CXL 2.0 和CXL 3.0,也支持用戶自定義。根據不同的的封裝等級,UCIe 也有不同的 Package module。通過用 UCIe 的適配層和 PH
183、Y 來替換PCIe/CXL 的 PHY 和數據包,就可以實現更低功耗和性能更優的Die-to-Die 互連接口。+82UCIe 考 慮 了 兩 種 不 同 等 級 的 封 裝:標 準 封 裝(Standard Package)和先進封裝(Advanced Package),凸塊間距、傳輸距離和能耗將有數量級的差異。譬如對于先進封裝,凸塊間距(Bump Pitch)為 25 55m,對應的是采用硅中介層為代表的2.5D 封裝技術的特點。以英特爾的 EMIB 為例,當前的凸塊間距即為 50m 左右,未來將向 25m,甚至 10m 演進。臺積電的InFO、CoWoS 也會有類似的規格和演進。而標準封
184、裝(2D)的規格對應的是目前應用最為廣泛的有機載板。+英特爾先進封裝的凸塊間距演進 UCIe 對兩種封裝的劃分2023 新型算力中心調研報告 算存互連:Chiplet 與 CXL83不同封裝的信號密度也是有本質差異的,如標準封裝模塊對應的是16 對數據線(TX、RX),而高級封裝模塊包含 64 對數據線,每32 個數據管腳還提供 2 個額外的管腳用于 Lane 修復。如果需要更大的帶寬,可以擴展更多的模塊,且模塊的頻率是可以獨立的。當然,UCIe 沒有必要急于跟進封裝技術的極限,更高密度的鍵合通常還是為私有(協議)接口準備的,典型的如存儲器(SRAM、HMB、3D NAND)的內部。UCIe
185、能夠滿足通用總線的連接需求即可,如PCIe、UPI、NVLink 等。值得一提的是,UCIe 對高速 PCIe 的深度捆綁,注定了它“嫌貧愛富”的格局。實際上,SoC(System on Chip)是一個相當寬泛的概念,UCIe 面向的可以看做是宏系統集成(Macro-System on Chip)。而在傳統觀念中適合低成本、高密度的 SoC 可能需要集成大量的收發器、傳感器、塊存儲設備等等。再譬如,一些面向邊緣場景的推理應用、視頻流處理的 IP 設計企業相當活躍,這些 IP+UCIe 規劃了兩種等級封裝的性能目標84+在國際大廠合縱連橫推出UCIe 為代表的 Chiplet 連 接 標 準
186、之 際,中 國也并未缺席這一技術潮流,而是基于國內產業界資源,積極制定本土的 相關標準。2023 新型算力中心調研報告 算存互連:Chiplet 與 CXL可能需要更靈活的商品化落地方式。既然相對低速設備的集成不在UCIe 的考慮范圍內,低速、低成本接口的標準化尚有空間。Chiplet 的中國力量在國際大廠合縱連橫推出 UCIe 為代表的 Chiplet 連接標準之際,中國也并未缺席這一技術潮流,而是基于國內產業界資源,積極制定本土的相關標準。小芯片接口總線技術要求早在 2020 年 8 月,中科院計算所牽頭成立了中國計算機互連技術聯盟(CCITA),重點圍繞 Chiplet 小芯片和微電子芯
187、片光 I/O 成立了兩個標準工作組,并于 2021 年 6 月在工信部中國電子工業標準化技術協會立項了小芯片接口總線技術和微電子芯片光互連接口技術兩項團體標準。其中小芯片項目集結了國內產業鏈上下游六十多家單位共同參與研究。2022 年 3 月,由中科院計算所、工信部電子四院以及多家國內芯片廠商合作,小芯片接口總線技術要求完成草案并公示。2022年12月16日,在第二屆中國互連技術與產業大會上,小芯片接口總線技術要求團體標準正式面向世界發布。2023 年 2 月,由中國電子工業標準化技術協會審訂,首個由中國企業和專家主導制訂的 Chiplet 技術標準小芯片接口總線技術要求(T/CESA 124
188、8-2023)正式實施。小芯片接口總線技術要求兼顧了 PCIe 等現有協議的支持,包括并行總線接口技術、差分串行總線接口技術和單端串行總線接口技術三種,采用 DC 耦合方式以簡化 PHY IP 和封裝基本實現復雜度,速率 5 32GT/s,目標誤碼率為 1E-15。CCITA 已經在考慮和UCIe 在物理層上兼容,以降低 IP 廠商支持多種 Chiplet 標準的成本。85Chiplet 走出“初級階段”為了滿足板內甚至封裝內高速互聯的需要,半導體大廠(設計、代工)都有相關的互聯總線協議和接口標準。譬如板內的有 Intel 的 QPI/UPI、AMD 的 Infinity Fabric、NVI
189、DIA 的 NVLink,這 些 通 常 是 私有協議;面向高級封裝的有 Intel 的 AIB、IEEE 的 MDIO、TSMC 的LIPINCON 和 OCP 的 BoW 等,這些大多是開放協議。一些 IP 企業,如Rambus、Kandou、Cadence 等,也提出了一些方案,而且主要是基于串行連接方式選擇串行方案,通常意味著相對較低的成本、較86+2023 新型算力中心調研報告 算存互連:Chiplet 與 CXL遠的傳輸距離,有利于吸引生態圈內更多(更弱勢)的參與者。國內學界和部分企業也在試圖建立自己的標準,爭奪話語權,絕大多數處于草案甚至立項階段。不論是大廠,還是產業界的老面孔,
190、亦或是學界,積極探索 Chiplet 技術帶來了百花齊放百家爭鳴的局面,也會帶來資源浪費。湮沒在歷史長河中的標準,不計其數。目前是 Chiplet 發展的早期階段,主要是解決技術瓶頸和成本約束的問題。這個階段內,Chiplet 考慮的主要是芯片的切分問題,譬如由大拆小、功能與制程的匹配等。應用這種思路的主要是服務器處理器為代表的“大芯片”,不論它們是來自老牌大廠,還是互聯網新貴。如果第一階段可以稱為“實現”,那么,Chiplet第二階段的目標則是“復用”。進入這個階段的企業還不太多。其中的成功典型是 AMD,其核心 IP(CCD、IOD)都實現復用,可以滿足不同產品線甚至跨代產品線的需要,有效
191、攤薄設計投入,也降低了生產成本。另一個能稱得上復用的例子是 Apple 的 M1 Max/Ultra、M2 Max/Ultra 這類產品。AWS Graviton3 的內存、PCIe 控制器可能在未來的產品中也會被復用,尚待觀察。第三階段就是本章開頭提到的愿景了,IP 硬化、芯粒商品化、貨架化,不同廠商(而不是代工方)的芯片可以通用。這不僅需要包括UCIe、BoW 在內的多種標準完成競合,出現若干主導性的標準,還需要整個產業界探索出新的設計、驗證流程,明確生產中的責任歸屬,甚至在安全性方面也會有巨大的挑戰。國內產業界則將 Chiplet 視為“彎道超車”的機會。如果從第一階段角度看,在國外大廠
192、面臨生產技術瓶頸的時候,國內部分互聯網大廠、獨角獸企業確實有機會通過 Chiplet 以相對合理的成本推出有競爭力的明星產品。但是,國內企業需要有能力、有決心、有市場進行長期投資,讓旗下產品持續迭代,產品矩陣羽翼豐滿,才有可能進入第二階段。至于第三階段,要的不僅僅是腳踏實地發展的耐心,還要有大格局。87CHAPTER4算力互連由內及外,由小漸大2023 新型算力中心調研報告88算力互連:由內及外,由小漸大隨著“東數西算”工程的推進,諸如“東數西渲”、“東數西訓”等細分場景也逐漸被提起。視 頻 渲 染 和 人 工 智 能(Artificial Intelligence,AI)/機 器 學 習(M
193、achine Learning,ML)的訓練任務,本質上都屬于離線計算或批處理性質,完全可以在“東數西存”的基礎上,即原始素材或歷史數據傳輸到位于西部地區的數據中心之后,就地獨立完成計算過程,中間極少與東部地區的數據中心交互,因此可以不受跨地域的時延影響。換言之,“東數西渲”、“東數西訓”的業務邏輯能夠成立,是因為計算與存儲仍是就近耦合的,不需要面對跨地域的“存算分離”挑戰。在服務器內部,CPU 與 GPU 存在著類似而又不同的關系。以目前火熱的大模型為例,對計算性能和內存容量都有很高的要求,而 CPU與 GPU 在這方面偏偏存在“錯配”的現象:GPU 的(AI)算力明顯高于 CPU,但是直屬
194、的內存(顯存)容量基本不超過 100GB,與CPU 動輒 TB 級的內存容量相比,相差一個數量級。好在,CPU 與 GPU 之間的距離可以縮短,帶寬可以提升。消除互連瓶頸之后,可以大量減少不必要的數據移動,提高 GPU 的利用率。為 GPU 而生的 CPUNVIDIA Grace CPU 的核心基于 Arm Neoverse V2,互連架構 SCF(Scalable Coherency Fabric,可擴展一致性結構)也可以看作是 Arm CMN-700 網格的定制版。但是在對外 I/O 的部分,NVIDIA Grace CPU 與其他 Arm 和 x86 服務器都有很大的不同,體現出英偉達做
195、這款 CPU 的主要意圖為需要高速訪問大內存的 GPU 服務。內存方面,Grace CPU 有 16 個 LPDDR5X 內存控制器,這些內存控制器對應著 CPU 外面封裝在一起的 8 個 LPDD5X 芯片,裸容量512GB,扣除 ECC 開銷后,可用容量為 480GB。這樣看來,有 1 個內存控制器及其對應的 LPDDR5X 內存 die 被用于 ECC。在英偉達的官方資料里,與 512GB 內存容量同時出現的內存帶寬2023 新型算力中心調研報告 算力互連:由內及外,由小漸大89參數是 546GB/s,而與 480GB(w/ECC)一同出現的是(約)500GB/s,實際的內存帶寬應該是
196、512GB/s 左右。PCIe 控制器是一定要有的,Arm CPU 的慣例是有一部分 PCIe 通道會與 CCIX 復用,但這樣的 CCIX 互連帶寬太弱了,還不如英特爾專用于 CPU 間互連的 QPI/UPI,英偉達肯定是看不上的。NVIDIA Grace 的 I/OGrace CPU 提供 68 個 PCIe 5.0 通道,其中有 2 個 x16 也可以用作12 通道一致性 NVLink(coherent NVLINK,cNVLINK)。真正用于芯片(CPU/GPU)之間互連的,是與 cNVLINK/PCIe 隔“核”相望的 NVLink-C2C 接口,帶寬高達 900GB/s。NVLin
197、k-C2C,其中的 C2C 就是 chip to chip 之意。根據 NVIDIA 在ISSCC2023 中的論文,NVLink-C2C 由 10 組連接(每組 9 對信號和1 對時鐘),共 200 個 I/O 構成,NRZ 調制,工作頻率 20GHz,總帶寬為 900GB/s。每個封裝內的傳輸距離為 30mm,PCB 上的傳輸距離為 60mm。對于 NVIDIA Grace CPU 超級芯片,用 NVLink-C2C 連接兩個 CPU,構成一個 144 核的模塊;對于 NVIDIA Grace Hopper Superchip(超級芯片),那就是把 Grace CPU 和 Hopper G
198、PU 互聯。+NVLink-C2C90 NVIDIA Grace 的處理器、內存互聯帶寬非??捎^NVLink-C2C 的帶寬為 900GB/s,這是一個相當驚人的數據。作為參考:Intel 代號 Sapphire Rapids 的第四代至強可擴展處理器包含 3 或4 組 x24 UPI 2.0(16GT/s),多路處理器間互聯的總帶寬接近200GB/s;AMD 第四代 EPYC 用于處理器內 CCD 與 IOD 互聯的 GMI3 接口帶寬為36GB/s,CPU間互聯的Infinity Fabric相當于16通道PCIe 5.0,帶寬為 32GB/s。雙路 EPYC 9004 之間可以選擇使用
199、3 或 4 組 Infinity Fabric 互聯,4 組的總帶寬為 128GB/s。AMD Infinity Fabric2023 新型算力中心調研報告 算力互連:由內及外,由小漸大91通過巨大的帶寬,兩顆 Grace CPU 被緊密聯系在一起,其“緊密”程度遠超傳統的多路處理器系統,已足以匹敵現有的基于有機載板的多數 Chiplet 封裝方案(2D 封裝)。要超越這個帶寬,需要硅中介層(2.5D 封裝)的出馬,例如 Apple M1 Ultra 的 Ultra Fusion 架構是利用硅中介層來連接兩顆 M1 Max 芯粒。蘋果宣稱 Ultra Fusion 可同時傳輸超過 10,000
200、 個信號,從而實現高達 2.5TB/s 低延遲處理器互聯帶寬。Intel 的 EMIB 也是 2.5D 封裝的一種,其芯粒間的互聯帶寬也應當是 TB 級。NVLink-C2C 另一個重要應用案例是 GH200 Grace Hopper 超級芯片,將一顆Grace CPU與一顆Hopper GPU互聯。格蕾絲霍波(Grace Hopper)是世界上第一位著名女程序員,“bug”術語的發明者。因此,NVIDIA 將這一代 CPU 和 GPU 分別命名為 Grace 和 Hopper,其實是有深意的,充分說明在前期規劃中,二者便是強綁定的關系。NVIDIA Grace Hopper 超級芯片+NVI
201、DIA Grace Hopper 超級芯片主要規格92 NVIDIA Grace Hopper 超級芯片的互聯架構考慮到 CPU+GPU 的異構組合,二者之間交換數據的效率(帶寬、延遲)就是一個非常值得重視的問題,尤其是超大機器學習模型的時代GPU 本地顯存過于昂貴,容量實在捉襟見肘。NVIDIA 為 Hopper GPU 配備了大容量的高速顯存,為該系列的滿配 6 組顯存控制器全開,容量 96GB,顯存位寬 6144bit,帶寬達到 3TB/s。作為對比,獨立的 GPU 卡 H100,根據不同版本,其顯 存 配 置 有 80GB HBM2e(H100 PCIe)、80GB HBM3(H100
202、 SXM),以及 GTC2023 上剛發布的雙卡組合 H100 NVL 的 188GB HBM3。其中前二者均只啟用了 5 組顯存控制器。Grace CPU 則搭載了 480GB 的 LPDDR5X 內存,帶寬略超 500GB/s。這個內存配置有省電及空間緊湊的優勢,但付出了可擴展性(容量)的代價。表面上看,Grace 的內存帶寬與使用 DDR5 內存的競品處于同一水平。譬如 AMD EPYC 9004 系列,12 通道 DDR5 4800 內存可以提供 461GB/s 的帶寬,雙路系統則可以實現超過 900GB/s 的內存帶寬。但是,相比于內存帶寬上的這點差異,GPU 與 CPU 之間的互連
203、才是決定性的典型的 x86 CPU,到 GPU 只能通過 PCIe,這個帶寬比 NVLink-C2C 至少低一個數量級!與PCIe相比,NVLink還有緩存一致性的優勢,CPU與GPU之間、GPU與 GPU 之間是可以互相尋址內存的。通過 NVLink-C2C,Hopper GPU可以順暢地訪問CPU內存,這不僅是H100 PCIe無法企及的,就連 H100 SXM 都會羨慕以 NVIDIA HGX 4GPU 為基準,Grace 簡而言之,CPU 擁有的內存容量是 GPU 不能比的,帶寬也還可以,但GPU 到 CPU 之間的互連(PCIe)才是瓶頸所在。要改變這一點,親自下場做 CPU 是最直
204、接的。+2023 新型算力中心調研報告 算力互連:由內及外,由小漸大93Hopper 超級芯片中每 GPU 可分配的帶寬為 3.5 倍。另外,高帶寬的直接尋址還可以轉化為容量優勢:Grace Hopper 超級芯片中的GPU可以尋址576GB(480GB+96GB)本地內存。更高的內存帶寬、更低的延遲有利于超大模型的機器學習等應用。簡而言之,CPU擁有的內存容量是GPU不能比的,帶寬也還可以,但GPU 到 CPU 之間的互連(PCIe)才是瓶頸所在。要改變這一點,親自下場做 CPU 是最直接的。NVLink-C2C 的帶寬足以匹配(CPU 的)內存,訪問內存的友好度也超過 PCIe,都是 GH
205、200 Grace Hopper 超級芯片相對 x86+GPU方案的核心優勢。NVLink-C2C 的另一個亮點是能效比,英偉達宣稱 NVLink-C2C 每傳輸 1 比特數據僅消耗 1.3 皮焦耳能量,大約是PCIe 5.0 的五分之一,再考慮速率,那就有 25 倍的能效差異了。這種比較當然不夠公平,畢竟 PCIe 是板間的通訊,傳輸距離有本質的區別。但這個數據也有助于理解 NVLink-C2C 相對 NVLink 的能效差異,后者大概參考 PCIe 的量級來看即可。在能效方面,傳輸距離和封裝方式與 NVLink-C2C 類似的接口總線是 AMD 用于 EPYC 的Infinity Fabr
206、ic,大概是 1.5pJ/b。至于 2.5D、3D Chiplet 使用的接口,如 UCIe、EMIB 等的能耗還要再低一個數量級,大致的情況可以參考下面的表格。NVLink 最初是為滿足 GPU 之間高速交換數據而生的,在 NVSwitch的幫助下,可以把服務器內部的多個 GPU 連為一體,獲得容量成倍增加的顯存池?;ヂ摻涌?能耗 Infinity Fabric 1.5 pJ/b NVLink-C2C 1.3 pJ/b UCIe 高級封裝 0.25 pJ/b UCIe 標準封裝 0.5 pJ/b TSMC CoWoS 0.56 pJ/b Foveros 0.2 pJ/b EMIB 0.3 p
207、J/b+94NVLink 之 GPU 互連NVLink 的目標是突破 PCIe 接口的帶寬瓶頸,提高 GPU 之間交換數據的效率。2016 年發布的 P100 搭載了第一代 NVLink,提供 160 GB/s 的帶寬,相當于當時 PCIe 3.0 x16 帶寬的 5 倍。V100 搭載的NVLink2 將帶寬提升到了 300 GB/s,接近 PCIe 4.0 x16 的 5 倍。A100 搭載了 NVLink3,帶寬為 600 GB/S。H100 搭載的則是 NVLink4。相對 NVLink3,NVLink4 不僅增加了鏈接數量,內涵也有比較重大的變化。NVLink3 中,每個鏈接通道使用
208、 4 個 50Gb/s 差分對,每通道單向 25GB/s,雙向 50GB/s。A100 使用 12 個 NVLink3 鏈接,總共構成了 600GB/s 的帶寬。NVLink4 則改為每鏈接通道使用 2 個 100Gb/s 差分對,每通道雙向帶寬依舊為 50GB/s,但線路數量減少了。在 H100 上可以提供 18個 NVLink4 鏈接,總共 900GB/s 帶寬。NVIDIA 的 GPU 大多提供了 NVLink 接口,其中 PCIe 版本可以通過NVLink Bridge 互聯,但規模有限。更大規模的互聯還是得通過主板/基板上的 NVLink 進行組織,與之對應的 GPU 有 NVIDI
209、A 私有的規格 SXM。SXM 規格的 NVIDIA GPU主要應用于數據中心場景,其基本形態為長方形,正面看不到金手指,屬于一種 mezzanine 卡,采用類似 CPU 插座的水平安裝方式“扣”在主板上,通常是 4-GPU 或 8-GPU 一組。其中 4-GPU 的系統可以不通過 NVSwitch 即可彼此直連,而 8-GPU 系統需要使用NVSwitch。NVIDIA V100 SXM2 版本正反面,提供 NVLink2 連接+2023 新型算力中心調研報告 算力互連:由內及外,由小漸大95 NVIDIA HGX A100 8-GPU 系統。此圖完整展現了主要結構、安裝形式和散熱。其中右
210、側的兩塊 A100 SXM 沒有安裝散熱器。右上角未覆蓋散熱器的細長方形芯片即為 NVSwitch NVIDIA HGX A100 4-GPU 系 統 的 組 織 結 構。每 個 A100 的 12 條NVLink 被均分為 3 組,分別與其他 3 個 A100 直聯+96 NVIDIA HGX H100 8-GPU 系 統 的 組 織 結 構。每 個 H100 的 18 條NVLink 被分為 4 組,分別與 4 個 NVSwitch 互聯。經過多代發展之后,NVLink 日趨成熟,已經開始應用于 GPU 服務器之間的互連,進一步擴大 GPU(及其顯存的)集群規模。NVLink 組網超級集群
211、在 2023 年 5 月底召開的 COMPUTEX 上,英偉達公布了 256 個Grace Hopper 超級芯片組成的集群,GPU 內存總量達 144TB。以GPT 為代表的大語言模型(Large Language Model,LLM)對顯存的容量需求極其迫切,巨量顯存將迎合大模型的發展趨勢。那么,這個前所未見的容量是如何達成的?NVLink4 Networks 是一個重大創新,讓 NVLink 可以擴展到節點之外。通過 DGX A100 和 DGX H100 各自構建 256-GPU SuperPOD的架構圖,可以直觀感受到 NVLink4 Networks 的特點。在 DGX A100
212、SuperPOD 中,每 個 DGX 節 點 的 8-GPU 是 通 過 NVLink3互聯的,而 32 個節點則需要通過 HDR InfiniBand 200G 網卡和Quantum QM8790 交換機互聯。在 DGX H100 SuperPOD 中,節點內部是 NVLink4 互聯 8-GPU,節點之間通過 NVLink4 Network互聯,各節點接入稱為 NVLink Switch 的設備。2023 新型算力中心調研報告 算力互連:由內及外,由小漸大97 HGX H100 8-GPU 的 NVLink-Network 連接在NVIDIA提供的架構信息中,NVLink Network支
213、持了OSFP(Octal Small Form Factor Pluggable)光口。這也符合 NVIDIA 宣稱的線纜長度從 5 米增加至 20 米的說法。DGX H100 SuperPOD 使用的NVLink Switch規格為:端口數量128個,32個OSFP籠(cage),總帶寬 6.4TB/s。DGX A100 和 DGX H100 256 SuperPOD 架構98 DGX H100 SuperPOD 節點內部的網絡架構每 個 8-GPU 節 點 內 部 有 4 個 NVSwitch,對 于 DGX H100 SuperPOD,每個 NVSwitch 都通過 4 或 5 條 NV
214、Link 對外連接。每條 NVLink 是 50GB/s 帶寬,對應一個 OSFP 則相當于 400Gb/s,是非常成熟的。每個節點總共需要連接 18 個 OSFP 接口,32 個節點共需要 576 個連接,對應 18 臺 NVLink Switch。DGX H100 也可以(僅)通過 InfiniBand 互聯,參考 DGX H100 BasePOD 的配置,其中的 DGX H100 系統配置了 8 個 H100、雙路56 核第四代英特爾至強可擴展處理器、2TB DDR5 內存,搭配了 4塊 ConnectX-7 網卡其中 3 塊雙端口卡為管理和存儲服務,還有一塊 4 OSFP 口的用于計算
215、網絡。2023 新型算力中心調研報告 算力互連:由內及外,由小漸大99回到 Grace Hooper 超級芯片,NVIDIA 提供了一個簡化的示意圖,其中的 Hooper GPU 上的 18 條 NVLink4 與 NVLink Switch 相連。NVLink Switch 連接了“兩組”Grace Hopper 超級芯片。任何 GPU 都可以通過 NVLink-C2C 和 NVLink Switch 訪問網絡內其他CPU、GPU 的內存。NVLink4 Networks 的規模是 256 個 GPU注意,是 GPU,而不是超級芯片,因為 NVLink4 連接是通過 H100 GPU 提供的
216、。對于 Grace Hopper 超級芯片,這個集群的內存上限就是:(480GB內存+96GB 顯存)256 節點=147456GB,即 144TB 的規模。假如 NVIDIA 推出了 GTC2022 中提到的 Grace+2Hopper,那么,按照 NVLink Switch 的 接 入 能 力,那 就 是 128 個 Grace 和 256 個Hopper,整個集群的內存容量將下降至約 80TB 量級。Grace Hooper 超級芯片之間的互聯在 COMPUTEX 2023 期間,NVIDIA 宣布 Grace Hopper 超級芯片已經量產,并發布了基于此的 DGX GH200 超級計
217、算機。NVIDIA DGX GH200使用了256組Grace Hopper超級芯片,以及NVLink互聯,整個集群提供高達144TB的可共享的“顯存”,以滿足超大模型的需求。先列幾個數字來感受一下,NVIDIA 以一己之力打造的 E 級超算系統。算力:1 exa Flops(FP8)光纖總長度:150 英里風扇數量:2112 個(60mm)風量:7 萬立方英尺/分鐘(CFM)重量:4 萬磅顯存:144 TBNVLink 帶寬:230 TB/s+100從 150 英里的光纖長度,我們就可以感受其網絡復雜度。這個集群的整體網絡資源如下:由于 Grace Hopper 芯片上只有 CPU 和 GP
218、U 各一,GPU 數量遠少于 DGX H100,同樣達到 256 個 GPU 所需的節點數大為增加,導致NVLink Network 的架構復雜很多:NVIDIA DGX GH200 集群內的 NVLink 網絡架構256x OSFP single-port NVIDIA ConnectX7 VPI with 400Gb/s InfiniBand256x dual-port NVIDIA BlueField3 VPI with 200Gb/s InfiniBand and Ethernet24x NVIDIA Quantum-2 QM9700 InfiniBand Switches20 x N
219、VIDIA Spectrum SN2201 Ethernet Switches22x NVIDIA Spectrum SN3700 Ethernet Switches96x L1 NVIDIA NVLink Switches36x L2 NVIDIA NVLink SwitchesNetworkingNVIDIA NVLinkSwitch System+2023 新型算力中心調研報告 算力互連:由內及外,由小漸大101GH200 的每個節點有 3 組 NVLink 對外連接,每個 NVLink Switch連接 8 個節點。256 個節點總共分為 32 組,每組 8 個節點搭配 3臺 L1 N
220、VLink Switch,共需要使用 96 臺交換機。這 32 組網絡還要通過 36 臺 L2 NVLink Switch 組織在一起。相比 DGX H100 SuperPOD,GH200 的節點數量大幅增加,NVLink Network 的復雜度明顯提高了。二者的對比如下:DGX H100 SuperPOD DGX GH200 差異 節點數量 32 256 8x交換機數量 18 96+36 7.3x節點 NVLink出口(理論)576 4608 8x+1022023 新型算力中心調研報告 算力互連:由內及外,由小漸大InfiniBand 擴大規模 如 果 需 要 更 大 規 模(超 過 25
221、6 個 GPU)的 集 群,那 就 得 InfiniBand 交換機上場了。對于 Grace Hopper 超級芯片的大規模 集群,NVIDIA 的建議是采用 Quantum-2 交換機組網,提供 NDR 400 Gb/s 端口;每個節點配置 BlueField-3 DPU(已經集成了 ConnectX-7),每 DPU 都提供 2 個 400Gb/s 端口,總帶寬就是 100GB/s。理論上,使用以太網連接也能有類似的帶寬水平,但既然 NVIDIA 收購了 Mellanox,偏愛 InfiniBand 完全可以理解。NVIDIA BlueField-3 DPU 基于 InfiniBand N
222、DR400 組織的 Grace Hopper 超級芯片集群有 兩種架構。一種是完全采用 InfiniBand 連接,另一種是混合配置 NVLink Switch 和 InfiniBand 連接。二者的共同點是:各節點均通 過雙端口(共 800Gbps)連接 InfiniBand 交換機,DPU 占用 x32 的 PCIe 5.0,由 Grace CPU 提供 PCIe 連接。二者的區別是:后者 每個節點還通過 GPU 接入 NVLink Switch 連接,構成若干 NVLink 子集群。很顯然,混合配置 InfiniBand 和 NVLink Switch 的方案性能更好,畢 竟部分 GPU
223、 之間擁有更大的帶寬,以及對內存的原子操作。譬如 NVIDIA 計劃打造超級計算機 Helios,將由 4 個 DGX GH200 系統 組成通過 Quantum-2 InfiniBand 400 Gb/s 網絡組織起來?;?合 配 置 InfiniBand 和NVLink Switch 的方案性能更好,畢竟部分 GPU之間擁有更大的帶寬,以及對內存的原子操作。譬如 NVIDIA 計劃打造超級計算機 Helios,將由4 個 DGX GH200 系統組成通過 Quantum-2 InfiniBand 400 Gb/s 網絡組織起來。+103+104 NVIDIA H100 NVLTIPS202
224、3 新型算力中心調研報告 算力互連:由內及外,由小漸大從 H100 NVL 的角度再看 NVLink在 GTC2023 上,英偉達發布了面向大語言模型部署的 NVIDIA H100 NVL,與 H100 家族的另外兩個版本單卡(SXM、PCIe)相比,它有兩大特別之處:首 先,H100 NVL 相 當 于兩 張 H100 PCIe 通 過 3 塊 NVLink bridge 連 接 在 一起;其次,每張卡有接近足額的 94GB 顯 存,連 H100 SXM5 都沒有這樣的待遇。按 照 英 偉 達 官 方 文 檔 的 介紹,H100 PCIe 的 雙 插 槽NVLink 橋接沿用自上一代的 A1
225、00 PCIe,因此 H100 NVL 的 NVLink 互連帶寬為600GB/s,仍 有 通 過 PCIe 5.0 互 連(128GB/s)的 4倍以上。H100 NVL 由 兩 張 H100 PCIe 卡 拼 合 的 顆 粒 度 和 產 品 形態,適合推理應用,經高速 NVLink 連為一體的顯存容量高達 188GB,以滿足大語言模型的(推理)需求。如 果 把 H100 NVL 的 NVLink 互 連 視 為 縮 水 版 的 NVLink-C2C,應該有助于對 NVLink 通過算力單元互連加速內存訪問的理解。事實上,與 H100 NVL 一同發布的還有 3 款推理卡,其中就有面向推薦模
226、型的 NVIDIA Grace Hopper。105CHAPTER5綠色低碳和可持續發展2023 新型算力中心調研報告106目前,我國算力基礎設施迎來了多樣化發展的繁榮期,結合不同應用場景需求的異構化布局將加快推進。在超級算力方面,2023 年 4 月17 日,國家超算互聯網聯合體成立,北京、貴州、上海、惠州、天津等地算力基礎設施計劃持續落地,算力建設持續提速。傳統的高性能計算,更偏向于天氣預報、大型工程設計和基礎科學研究等應用場景,而未來,超算互聯網是由各大超算中心提供算力,以軟件和服務等形式提供給科研機構、公司企業。在通用算力方面,工信部數據顯示,截止 2021 年底,我國在用數據中心機架
227、總規模超過 520 萬標準機架,平均上架率超過 55%。在智能算力方面,根據智能計算中心創新發展指南,2022 年我國智能算力規??焖僭鲩L,達到 268 百億億次每秒(EFLOPS),超過通用算力規模,預計未來 5 年中國智能算力規模的年復合增長率將達52.3%。數據來源:智能計算中心創新發展指南對于算力中心而言,算力規模持續增長,隨之而來的是散熱壓力和節能挑戰。目前,作為服務器關鍵部件的 CPU/GPU,隨著性能提升功耗增加非常顯著。CPU 方面,第四代英特爾至強可擴展處理器的核心數最多可達 60 個,比代號 Ice Lake(-SP)的第三代至強可擴展處理器高出 50%。相應的,公開款的
228、TDP 指標上限,也從 270 瓦(W)一躍而至 350 瓦。AMD EPYC 9004 系列處理器,最大功率可達 400W。1,4001,2001,000800600400200031.775.0155.2268.0427.0640.7922.81,271.42019 2020 2021 2022 2023 2024 2025 2026百億億次浮點運算/秒(EFLOPS)中國智能算力發展趨勢520萬+2021 年底,數據中心機架總規模55%+平均上架率52.3%未來 5 年我國智能算力規模的年復合增長率268百億億次每秒(EFLOPS)2022 年智能算力規模2023 新型算力中心調研報告
229、綠色低碳和可持續發展107GPU 方面,2022 年英偉達于 GTC 大會上發布針對數據中心的新一代Hopper 架構的 GPU 芯片單顆功耗達到 700 瓦,挑戰傳統風冷系統散熱的能力邊界。相比于傳統服務器,AI 服務器的功耗更高,隨著 AI 大模型與訓練需求的持續增長,AI 服務器的市場規模將會繼續擴大。根據 IDC 數據,2022 年全球 AI 服務器市場規模達 202 億美元,同比增長 29.8%,占服務器市場規模的比例為 16.4%。數據整理:益企研究院核心器件功耗的持續攀升給數據中心帶來散熱問題和能源效率挑戰。傳統的風冷主要依靠的就是散熱面積和風量,在服務器內部的有限空間內,散熱面
230、積難以擴展,需要更大的風量,意味著提高風扇轉速,不僅讓風扇的功耗上升,同時風扇產生的震動和噪音也會嚴重影響機械硬盤(HDD)的性能。從能源效率(能效)來看,芯片功耗提升,數據中心功率密度增高,產生更多熱量,需要部署更多的空調控制機房溫度,空調本身的用電也會上升,使數據中心能源效率變低,PUE 居高不下。提高服務器的能效有助于節能。益企研究院出品的2018 年中國超大規模云數據中心考察報告指出,在數據中心層面,更重要的是將IT 和基礎設施作為一個整體考慮,提升數據中心整體的能效,達到進一步降低數據中心 PUE 的目的。在國家政策的指引下,傳統數據中心加快向高算力、高能效、低功耗,更+從能源效率(
231、能效)來看,芯片功耗提升,數據中心功率密度增高,產生更多熱量,需要部署更多的空調控制機房溫度,空調本身的用電也會上升,使數據中心能源效率變低,PUE 居高不下。108綠色特征的新型數據中心演進。2019 年:工信部、國管局和國家能源局發布關于加強綠色數據中心建設的指導意見中提到 2022 年,PUE 達到 1.4 以下,改造使電能使用效率值不高于 1.8;2021年:工信部發布 新型數據中心三年行動計劃(2021-2023)中提到 2021 年底,新建數據中心 PUE 降低到 1.35 以下,到2023年底降低到1.3以下,嚴寒和寒冷地區力爭降低到1.25以下;2021 年:工信部、國管局和國
232、家能源局發布貫徹落實碳達峰碳中和目標要求推動數據中心和 5G 等新型基礎設施綠色高質量發展實施方案中提到 2025 年,全國新建數據中心 PUE 降到 1.3以下,國家樞紐節點進一步降到 1.25 以下;2022 年:工信部、發改委、財政部等六部門聯合發布工業能效提升行動計劃中提到 2025 年,新建大型、超大型數據中心PUE 優于 1.3。通過上述國家政策的出臺可以看到對數據中心 PUE 指標控制更加嚴格,很多地區要求 PUE 做到 1.3 及 1.25,甚至 1.2 以下。而在應對新一輪低碳技術帶來整體數據中心的技術變革中,液冷技術成為降低PUE 的有效方式之一。液冷的優勢在于,單位體積的
233、液體帶走熱量的能力通常比空氣強得多,可以用較緩慢的流速冷卻更高發熱量的部件,而且工作溫度也可以相對高一些。這就意味著液冷即使在氣溫較高的地區也可以更多的利用自然冷源,減少對電能的使用,具有更好的節能效果。液冷數據中心可以提供更高溫度的余熱,充分利用這些余熱可以實現供暖、提供衛生熱水等等,可以有效減少供熱設備能耗,大大降低了建筑和園區碳排放。比如上海交通大學計算中心的“思源一號”,除了能提供非常強大算力之外,還是國內唯一采用了熱回收技術的超算中心,采用溫水冷卻技術,回收超算產生的熱量。冷卻水經CDU(冷液分配單元)后流入熱回收板式換熱器,與球體大廳、地下室、實驗室的相關空調系統回水熱交換后進入蓄
234、熱水箱,一部分供給廚房生活熱水系統,一部分供給球體大廳、地下室、實驗室的相關空調系統。通過余熱回收替代原有消耗的電力包括燃氣能源等,每年能夠實現多達950 噸、約 10%比例的額外碳排放補償。+提高服務器的能效有助于節能。益企研究院出品的2018 年中國超大規模云數據中心考察報告指出,在數據中心層面,更重要的是將 IT和基礎設施作為一個整體考慮,提升數據中心整體的能效,達到進一步降低數據中心 PUE 的目的。2023 新型算力中心調研報告 綠色低碳和可持續發展109+思源一號熱回收原理圖110液冷應用 高性能計算中心跨越功耗墻人類對宇宙探索的好奇心與對問題規模和精度的追求,決定了高性能計算能力
235、的需求持續增長,而隨著運算速度的不斷改善,高性能計算中心成為液冷技術的早期用戶,畢竟對于超級計算機這樣的龐然大物來說,能耗是非常棘手的問題,超級計算機的耗電量又很大。在跨越功耗墻的進程中,早些年,美國國家安全局、美國空軍、CGG、ORANGE、VIENNA 科學計算集群、日本東京工業大學就使用了 Green Revolution Cooling(GRC)的浸沒式液冷技術,美國 AFRL、ERDL、法國 TUTAL、歐洲AWE 等使用了 SGI 的液冷服務器。而在水冷技術層面,我們曾在 2016年全球超算大會(2016 ISC)期間參觀位于德國萊布尼茨實驗室的SuperMUC,號稱首個采用溫水水
236、冷技術的HPC集群,聯想NeXtScale System 在該實驗室部署了 9216 節點,峰值運算速度 2,897,000 萬億次(Gflops),整機效能高達 90.95%,PUE 低至 1.1。在中國,神威太湖之光全方位的綠色節能也是一大突破,采用液冷技術,功耗遠低于早期的其他超算中心。2018 年 1 月 3 日北京大學高性能計算校級公共平臺正式揭牌啟用,“未名一號”、“未名教學一號”和“未名生科一號”等多套集群陸續投入運行,主要是面向全校提供數學、深度學習、大氣海洋環境、新能源新材料、天文地球物理、生物醫藥健康等領域提供高性能科學與工程計算服務,作為國內第一個溫水水冷的大規模超算集群
237、,計算峰值達 3.65PFLOPS,存儲容量 14PB,節能效果顯著,LINPACK 效率達到 92.6%,PUE 值達到 1.1。而在浸沒式液冷技術的應用上,據公開資料顯示,華中科技大學成為了中國首個成功實現商業化應用的全浸沒液冷高性能計算平臺和數據中心。2023 新型算力中心調研報告 綠色低碳和可持續發展 北京大學高性能計算中心1.1PUE9216節點聯想 NeXtScale System2,897,000萬億次(Gflops)峰值運算速度90.95%整機效能111液冷實踐 全棧數據中心理念落地隨著中國互聯網、云計算的發展,超大規模數據中心應用的體量增加,數據中心的建設理念發生變化,最典型
238、的是數據中心的建設與IT 設備結合更緊密。大型互聯網公司對數據中心行業的改變也是真正從機房建設,到 IT 設備的設計,再到上層的應用程序,將產品技術與應用貫穿了數據中心的全流程,將數據中心基礎設施與 IT 基礎架構作為整體優化。為了更快的滿足業務需求,提高數據中心能效,大型互聯網公司將液冷技術規模應用在數據中心,繼而促進了價值鏈重構和產業生態演化。為此,益企研究院提出并完善“全棧數據中心”理念。全棧數據中心是縱貫 IT 基礎架構與數據中心基礎設施,把芯片、計算、存儲、網絡等技術和數據中心風火水電作為一個整體看待;上層業務需求的變化會通過芯片、計算和存儲等 IT 設備傳導到網絡架構層面,即數據中
239、心作為基礎設施也會相應的產生自上而下的變化。這也意味著服務器等 IT 設備的設計和液冷等先進技術的應用,以業務的視角實現應用與技術聯動,以數據中心整體的視角將制冷、供電以及監控運維實現垂直整合。從 2018 年始,數字中國萬里行團隊見證了液冷技術在云數據中心的應用,并在2018年中國超大規模云數據中心考察報告中加以介紹。常見的數據中心液冷方式主要包括噴淋式、冷板式和浸沒式三種。冷板式液冷相對成熟,雖然各家形態不同,但技術上差異不大。冷板式液冷是指采用液體作為傳熱工質在冷板內部流道流動,通過熱傳遞對熱源實現冷卻的非接觸液體冷卻技術。通過對 CPU 和內存覆+112蓋冷板,液體直接帶走這兩個高發熱
240、部件的熱量。液體在冷板內流動把 CPU 和內存的熱量帶走,自身溫度達到 45,之后經過與數據中心冷卻水交換后降低到35返回,繼續冷卻。液體主要有不導電、不結垢的去離子水或不導電、不腐蝕的特殊液體兩種。用戶可根據自身需求進行選擇,業界普遍認為前者更經濟,而后者更安全。冷板式液冷服務器對于目前的數據中心的架構影響不大,不需要對機柜的形態進行大幅度的改變,具有低噪音,高能效以及低總體擁有成本(TCO)的特點,可帶來傳統風冷數據中心所不具備的優勢,使得耗能可以大幅度下降,同時又給 CPU 和內存提供了更好的工作環境和工作溫度。浸沒式液冷總體方向比冷板式更進一步,給元器件提供更可靠和穩定的工作溫度,并具
241、有更高的能效。冷板式的服務器是的風冷和液冷混合,浸沒式則是可以完全去除空調的全液冷的數據中心。浸沒式液冷把所有的 IT 設備所有器件浸泡在液體里。主要分為相變式液冷和單相浸沒液冷。相變式液冷,采用沸點低、易揮發的液體作為冷媒,利用 CPU 等器件工作發熱使冷媒沸騰帶走熱量,制冷劑蒸汽在換熱器處冷凝,完成制冷循環,可以把冷卻系統的能耗降到最低。如曙光研發的相變液冷方案,就可讓數據中心實現全地域全年自然冷卻。而從產品形態上來看,相變液冷產品還可分為缸式相變液冷方案,以及刀片式相變液冷技術方案。刀片式相變液冷方案,因為其具有更高的計算密度,更易維護性以及可按需靈活增減計算節點等優勢。同時該方案對系統
242、自動化供電、減壓等有諸多技術要求,目前國內中科曙光實現了刀片式相變液冷方案的大規模部署。+2023 新型算力中心調研報告 綠色低碳和可持續發展113 曙光研發的浸沒式相變液冷系統單相式浸沒通過液體升溫帶走熱量,不需要發生相變,在整個過程中就可以把換熱設施和機柜實現分離,從而對換熱系統進行一定的冗余設置就可實現在線維護。兩種不同的設計方式也直接影響了維護方式。目前超算中心應用相變式的浸沒液冷較多,單相式浸沒液冷還更容易實現在線維護,適合通用型的云計算數據中心。+114 阿里仁和數據中心的單相式浸沒液冷系統液冷技術的推廣應用,是全棧數據中心理念的最佳落地實踐。舉例來說,液冷就很適合通過整機柜(服務
243、器)的形式交付。傳統上在數據中心,機柜是基礎設施團隊(風火水電、場地)與 IT 業務部門的分界線?;A設施團隊通常不會關注機柜里產品技術的演進(比如服務器產品);IT 業務團隊也很少了解基礎設施的細節?;ヂ摼W和云計算公司較多把機柜和服務器等 IT 設備做一個整體考慮。比如說阿里、騰訊、字節,服務器保有量都是百萬臺量級,在這樣的規模下把服務器和機柜作為整體設計進行優化,哪怕效率提升 1%都可以節省一大筆支出。而液冷技術天然適合整機柜交付模式,畢竟液冷更適合集中部署,需要突破服務器與整機整機柜界邊界。1、業務前置 模塊化交付過去幾年,整機柜服務器的設計已經跳出機柜本身,以數據中心乃至整個基礎設施的
244、視角,與數據中心的風火水電基礎設施緊密協同,同時也能夠與上層的應用和業務結合。以京東云自研液冷整機柜服務器為例,基于業務的視角給應用端提供各種各樣的可能性。京東業務涉及零售、金融、物流等多領域的服務,所以在整機柜設計時聚焦承載高 CPU 算力的通用算力平臺,可以承載熱存儲和溫存儲的應用。對于冷存儲、異構等應用,只是預留一些設計,以備未來有需要的時候可以開發。整機柜交付可提高交付效率、降低包材用量以及運輸所損耗的燃料,可大幅降低碳排放。+2023 新型算力中心調研報告 綠色低碳和可持續發展過去幾年,整機柜服務器的設計已經跳出機柜本身,以數據中心乃至整個基礎設施的視角,與數據中心的風火水電基礎設施
245、緊密協同,同時也能夠與上層的應用和業務結合。115 京東云自研液冷整機柜服務器京東云自研液冷整機柜服務器盡量把業務功能涉及的模塊放在前面,比如存儲模塊、IO模塊等業務功能前置,前出線使得維護更容易。而散熱和供電基礎設施后置,并預留支持能力,滿足 CPU 的散熱需求,風冷可以支持到 500 瓦,液冷可以支持到 800 瓦,甚至更高,如果需要更高功耗,可通過改變冷板設備等來實現??紤]數據中心生命周期很長,尤其是液冷技術的支持,預留三代平臺的支持,確保整機柜能夠在各種各樣的部署環境下使用,既可以在自建新機房使用,也可在液冷機房部署,支持各種各樣的設備類型和平臺。2、以全棧的視角 垂直整合 數據中心基
246、礎設施層面的能耗主要來自于制冷和供電模塊的損耗。以典型冷凍水數據中心舉例,從內到外包含有冷卻塔、冷卻水泵、冷水機組、冷凍水泵、空調等,都是用電設備;同樣數據中心供電架構從市電到一級轉化再到 UPS 到機柜,經歷幾次轉化后也會有供電損耗。整機柜服務器可以整合供電,不用 PDU 或者很少用 PDU,只起轉接不起配電的作用,把電給到電源箱,電源箱到銅排(busbar)上配電,原來在服務器里的電源(PSU,供電單元)集中到電源箱里,成為機柜的一個組成部分。比如一個機柜 30 臺服務器,每臺服務器兩個電源就是 60 個,但是如果把電源集成到機柜上,就用不到 10 個116電源,而且從 1+1 的冗余變成
247、 N+1 的冗余原來 30 個處于準浪費的狀態,現在大大減少浪費,只提供必要的冗余就可以了;電源的數量少了,每個電源的功率比較大,負載也會比較高,電源在負載比較高的時候,轉換效率也比較好。以數字中國萬里行團隊考察某云數據中心為例,機房里部署了 20 千瓦的液冷整機柜服務器 FusionPoD,園區內還有相對獨立的小型液冷機房 FusionCell,由類似集裝箱體的供配電、機柜和制冷模塊各一組成。在產品形態上,超聚變液冷整機柜服務器 FusionPoD 類似于數據中心一個 PoD,作為一個天然物理分區,集成了供電、制冷、網絡,同時兼容各種各樣的服務器,比如為云場景打造的FusionPoD 600
248、 系列有分布式備電,數據中心使用這個系列可以去掉 UPS,提升供電效率。FusionPoD 的特點是集成度高,集成了液冷并兼容 1U 的節點設計。從算力密度來看,在 1U 里面最大可以支持 4 個 CPU,風冷服務器通常只部署一半的柜位空間,整機柜可以布滿,相對傳統的機架服務器算力密度可以提高 8 倍。FusionPoD 機柜是一個平臺,天生支持多元算力,機柜里的服務器可以集成計算型、計算存儲型包括異構型服務器。FusionPoD 的另外一個特點是全部采用盲插,服務器背后從供液到供電、網絡連接,在機柜后方部署有三條總線稱之為全盲插,機柜內不用連線,整個部署效率能大幅提升。2023 新型算力中心
249、調研報告 綠色低碳和可持續發展+117+盲插的技術難題在于有可能在插拔的時候出現漏液,為了提高可靠性,FusionPoD 在盲插 Manifold 上做了一個防噴射結構,當用戶把節點插進來的時候,盲插 Manifold 上的防噴射結構把它封住。同時機柜底下有漏液告警。同樣,FusionPoD 選擇冷板式液冷技術路線可兼容現有的基礎設施部署,也可應用于新建液冷數據中心。采用混合液冷設計,對服務器里關鍵發熱器件比如 CPU、內存、硬盤、電源等等做了可選的液冷適配并匹配了液冷后門(液冷門),液冷門也是來自于冷塔的供水,把機柜里所有的熱量通過液體帶走,去掉機房空調和冷機做到全液冷。FusionPoD
250、保留風扇給一些不太容易做冷板式液冷的小器件,液冷門也是選配,便于客戶靈活搭配,利舊現有的空調。在泄漏告警、隔離和處理上 FusionPoD 做了相應的設計,比如把節點做成天然能夠支持故障隔離的設計,無論通過它的圍擋結構的設計還是導流設計,最后對接盲插 Manifold 的設計,當一個節點出現泄漏只會順著導流槽流往機柜積液盤,不會影響下一個節點,當然前文說的漏液告警監控也屬標配。在智能監控環節,FusionPoD 板內的水晶繩的監控通過服務機 BMC上傳到公司的 Fusion Director,機柜的漏液告警通過機柜頂上 RMU監控模塊也上報給 Fusion Director,由于供水溫度很低液
251、冷門出現冷凝水時,冷凝水的漏液告警到 Fusion Director 平臺。Fusion Director 能對所有的信息全部匯聚監控進行統一處理。3、產業生態融合演化浸沒式液冷也成為一套復雜的系統工程,需要在可靠性、經濟性和能效之間取得平衡,要解決散熱問題的同時解決冷卻液和系統中所有部件兼容性、IT 設備高速信號問題。而在系統設計層面,要兼顧服務器和機柜的設計、冷卻和監控系統的可靠性,從這個意義來說,液冷不僅是制冷方式的改變,也可能變革數據中心生態。2018 年 8 月數字中國萬里行團隊考察了位于張北的阿里云數據中心,這里已經開始部署浸沒式液冷服務器集群;2020 年阿里仁和數據中心投入運營
252、,成為更大規模浸沒液冷技術的典型實踐案例,2022年,數字中國萬里行團隊在杭州考察了阿里仁和數據中心。在杭州仁和數據中心部署了阿里云在云網技術、軟硬一體探索后新一代智能計算產品:“靈駿”智能算力系統。靈駿智算產品是軟硬件一體化設計的算力集群服務,具備公共云、專有云等多種產品118形態,靈駿的底層硬件核心組件由磐久服務器和自研高性能 RDMA高速網絡兩部分組成,不僅擁有異構計算彈性能力,還以低通信延時、高并行計算效率為特征提供系統化的高密度計算服務。在浸沒式液冷的場景下,整個系統所有的器件都是需要根據適配這種場景做一些調整的,IT 設備需要上插拔上接線和上維護,服務器不是放在立式的機柜里面,傳統
253、立式機柜改造成臥式,(整個機柜加上下面的高度不超過 1.2 米),換熱設施也需要就近布置,IT 設備需要適配,例如光模塊的密封,實際上主板的設計和排布并沒有大調整,只是在信號排布和密封方式以及某些連接器做出了一些微小的調整。阿里浸沒式液冷數據中心主要功耗集中在泵與室外散熱系統,搭載阿里自研液冷監控系統,能夠全自動與負載率相匹配,始終保持系統高效運行。據官方介紹,磐久高性能計算一體機的單位面積算力可達8PFLOPS/m2(FP16 AI算力),單位功耗算力可達0.4PFLOPS/kW。浸沒式液冷從原理上去除了室內部分的空調風機和服務器風機雙側流體驅動系統,徹底排除了空氣流動的需求,這樣 IT 故
254、障率大幅下降減少維護量、系統熱交換次數下降、全自動調泵風機部件運行情況、自主故障預測與調優預測運行,持續保持恒溫恒濕環境,有效屏蔽了外界絕大部分不利因素。新一輪低碳技術帶來整體數據中心的技術變革,隨著液冷技術在云2023 新型算力中心調研報告 綠色低碳和可持續發展119計算數據中心的應用,算力服務成本也將進一步降低,惠及更多終端用戶。云計算數據中心基于規模和應用需求的優勢,對數據中心建設也有足夠的掌控力,將會整體數據中心的技術變革、價值鏈重構和產業生態演化。IT 架構和數據中心基礎設施冷卻也必將深度融合,構建全棧數據中心成為新趨勢,產業鏈的垂直整合也會成為可能。風液冷也必將在很長一段時間之內共
255、存。智算中心 跑出液冷加速度眼下,AI 模型運算量增長速度不斷加快,推動硬件算力增長,在 AI算力持續演進進程中,模型越來越復雜,訓練算力需求的增長速度遠超摩爾定律,導致處理器功耗持續增加,傳統數據中心散熱設計極限備受挑戰,不斷攀升的巨額算力成本也給社會AI創新造成巨大負擔。以 2023 年中國數據中心液冷技術峰會上 OPPO 所展示的浸沒液冷智算中心實踐為例,OPPO 全新基于全高速互聯的浸沒液冷訓練集群,單柜密度提升了逾 400%,機房噪音降低了近 40%。在計算性能方面,TFLOPS 算力相較風冷環境提升約 8%,跑 Bert 模型時間縮短 8%。受液冷的基礎設施架構調整的影響,為更好地
256、提升液冷數據中心的利用效率及使用體驗,OPPO 自研便捷運維車,并進行了熱回收的探索研究。西部(重慶)科學城先進數據中心+1202023 新型算力中心調研報告 綠色低碳和可持續發展+同樣以“東數西算”成渝樞紐節點內的曙光承建的西部(重慶)科學城先進數據中心為例,該數據中心采用了浸沒相變液冷技術、余熱回收、綠色建筑、清潔能源(光伏)等多種相關技術,做到了從能源的使用、機架的合理選用、到散熱的合理規劃、機房設計、布局和使用等多方面的合理布局,全面提高機房散熱效率,降低機房的整體能耗,最終達到節能減排的目標。據西部(重慶)科學城先進數據中心運營中心官方數據稱,采用了節能技術之后,項目年均 PUE 可
257、達到 1.144,相比傳統風冷模式年節省用電約為 14624.8 MWh,年節省標準煤 4870 噸,年減少二氧化碳排放 13149 噸。數字中國萬里行考察的商湯上海臨港人工智能計算中心(AIDC),在能源、技術和管理等層面,為 AIDC 采取了多種能源優化措施,年均PUE 優化至 1.28,其綜合搭配采用各項技術,包括液冷、AHU、微模塊、高效變頻離心機、高溫冷凍水、高效供電架構及設備等。相比于傳統建設方式預計年節約耗電量約 5000 多萬度,年減少碳排放約 5600 噸。同時用數字化、智能化調度完成重復而關鍵的任務,降低運維成本,減少冗余備份(降低運維人員數量超過 20%,降低運維人員工作
258、負荷超過 20%,有效解決 70%誤操作)。商湯上海臨港人工智能計算中心節能創新方案中,頂層選用 AHU 間接蒸發冷,相比傳統冷凍水系統+板換,減少了熱交換次數,提升了熱交換及制冷效率,年節約用電量約 187 萬度。冷板式液冷服務器的液體的熱傳遞效率是空氣的2030倍,系統無需冷機壓縮機、末端空調風機,節能效果顯著,年節約用電量約 176 萬度。高能效變頻離心機相比定頻離心機,室外濕球溫度低時,COP 大大提升,降低能耗,年節約用電量約 1172 萬度。121+未來,智算中心為大規模 AI 模型創新與訓練提供充裕算力,同時減少閑置浪費,通過算力共享模式,大幅降低社會 AI 算力成本,支持更廣泛
259、的 AI 創新研究和應用。在智算中心綠色化、集約化發展趨勢下,液冷正逐漸成為一個優選項。節能減排新實踐 重構排碳之源數字技術與電子電子技術,成為驅動能源產業變革的重要引擎。作為支撐數字經濟發展的堅實底座,數據中心的計算和處理能力不斷加強,“超大規?!睌祿行牡拈T檻已經從十萬臺(服務器)量級向百萬臺過渡,對部署速度的要求也隨之提高,對能源的需求也就越來越大。液冷、蓄冷、高壓直流、余熱利用、蓄能電站等技術應用,以及太陽能,風能等可再生能源利用,進一步降低數據中心能耗及碳排放。云服務商通過技術驅動實現數據中心節能,構建智能、綠色、高效能的基礎設施提升競爭力。騰訊云儀征東升云計算數據中心 8 棟大平層
260、倉儲式機房樓屋頂共計安裝光伏組件 28000 多塊未來,智算中心為大規模 AI 模型創新與訓練提供充裕算力,同時減少閑置浪費,通過算力共享模式,大幅降低社會AI 算力成本,支持更廣泛的AI創新研究和應用。智算中心綠色化、集約化發展趨勢下,液冷正逐漸成為一個優選項。1222022 年 9 月,數字中國萬里行團隊參觀的騰訊云儀征東升云計算數據中心,占地約 350 畝,8 棟大平層倉儲式機房樓,從土建到機電整個建設周期僅用了一年時間。儀征地處長江三角洲西北部,是長三角重點濱江工業城市,騰訊云儀征東升云計算數據中心是目前騰訊在華東地區最大的自建數據中心,計劃部署超過30萬臺服務器,包括騰訊云自研星星海
261、服務器。在這些強大計算力的基礎上,騰訊云超大規模、快速部署、彈性配置的能力支撐各項新型服務,輻射江蘇省及長三角地區的產業數字化升級。在綠色節能方面,借助間接蒸發冷卻、氣流優化、AI 調優等騰訊多年積累的技術優勢,儀征數據中心的整體 PUE 低于 1.25,符合“東數西算”的要求。除了超大規模、快速部署、高效可靠、彈性配置之外,綠色節能也成為剛需??稍偕茉纯梢詮碾娏斎氲摹霸搭^”上減排,符合雙碳戰略和東數西算的核心要求。+2023 新型算力中心調研報告 綠色低碳和可持續發展 騰訊云儀征東升數據中心分布式光伏123+2022 年 2 月,騰訊云儀征東升數據中心分布式光伏項目正式全容量并網發電。該
262、項目充分利用 8 棟大平層機房樓的屋頂面積,共計安裝光伏組件 28000 多塊,總裝機容量達到 12.92 兆瓦,是江蘇省目前最大的數據中心屋頂分布式光伏項目。每個屋頂還配有光伏組件自動清洗機器人,保持光伏組件清潔度,實現光伏系統的自動化高效運維。項目采用“自發自用”的并網方式,近 3 萬塊單晶硅高效光伏組件產生的直流電經逆變器、變壓器等流程處理后接入數據中心的中壓電力方倉,將這些可再生電力就地消納。項目平均年發電量超 1210萬度,每年可節約標煤約 3800 噸,對應減少約 1 萬噸二氧化碳排放量,是推動數據中心與綠色低碳產業融合的又一實踐。在中國電子信創云順義基地,在基礎設施層面應用高效變
263、壓器、高效 UPS 等技術,在提升數據中心供電質量的基礎上,還能夠降低電能損耗。在制冷系統方面,磁懸浮冷機、間接蒸發冷卻、高效換熱器等技術,在保證數據中心制冷的同時,進一步提高了節能效率。中國電子信創云基地也最大化利用可再生能源,信創云基地在樓體南側立面布置了單晶光伏組件,為園區照明辦公系統提供電能供應,不僅保證了辦公等輔助用電,還為降低 PUE 做出了貢獻。屋頂光伏板自動清洗機器人124商湯上海臨港人工智能計算中心節能供電系統架構采用 220kV 直變 10kV 高壓供電系統架構以及分散式低壓配電系統架構,降低線損約 50%,年節約用電量約 200 萬度。采用 SCB13 二級能效變壓器,相
264、比 SCB12 減少損耗約 10%,年節約用電量約 156 萬度。高能效 UPS 單路效率從 95%提升至 99%,雙路平均從 95%提升至97%,年節約用電量約 655 萬度。商湯上海臨港人工智能計算中心采用 LED 節能燈比傳統節能燈節電約 75%,降低照明功耗,年節約用電量約 107 萬度。冷凍水蓄冷在保障系統不間斷運行的同時,能有效利用峰谷電價,削峰填谷。除制冷主機外,冷凍水泵、冷卻水泵、冷卻塔風機、末端空調風機均采用變頻技術,降低其運行能耗和對供電系統的沖擊。算力基礎設施功率密度不斷提升,算力設施整體能耗偏高,綠色低碳應用需要持續推廣,推動數據中心的可持續發展成為必選項??沙掷m發展是
265、一個長期的價值創造過程,需要將可持續發展的理念納入選址設計、優化供配電和制冷架構,貫徹“全棧數據中心”理念,加快液冷技術、新型節能新技術的應用和實踐,加速新型算力基礎設施的綠色升級,進而推動綠色能源革命進程。能碳融合數字化技術是實現“碳中和”的引擎。在能源革命進程中,能源數字化是當前能源產業變革的一大特征,從自然資源依賴型向技術驅動型轉變,采用科技手段開發可再生能源,構筑更經濟、更穩定、更安全的發電網絡,從源頭上降碳更為關鍵。在我國電源結構中,煤依然占據主導地位。從發電量看,根據 GE 2023 新型算力中心調研報告 綠色低碳和可持續發展125Gas Power 發布的 加速天然氣發電增長,邁
266、向零碳未來,2020年我國氣電發量為 2470 億千瓦時,僅占當年總發電量的 3.3%,遠低于其他發達國家。按照國際經驗,氣電在能源轉型中發揮著重要的作用,以日本、美國、英國為例,根據 Gas Power 數據,2019年日本天然氣發電量占總發電量比重達 37%;根據 BP 披露,美國和英國的天然氣發電量分別占各自總發電量的 38.63%與 40.1%。相比而言,我國天然氣發電未來增長空間較大。而從 2017 年到 2022年 7 月,我國氣電裝機容量從 7570 萬千瓦增長至 11171 萬千瓦,年復合增速為 8.1%;截至 2022 年 7 月,氣電在我國總發裝機容量中占比仍較低,僅為 4
267、.55%(歐美、日本等發達國家占比 30%以上)。國家“十四五”電力發展規劃中,將調峰電源作為“十四五”氣電發展的主要方向,氣電裝機將達到 1.5 億千瓦。隨著氣源開發和天然氣管線建設逐步加快,氣電在未來仍有很大的增長潛力,國內燃機服務市場規模也將快速增長。中國華電作為我國擁有最大燃氣發電裝機資源的中央企業,通過數字化和智能化轉型升級保障燃氣電廠本質安全、提升運營效率和創新發展,比如華電電科院與中國電子云、華電南自華盾公司合作開發的國內首個行業級自主可控燃機智慧運維云平臺,通過在電廠、集團、行業三個維度的協同,打造一流的國家級燃機智慧運維平臺,為國家的“雙碳”目標和能源安全承擔央企應盡的責任和
268、義務。1.5億千瓦國家“十四五”電力發展規劃中氣電裝機將達11171萬千瓦2022 年 7 月我國氣電裝機容量8.1%從 2017 年到 2022 年 7 月我國氣電裝機容量年復合增速4.55%2022 年 7 月氣電在我國總發裝機容量中占比+江天數據“環京大數據產業天津基地”1 號數據中心在柴發樓南立面 安裝光伏板 1262023 新型算力中心調研報告 綠色低碳和可持續發展2022 年,數字中國萬里行團隊特地參觀考察中國華電杭州華電江東熱電有限公司,該公司通過對燃氣發電性能深入分析有效指導開展節能降耗工作,通過燃機智慧運維云平臺的輔助運行決策,可優化機組運行方式,從“基于直覺的低效率決策”向
269、“基于數據的科學決策”轉變;基于云邊協同架構的平臺,助力專家遠程監控和輔助操作,實現從“信息孤島、層級冗余”向“集成共享、扁平協作”轉變;通過采集、生產等各個環節數據實時感知和共享;建立 AI 模型根據歷史數據預測出未來情況,實現從“被動的事后反應”向“主動的預知反應”方式轉變,成為燃氣發電行業的數字化、智能化發展的典型實踐案例。在新的能源產業變革,無論是數據中心的建設者還是數據中心的使用者,在實現綠色低碳轉型中積極探索,將數字技術與電力電子技術、發展清潔能源與能源數字化相融合,從源頭開始,多措并舉,共建可持續發展的未來。+127版權聲明算力經濟時代 數字中國萬里行-2023 新型算力中心調研報告版權屬于中研益企(北京)信息技術研究院有限公司,并受法律保護;轉載、摘編或利用其他方式使用本考察報告文字、圖片或者觀點的,應注明“來源:益企研究院”;違反上述聲明者,本公司保留追究其相關法律責任的權利。