《全球計算聯盟:2025智算中心液冷整機柜服務器開放架構多樣化算力兼容研究報告(41頁).pdf》由會員分享,可在線閱讀,更多相關《全球計算聯盟:2025智算中心液冷整機柜服務器開放架構多樣化算力兼容研究報告(41頁).pdf(41頁珍藏版)》請在三個皮匠報告上搜索。
1、 智算中心液冷整機柜服務器 開放架構多樣化算力兼容研究報告 全球計算聯盟 開放液冷專業委員會 1 編寫單位 河南昆侖技術有限公司 中移動信息技術有限公司 北京幻視摩方科技有限公司 沐曦集成電路(上海)股份有限公司 上海燧原科技股份有限公司 中航光電科技股份有限公司 軟通計算機有限公司 編寫組成員 楊金諭、張春、高從文、李圣義、單彤、丁俊峰、熊星、曹昉、張勇、王成龍、于超琪、張丙庫、盧超、趙楊、梅敬青、蔡艷召、蔣正順、李進寶、李亞軍 版權聲明 本研究報告版權屬于全球計算聯盟。使用說明:未經全球計算聯盟事先的書面授權,不得以任何方式復制、抄襲、影印、翻澤本文檔的任何部分。凡轉載或引用本文的觀點、數
2、據,請注明“來源:全球計算聯盟”。1 序 近年來,隨著人工智能技術的迅猛發展和數字化轉型的深入推進,全球對高性能算力的需求持續增大。特別是在 AI 訓練和推理任務中,高密度計算集群的功耗需求日益攀升,傳統的數據中心散熱方案面臨著嚴峻挑戰。在此背景下,液冷技術作為一種高效、節能的散熱解決方案,正在加速改變數據中心的技術架構和產業格局。本報告引用和發揚了來自全球計算領域的眾多專家學者、技術領軍者、優秀企業的經驗總結和著作,深入探討液冷整機柜設計、液冷智算中心架構優化及多算力兼容等關鍵技術,并提出了一套開放、靈活且高效的液冷智算架構解決方案。該方案兼顧技術創新和工程實踐,在提升計算密度的同時有效降低
3、了能耗,為數據中心的綠色化轉型提供了有力的技術支撐。從政策層面來看,近年來國家持續加大新基建投入力度,明確提出要建設綠色低碳、高效節能的數據中心。相關部門出臺了一系列指導性文件:到 2025年,全國新建大型、超大型數據中心的電能利用效率(PUE)需控制在 1.3 以下,而重點區域如東數西算國家樞紐節點的 PUE 更是要求低于 1.25。這些政策導向使得傳統風冷式數據中心難以兼顧節能與提高上架率的雙重目標,從而加速了液冷技術的應用普及。從市場發展來看,中國液冷數據中心市場規模持續增長。據統計,截至2024 年,中國液冷數據中心市場規模已突破 150 億元大關,年均增長率維持在 35%以上。與此同
4、時,液冷技術的標準化進程加速推進,相關組件的成本顯著下降,為大規模商業化部署奠定了堅實基礎。值得關注的是,在算力需求持續增長的同時,芯片技術的快速發展帶來了新的散熱挑戰:現代 CPU 和 GPU 2 的熱設計功耗(TDP)不斷提升,傳統風冷數據中心在應對高密度、高功耗計算集群時已顯得捉襟見肘。從硬件形態演進來看,傳統的 AI 產品與架構已不能完全滿足新的 AI 集群的需求。隨著計算密度的提升,采用低延遲、高帶寬互聯架構的 AI 集群因其性能優勢而被廣泛采用。然而,在液冷整機柜的設計與部署過程中,不同廠家的技術方案缺乏統一標準,這給終端用戶的系統選型、設備部署及運維管理帶來了諸多挑戰。在技術發展
5、層面,盡管面臨諸多挑戰,業界已在 OAI(開放加速器接口)和 UBB(OCP 通用基板)等標準化方面取得了顯著進展。特別是超節點整機柜架構設計日益受到關注,這一創新方案通過支持更多 AI 加速器的高速互聯,為構建更高密度、更高效能的計算集群提供了新的技術方向。我們期望通過本報告的發布,能夠進一步促進行業內各方的深度交流與協同創新,共同推動液冷智算中心技術的發展與應用推廣,為構建高效、綠色、智能的未來計算環境貢獻智慧和力量。全球計算聯盟 開放液冷專業委員會 2025 年 4 月 3 目 錄 智算中心液冷整機柜服務器.1 開放架構多樣化算力兼容研究報告.1 序.1 第一章 背景與挑戰.5 第二章
6、產業關鍵技術與創新動態.7 2.1 液冷散熱技術.7 2.2 智算軟硬件技術.8 第三章 液冷智算開放、多算力兼容架構概述.10 3.1 系統架構.10 3.2 硬件架構.11 3.3 散熱架構.12 3.4 供電系統.18 3.5 網絡架構.21 3.6 管理架構.24 第四章 智算液冷整機柜服務器.26 4.1 機柜子系統.26 4.2 服務器節點.27 4.3 交換節點.28 4.4 管理模塊.29 4.5 電源.30 第五章 智能運維管理.32 4 5.1 管理系統.32 5.2 BMC 軟件適配.34 第六章 應用場景及案例.35 6.1 應場場景.35 6.2 案例:超聚變 Fus
7、ionPoD for AI 整機柜液冷服務器助力運營商打造高效、可靠、綠色的智算中心.35 第七章 結論與展望.37 5 第一章 背景與挑戰 近年來,中國液冷數據中心市場展現出強勁的發展態勢,以超過 30%的年增速迅猛擴張。在此過程中,液冷組件的標準化進程不斷加速,成本也隨之顯著下降。2022 年,液冷數據中心市場規模成功突破百億大關,達到 100.5 億元,與上一年相比,同比增長率高達 47.2%,凸顯出市場的蓬勃活力。在芯片技術領域,先進制程的投資呈現出爆發式增長,然而上市節奏卻有所放緩。這一背景下,CPU 和 GPU 等核心主芯片在性能實現大幅提升的同時,功耗也成倍增長。預計到 2025
8、 年,CPU 的熱設計功耗(TDP)將達到 500W,而 GPU 的 TDP 更是高達 1kW 至 1.2kW。這種高功耗帶來的散熱挑戰,使得傳統風冷數據中心面臨嚴峻考驗。傳統 6-8kW 風冷機柜的容納能力有限,僅能放置不到 8 至 10 臺通用計算服務器,或者一臺配備 8 個 AI 加速器模組的智能計算服務器,導致機柜上架率急劇下滑。實踐表明,在單柜功率為 15kW 的應用場景中,液冷服務器的部署投資回報率(ROI)與傳統風冷服務器持平;而在單柜功率 40-50kW 的更高功率應用中,液冷服務器的部署資本支出(Capex)已趨近于風冷部署方式。這一趨勢為液冷技術的推廣應用提供了有力的經濟支
9、撐。政策層面,自 2020 年起,國家大力推進新基建政策,積極鼓勵建設高能效數據中心。發改委等相關部門相繼出臺政策,明確提出到 2025 年,全國新建大型、超大型數據中心的電能利用效率(PUE)需低于 1.3,而東數西算國家樞紐節點的 PUE 更是要求低于 1.25。隨著“雙碳”目標帶來的節能減排壓力不斷增大,除了在西部和北部部分地區新建的大規模數據中心外,傳統風冷式數據中心已難以兼顧節能降耗與提高上架率的雙重目標。因此,服務器從風冷部署向液冷部署的轉變,已逐漸成為行業內的普遍共識。自 2023 年以來,生成式人工智能(AGI)的飛速發展引發了對新建智能計算中心訓練和推理集群的巨大需求。千卡乃
10、至萬卡規模的集群建設,不僅推動了大規模數據中心的建設熱潮,同時也催生了對高速互聯技術的迫切需求。與云計算基礎設施中常見的 25GE、100GE 互聯需求相比,AI 集群對 200G、400G 端口的密度需求提升了 8 至 10 倍。為有效降低集群互聯成本,高密化液冷部署已成為新建大規模智算中心的首選技術方案?;A電信運營 6 商和各大互聯網企業紛紛加大對液冷技術的試點投入,在全國范圍內開展了 200 多個液冷數據中心試點項目,有力地推動了液冷服務器市場的快速增長。在硬件形態方面,為適應傳統風冷數據中心的部署模式,自 2002 年起,傳統 AI 加速卡大多采用 PCIe 形態。但隨著大語言模型的
11、崛起,內部采用 Scale up 低延遲互聯的 8 個 OAM 模組形態,憑借其卓越的性能優勢,已被各大 AI 廠商的高端產品廣泛采用。然而,由于各類 AI 芯片的功耗存在差異,不同液冷整機廠家的方案設計缺乏統一標準,加上整機柜在供電和制冷能力上的差異,導致終端用戶在部署 AI 集群時,難以實施標準化的部署方案和一致的運維策略。此外,AI 集群的運行要求遠高于傳統通用計算的并行集群,為實現更高的集群資源利用率(MFU)并縮短整體訓練時間,對集群的備份機制和單機運維效率提出了更高要求。同時,如何有效降低和控制液冷系統可能帶來的漏液風險,也成為亟待解決的關鍵問題。盡管面臨諸多挑戰,業界在 OAI
12、和 UBB 接口標準化方面已取得顯著進展,為技術發展奠定了堅實基礎。隨著超節點整機柜架構成為支持更多 AI 加速器內部高速互聯的新方向,8 個 OAM 模組形態預計在未來 5 年內仍將是 AI 服務器的主流部署模式之一。為應對上述挑戰,本報告聚焦于液冷散熱技術、整機柜設計與管理、智算架構設計以及多算力統一架構底座等關鍵技術領域,提出了一套開放、靈活且高效的液冷智算架構解決方案。該方案不僅能夠兼容多種 AI 加速器,優化 AI 服務器的部署流程,還能顯著提升運維效率,有效降低液冷系統漏液帶來的潛在風險,為行業發展提供創新的技術路徑和實踐指導。7 第二章 產業關鍵技術與創新動態 2.1 液冷散熱技
13、術 隨著人工智能對算力需求的高速增長,大模型的快速迭代加速了更先進的算力芯片模組、更高帶寬的大容量顯存和內存、更大規模的高速互聯網絡的部署,數據中心呈現更高的單體算力性能、更高的算力部署密度。作為算力承載的芯片模組,單芯片功率突破 1000W+,單機柜部署功率密度更是突破 100kW+,傳統風冷已經無法滿足快速增長的散熱需求。同時,AI 模型訓練的電力需求正以驚人的速度增長。例如,GPT-4 單次訓練功耗超過22 兆瓦(MW),埃隆馬斯克的 Grok-3 模型甚至達到了 154MW 的訓練功耗,其單次訓練用電的規模,在能源消耗上也需要更經濟的高效低碳散熱方式。作為一種更高效的散熱方式,液冷在解
14、決 1kW+高功率芯片散熱上都有得天獨厚的優勢,同時可滿足數據中心的 PUE 降低到 1.25 以下的要求,有效降低了數據中心 TCO,液冷成為智算中心的必然選擇。智算中心的液冷部署因為場景的差異存在不同的解決方案。如存量數據中心的小規模改造,使用了冷板式液冷+風液 CDU 的方式,平衡了供電和單柜散熱不足的問題,解決了大功率芯片的應用問題。而大規模改造或新建數據中心,冷板式液冷和浸沒式液冷的應用和試點,使液冷的方式更為多樣化。浸沒式液冷采用工質與發熱器件直接接觸,實現了發熱器件的 100%液體冷卻,促成數據中心更低的 PUE,但對芯片等器件的材料兼容性有更為復雜的要求,需要定制化處理。同時,
15、維護難度、成本方面投資較高。冷板式液冷則采用工質與發熱器件間接接觸的方式,可以無縫兼容風冷器件,材料兼容性要求相對較低,且簡單的維護和良好的經濟性,使得冷板液冷成為當前規模商用的主流。圍繞散熱能力、能效和數據中心改造場景適應性,冷板式液冷在架構上存在多種部署形態,比如冷板+空調的混合液冷、冷板+液冷門的全液冷階段、以及全冷板。一方面,隨著單機柜功率密度的增加,緩解風冷部分散熱挑戰,液冷散熱的占比越來越高,開始出現全冷板解決方案。另一方面,隨著單芯片功率密度的提升,對液冷部件的性能提出了更高的要求,8 產業鏈協同推動了冷板流道散熱強化、液態金屬等高性能導熱材料、以及小尺寸大通流的快速連接等技術方
16、案,支持高密短距互連智算液冷解決方案的持續演進。2.2 智算軟硬件技術 數據中心/云/企業市場直至 2021 年初,還主要是以單 CPU 或多 CPU 系統為主,同時搭配多種類型的加速卡(GPGPU,DSA,ASIC 等),標準化程度極低。但恰好在生成式 AI(即 ChatGPT)爆發性增長之前,OCP 社區發布了使用 Open Rack v3(12kW/機架)和Open Accelerator Infrastructure(OAI)的 GPU 加速 AI/HPC 系統,包括 Universal Base Boards(UBB)和 Open Accelerator Modules(OAM)。該
17、成果發布后,吸引業界眾多供應商在實際產品設計中適配這些規范。此外作為智算領域事實上的規范設計者和領導者,NVIDIA 也推出 HGX 機箱并在 2022 年將其貢獻給 OCP。這些體系結構共同的特點是,優先考慮加速器的互聯密度。2022、2023 年,OCP 服務器項目組向 OCP 社區貢獻了整套規范。DC-MHS 的引入支持了傳統 19 英寸機架和正在出現的 21 英寸開放機架標準的模塊化平臺體系結構,為新的擴展策略打開了大門。2023 年 5 月,NVIDIA 推出 MGX 平臺,雖是 NVIDIA 獨立開發,但與 MHS 平臺愿景一致。2024 年年初的 NVIDIA GTC 大會上,N
18、VIDIA 發布了 DGX/HGX 平臺的 NVL72擴展,支持高達 120kW/機架。在 2024 年 OCP Summit 上,NVIDIA 將 NVL72 架構貢獻給 OCP 社區,成為當前超算領域整機柜全液冷服務器的一個事實上的行業標準。在 2025 年 3 月的 NVIDIA GTC 大會上,NVIDIA 給出了基于 Vera Rubin 和 Vera Rubin Ultra 芯片,代號 Kyber 的整機柜服務器架構。Kyber 架構尺寸與 OCP 標準機柜一致,但將原來的正前方橫插的計算板和交換板,改成前后分別豎插模式,引入 Midplane 替代 GB200 NVL72 的 C
19、able Tray,極大減少機柜里的線纜長度。根據規劃,Kyber 單機柜中將放置 144 個 R 系列 GPU,總重量 2.7 噸,總功率 700 kW,后繼規劃超過 1MW,全冷板液冷,使用 0-800V 高壓供電??紤]到 NVIDIA 當前在 GPGPU 領域暫時不可動搖的地位,Kyber 架構極有可能成為未來整機柜服務器的事實標準。9 此外,我們也需考慮到,智算服務器所提供的算力,最終需要被大模型及其應用所消耗。從 2025 年初發布的 xAI Grok-3 和 OpenAI GPT-4.5 來看,相比上代產品,投入了數十倍的算力資源用于預訓練,推理能力的測試結果只提升了大約 3-5%
20、,這意味著 Pre-Training Scaling Law 和 Post-Training Scaling Law 可能已經達到盡頭,或至少是其邊際效益已經降的很低。但隨著 OpenAI O1/O3 的出現,尤其是 DeepSeek R1 的橫空出世,人們發現Reasoning(Test-Time)Scaling Law 還繼續有效。對智能算力的使用,預判以后主要將由推理應用所承擔。目前有觀點認為 AI 的技術發展路徑是從 Perception AI(感知),到Generative AI(生成式),到 Agentic AI(代理),再到 Physical AI(具身)。而從 Agentic
21、AI 開始,Reasoning(Test-Time)所消耗的智能算力,將占總算力消耗的主要部分。配置了新一代高性能 GPU 的機架服務器,將帶來推理性能上的極大提升,也讓進行大規模的推理應用有了可能。預期 OpenAI,Google,Meta,以及 DeepSeek 等公司即將推出的下一代 Reasoning Model,其本身的基礎模型本身的能力還在提升,再配合越來越成熟的 AI Agent 技術,AI應用將會真正變成一種普惠技術,也意味著將對智能算力的消耗目前還暫未看到盡頭。10 第三章 液冷智算開放、多算力兼容架構概述 3.1 系統架構 本研究報告的系統架構設計目標,旨在構建統一的液冷整
22、機柜架構,實現對多種東西方 AI 加速器的兼容。正如圖 3-1 所示,通過靈活更換承載不同 AI 加速器的 UBB 模組,即可達成打造統一液冷智算底座的目標。兼容多算力底座的系統架構考慮單機柜部署 8 臺 8 OAM 模組的智算異構液冷服務器,整機柜部署 64 個 AI 加速器高性能芯片,整機系統需要兼容各種 HGX,UBB1.5 和 UBB2.0 標準接口的載板。在整機系統中做到已經經過管理軟件兼容性適配的,在硬件上經過結構件適配的 3U 靈活子框。圖 3-1 統一底座硬件結構示意 總體系統框架定義如下,并進行系統間聯動設計而組成液冷整機柜系統:11 圖 3-2 統一底座系統框架 智算液冷整
23、機柜系統遵循以下原則進行整體架構設計:1、模塊化,簡便部署:以單柜 64 卡為目標,不同 AI 芯片可以采用統一的硬件架構、管理體系、組網架構以及運維習慣。最后體現不同之處僅在單柜功率密度有所不同,并且具有相同廠商 AI 加速器跨代演進支持能力。2、服務器組件盲插運維便利性:部件運輸可以盲插操作。在更換故障部件過程中,可以降低單點運維時間,降低人為運維難度,減少運維人為故障因素提高部署和運維效率,從而提高集群 MFU 利用率。3、液冷原生安全性:三級漏液監測和防護系統,3U 靈活子框 UBB 載板液冷檢測和自動關斷、4U 服務器節點級漏液檢測,Manifold 盲插防噴濺,機柜級漏液導流,機柜
24、級漏液監控。4、水電隔離的安全性:采用上水下電,左水右電,機箱內水電隔離等布局,防止發生因水路系統組件有故障不擴散不擴大到供電系統。5、降低 AI 集群總體功耗:通過主要芯片熱源覆蓋冷板,減少風扇數量降低AI 服務器總功耗 10%,通過液冷散熱系統降低機房總體 PUE。3.2 硬件架構 硬件架構設計目標,旨在構建統一的 AI 整機柜硬件設計,實現對多種 AI 節點實現整機 12 柜部署兼容。如圖 3-3 所示,AI 整機柜硬件邏輯上分為計算系統、交換系統、機柜管理系統,各硬件系統之間既相互獨立又相互依存。每個 AI 節點對外提供獨立的業務平面和設備管理平面,業務平面通過業務交換模塊組成整體業務
25、轉發系統,設備管理平面通過帶外管理交換模塊組成 AI 節點整體 BMC 管理系統。同時,支持單獨的機柜管理模塊,實現機柜級部件的管理。圖 3-3 硬件邏輯架構 3.3 散熱架構 3.3.1.機房散熱 數據中心散熱系統由一次側與二次側兩部分組成。一次側包含:冷卻塔、水泵、冷水機組、一次側管路、液冷門。二次側包含:CDU、二次側管路、液冷機柜和服務器節點。智算液冷整機柜服務器支持各種場景的數據中心應用,典型新建場景下可以根據機房實際條件選擇如圖3-4的混合式液冷,也可以選擇能效更高的圖3-5 液冷門式全液冷。13 對于一次側液冷冷源,可以選擇新增閉式冷卻塔作為冷源,也可以和機房空調共用冷凍水系統作
26、為冷源,降低工程難度。對于二次側液冷系統,主要為服務器液冷提供散熱,利用CDU提供循環動力,使CDU二次側輸出的工質水與服務器節點液冷板直接進行熱交換,采用液冷散熱器將CPU、內存、GPU等大功耗器件的熱量帶出機柜,服務器其余熱量通過機房的機房空調或液冷門帶走。隨著單機柜功率密度和互連帶寬的增加,服務器剩余的風冷散熱面臨的挑戰仍然會較為嚴峻,解決方案將向著圖3-6的全冷板式液冷演進。圖 3-4 機房散熱系統 14 圖 3-5 機房散熱系統(液冷門式全液冷)圖 3-6 機房散熱系統(全冷板式全液冷)15 3-1 散熱系統組件說明 名稱 說明 冷卻塔 用于將液體回路的熱量散到室外大氣中的設備,一般
27、放置在建筑物的室外,出水溫度取決于當地氣溫條件,通常出水溫度范圍為 535。推薦采用閉式冷卻塔。水泵 輸送液體或使液體增壓的設備。CDU 用于液冷電子設備間的冷卻液體流量分配,提供二次側流量分配、壓力控制、物理隔離、防凝露等功能。CDU 處理液冷機柜內部的直接液冷部分的散熱。(CPU 等大功耗器件的熱量,由冷板直接帶走。)CDU 需要配套二次側管路。液冷機柜 提供冷卻液體進出,針對電子設備進行冷卻的設備。液冷機柜可以由工質水將熱量全部帶出機柜。液冷門 液冷門利用機房一次側的溫水與服務器內部排出的熱風進行熱交換,將液冷機柜中的間接液冷部分(通常為小功耗器件)的熱量帶出機房。冷水機組 對來自冷卻塔
28、的工質水進行冷卻的設備,按需使用。一次側 青色箭頭表示一次側進水,紅色箭頭表示一次側回水,包含以下兩條分支。冷卻塔到 CDU 的冷卻循環水系統。冷卻塔經過冷水機組到液冷門的冷卻循環水系統。說明 特殊場景指設備的配置和環境規格需要有一定的約束,具體可以咨詢技術支持獲取。16 名稱 說明 二次側 CDU 到液冷機柜的冷卻循環水系統。藍色箭頭表示二次側進水,紅色箭頭表示二次側回水。3.3.2.機柜散熱 智算液冷整機柜服務器支持混合液冷和全液冷等多種散熱方式,液冷門靈活選配。服務器節點的處理器、內存條等大功耗部件通過冷板(如圖3-7)將熱量傳遞給冷卻液,在manifold處匯流(如圖3-8)后回到CD
29、U被冷卻,冷卻后的流體再經manifold分流至各服務器節點,如此循環帶走服務器熱量?;旌弦豪鋱鼍跋?,其余熱量通過機房的行級空調散熱,全液冷場景下,其余熱量通過液冷門散熱,液冷門示意見圖3-9。圖 3-7 冷板示意圖 17 圖3-8 Manifold匯流示意 18 圖 3-9 液冷門 3.4 供電系統 3.4.1.機房供電 整機柜服務器支持 2N 供電系統。2N 供電系統是指每套 IT 設備均由 2 路供電,每條供電回路設計均按 N 負載能力,在供電系統的整個路徑(從供電輸入經供電系統直到雙電源輸入負載)中的所有環節和設備都進行冗余配置(稱作 N 備),由這樣的兩套或多套供電系統組成的冗余系統
30、。正常運行時,每套 N 系統僅承擔總負荷的 50%。19 2N 供電系統如圖所示。根據設備和系統差異,可分為雙路 UPS 系統、UPS+HVDC 系統、市電+HVDC 系統等。圖 3-10.機房供配電系統 3.4.2.機柜供電 柜內包含 14 個電源框 Power shelf,每個電源框可滿配 12(或 18)個 PSU,PSU可選雙輸入 3000W、雙輸入 5500W 不同模塊以適應不同的功率需求。根據功率需求,通過靈活配置 Power shelf 和 PSU 的數量,整機柜功率可覆蓋至 258kW/Rack。使用雙輸入電源可以極大節約柜內空間、并靈活提供 N+M(M=1N)冗余配置,達到整
31、柜配電成本最優。根據某項目實踐數據,柜內空間減少 50%、整柜配電成本降低 50%以上。電源框 電源框包括框體、PSU 模塊、PMC 管理模塊三大部分,電源框結構形態包括 2U、3U。電源框為雙路供電,最大支持 4 路三相 63A 供電(2+2),可支持 AC+HVDC、AC+AC、HVDC+HVDC 三種不同輸入供電。AC 輸入電壓規格 380Vac-415Vac(三相五線輸入),電壓范圍 346Vac457Vac,頻率范圍 47-63HZ;HVDC 范圍支持 190-400Vdc。20 電源框含 3+3 路 C13 插座,可提供柜內交流 220Vac 供電。電源框輸出為 54Vdc,可通過
32、 CLIP 盲插頭或銅排等不同方式與柜內 BUSBAR 供電連接。圖 3-11.電源框外觀 圖 3-12.電源框框內配電 電源框技術參數:項目 描述 電源模塊數量 滿配 12 個 輸入電壓制式 AC 供電:3L+N+PE,輸入電壓規格 380Vac-415Vac(三相五線輸入),電壓范圍 346Vac457Vac,頻率范圍 47-63HZ;HVDC 供電:190-400Vdc 輸入端口 4 個,INPUT A1/INPUT A2 為主路輸入電源,21 項目 描述 INPUT B1/INPUT B2 為備路輸入電源 輸入電流 63A 2+2 路 輸出電壓 54V DC 輸出電流 電源框:1223
33、A MAX 尺寸 86.7*537*900mm 機柜管理模塊 PMC 管理模塊主要提供機柜管理功能,包括資產管理、電源模塊管理、溫濕度監控、功耗管理、液冷機柜漏液檢測和二次側管路漏液檢測等功能。圖 3-13.機柜管理模塊外觀 圖 3-14.管理模塊前面板接口 3.5 網絡架構 AI 集群基礎設施組網需求,參考 UEC 聯盟圖示(Ultra Ethernet Consortium)通 22 常分為以下幾類:1、集群帶內管理主網絡;2、參數面 Scale-out 網絡;3、多卡高速互聯的 Scale-up 網絡;4、服務器設備的帶外管理運維網絡。圖 3-15 集群帶內管理主網絡(也稱為南北向網絡)
34、,與傳統云計算計算節點的網絡需求類似,負責用戶對 AI 集群的訪問,容器的調度管理,AI 異構加速計算節點與高速存儲系統之間的文件讀取,訓練過程中 CheckPoint 存儲和調用等功能。大部分的云服務商采用帶內管理+存儲+用戶業務網卡三網合一的 DPU 網卡來部署南北向網絡,私有云中也有帶內管理,存儲網和業務網三網分離架構。參數面 Scale-out 組網(也稱東西向網絡),通常每個 AI 加速器配置一個高速網卡(200GE,400GE,800GE 或 IB NDR200bps,NDR 400bps,或未來的 XDR 800Gbps),Scale-out 集群網絡技術和組網范圍成為作為組建萬
35、卡,十萬卡等集群的主要的網絡。也是AI 集群組網成本最高的部分。通常 EP、PP、DP 并行的通信負載由 Scale-out 網絡來承載。Scale-Up 是卡間互聯網絡通道,通常采用低時延的內存語義通信,卡間全互聯拓撲或Hyper-Cube 拓撲,使卡間的通信帶寬數倍于 Scale-out 網絡需求。承載的主要是卡間 TP 23 或 EP 并行的數據通信。Scale-up 網絡的低時延和極高通信帶寬使得不同 AI 加速器的全互聯局限在一個系統機箱內部或一個液冷整機柜內部??ㄩg互聯的最大規模、帶寬和時延也通??梢源泶?AI 加速器的先進程度。服務器設備的帶外管理網,與其他設備(DPU BMC
36、 口、交換機和存儲設備的帶外管理網口等)的帶外運維管理系統合一,組建統一的運維管理系統網絡。通常采用 BMC 的 GE網口(千兆 RJ45 接口)。其中 Scale-up 網路通常處于一個 AI 服務器內部,但 Nvidia 在最新的 GPU 系統中推廣 NVL72,NVL144 以及 NVL576 的整機柜產品,成為業界新的支持更多卡高速低時延互聯的超節點新形態的設計方向。在本文中液冷多算力兼容的平臺設計中主要考慮對參數面Scale-out(東西向)網絡,云基礎設施管理(南北向)網絡,以及帶外管理網口的合理布局和實現,滿足千卡,萬卡,十萬卡的 AI 集群的互聯需求。在綜合了各類網卡數率以及互
37、聯使用的銅纜或光纖數量,并結合運維便利性和跨柜組網需求以下圖為例,展示了 AI 液冷服務器的網絡 IO 布局。圖 3-16 當每個機柜部署 8 臺 8OAM 模組服務器時,單柜可部署 64 卡,16 柜即可在一個數據中心冷熱通道標準模塊內部部署 1024 卡(即千卡集群)。圖 3-17 24 從組網架構看,8OAM 服務器在 PP 并行通信中,適合采用 8 軌道(Rail)優化布局。即 8 個 AI 加速器的高速 Scale-out 網卡同時連接到第一層的 Leaf 交換機上。4 個液冷機柜共 32 臺服務器,256 卡組成 1 個 SU 組網單元。采用 1 組 64 口 400G 交換機。圖
38、 3-18 以 2048 卡集群互聯拓撲為例:這種標準化網絡架構組合可以通過采用更多一層交換機的端口數和二層三層網絡組合方案,自由擴展到更多 PoD 組合,組建 10 萬卡+集群。圖 3-19 3.6 管理架構 管理架構設計目標,旨在構建統一的 AI 整機柜管理系統,實現 AI 節點、交換模塊和機柜的統一管理,以及各模塊獨立演進。如圖 3-20 所示,AI 整機柜管理架構包括 AI 節點 BMC 管理系統、交換節點管理系統 25 和機柜管理系統。圖 3-20 管理架構 AI 節點 BMC 管理系統 AI 節點直出 BMC GE 接口,連接到帶外管理交換機,帶外管理交換機通過上行接口連接到數據中
39、心帶外管理平面,同時機柜內管理模塊的帶外管理網絡也通過 GE 口連到機柜帶外管理交換機。交換節點管理系統 交換節點提供管理接口接入機柜帶外管理交換機網口,再通過帶外管理交換機匯聚到客戶側帶外管理網絡,接入數據中心網絡管理系統。機柜管理系統 機柜管理模塊通過 CAN 總線連接電源模塊,通過交換節點上行到數據中心管理平面。26 第四章 智算液冷整機柜服務器 4.1 機柜子系統 外部結構 圖 4-1 外部結構(示例:配置液冷門)1 機柜門 2 溫濕度傳感器(選配)3 液冷機柜 4 液冷門(選配)27 5 管理模塊 6 電源框 7 直通板 8 PDU 9 交換機 10 理線托盤 11 機柜側門 12
40、服務器節點 13 加強托盤-4.2 服務器節點 AI 節點設計目標,旨在構建統一的 AI 服務器架構,實現多種東西方 AI 加速器在服務器內兼容。如圖 4-2 所示,AI 節點整體 4U 高度,包括 3U GPU 模組和 1U 存儲和管理模塊,硬件架構上實現解耦設計,3U GPU 模組實現獨立演進。圖 4-2 AI 節點前面板視圖 如圖 4-3 所示,AI 節點 GPU 模組支持獨立插拔和適配,實現多種東西方 AI 加速器在AI 節點上快速兼容適配,而不影響其他模塊。28 圖 4-3 AI 節點 GPU 模組拔出視圖 如圖 4-4 所示,AI 節點 GPU 模組包括盒體、GPU UBB 模組、
41、冷板模塊,通過更換 GPU UBB 模組,即可實現快速靈活多樣 GPU 兼容適配。圖 4-4 GPU 模組分解視圖 4.3 交換節點 交換節點設計目標,旨在構建靈活適配的整柜交換系統,采用標準和通用的交換機實現AI 整機柜的業務和管理網絡架構。29 如圖 4-5 所示,整機柜獨立的交換系統區域,實現整機柜 AI 節點 Scale up 和 Scale out 業務交換平面擴展,以及帶外管理交換平面部署。圖 4-5 交換節點 4.4 管理模塊 管理模塊,主要提供機柜管理功能,包括電源模塊管理、溫濕度監控、功耗管理、液冷機柜漏液檢測和二次側管路漏液檢測等功能。管理模塊安裝在智算液冷整機柜服務器的電
42、源機箱內,與電源模塊共用電源機箱。30 圖4-6 管理模塊外觀 圖 4-7 前面板外觀 4.5 電源 電源模塊使用雙輸入電源、54V 輸出,雙輸入電源可實現兩路供電自適應切換或命令控制切換不同的切換方式。電源為主動式 PFC,主功率拓撲為三相 PFC+全橋 LLC,輸入電壓交流范圍 90Vac264Vac,HVDC:190400Vdc,效率97%。電源支持過壓、欠壓、過流、短路、過溫保護,具備主動均流和 2.5A/us 的動態EDPp 負載能力,均流精度5%(20%100%負載)。31 圖 4-8 電源模塊外觀 電源模塊技術參數:項目 描述 尺寸(高寬深)40mm68mm600mm 輸入電壓
43、交流:90Vac264Vac,額定 100Vac240Vac HVDC:190400Vdc,L 接+,N 接-或者 L 接-,N 接+都要求能工作 輸出額定電壓 54.5V DC 效率 97%保持時間 20ms 通訊 IIC(支持 PMBus 1.2 規范)最大輸出功率 5500w200VAC 264VAC/190VDC-400VDC 2000w100VAC 120VAC(單相)32 第五章 智能運維管理 5.1 管理系統 智能管理系統作為數據中心硬件全生命周期管理系統,支持液冷整機柜服務器的監控、智能節能、自動升級、排障等,同時可監控冷量分配單元 CDU。圖 5-1 管理系統架構圖 1.監控
44、:支持對液冷整機柜的實時告警與性能指標監控,同時結合服務器節點的部件統計、性能統計,實現整機柜的全維度監控。圖 5-2 管理系統監控界面 2.智能節能:通過能耗統計監測機柜負載情況,并根據實際情況設置功耗封頂策 33 略,提升機柜供電利用率。a)功耗封頂:將機柜的供電能力看作供電資源池,基于“預測功耗+實時功耗+服務器優先級”動態調整機柜中每個服務器的功耗封頂值。b)削峰填谷:在機柜功耗達到一定高度時,由機柜電池模塊提供高出部分功耗,當機柜功耗下降后,又可以利用電源多出的功率為電池充電。利用這種用電高峰放電,用電低峰充電的機制達到能耗的削峰填谷。圖 5-3 管理系統智能節能界面 3.CDU 監
45、控:支持監控及性能指標告警,性能指標包括 CDU/機房內部溫度濕度、介質溫度、介質壓力、水閥&水泵及一次側流量等數據。圖 5-4 管理系統 CDU 監控界面 4.自動升級:批量升級整機柜的管理系統,及所有節點 BMC、CPLD 等固件。34 圖 5-5 管理系統升級界面 5.排障:結合故障告警、性能數據及硬盤和內存的故障預測,實現整機柜的故障定位。圖 5-6 管理系統告警界面 5.2 BMC 軟件適配 單板管理軟件對智算模組的散熱管理、故障管理、資產管理等運維管理功能是保障算力正常運行的先決條件,面對多樣化算力的浪潮,不同的智算部件管理接口存在多樣化的特征,構筑多算力統一管理架構底座勢在必行。
46、BMC 需支持多樣化算力廠家部件的快速兼容適配,需實現軟件架構分層解耦,各生態廠家 GPU 對應的 BMC 管理模塊支持獨立開發,快速適配。各廠商管理接口存在差異,可在 BMC 內部抽象出 GPU 管理適配層,同時統一對接管理 GPU 的南向接口與對接用戶側的北向接口,BMC 內部 GPU 管理模塊以獨立組件形式運行,數據交互解耦設計,GPU 管理模塊運行異常、數據異常不會擴散影響 BMC 其他功能。35 BMC 內部 GPU 管理模塊需支持獨立開發調測、獨立升級更新發布、支持升級后熱生效,與BMC 軟件版本解耦,新增 GPU 管理相關功能僅需獨立升級 BMC 內部 GPU 管理模塊。第六章
47、應用場景及案例 6.1 應場場景 智算整機柜液冷服務器主要是面向互聯網、運營商、金融、電力等行業智算中心以及政府主導的國家或者區域智算中心,能夠滿足智能算力千卡、萬卡等大規模集群高密、綠色、安全可靠的建設需求。6.2 案例:超聚變 FusionPoD for AI 整機柜液冷服務器助力運營商打造高效、可靠、綠色的智算中心 圖 6-1 超聚變 FusionPoD for AI 智算整機柜液冷服務器 超聚變面向智算中心打造創新架構整機柜液冷服務器 FusionPoD for AI,FusionPoD for AI 整機柜使用機柜上走電下走水架構,原生液冷設計實現天然可靠性保障,支持 100%36
48、液冷散熱,PUE 達 1.10 以下,滿足國家政策要求,是東數西算最佳的智算液冷解決方案,整機柜支持 64GPU;業界首創液、電總線盲插,實現即插即用,即拔即斷的極簡部署。在供液上,采用浮動盲插快接、漏液隔離、漏液導流與防噴射技術,實現原生液冷的高可靠連接和漏液預防,保障液冷系統穩定可靠運行。在供電上,采用集中式供電,獨特的電源 STS 設計,在支持 2N 供電輸入的同時,整機供電效率提升 1%,功率密度提升 45%,單柜支持 105kW+供電,具備進一步演進的能力。超聚變通過架構創新和整機工程技術創新打造最佳的商用液冷方案,致力為客戶提供綠色節能算力,為東數西算主要樞紐節點提供優質方案。圖
49、6-2 運營商智算中心 FusionPoD for AI 大規模部署 針對運營商液冷智算中心大規模集群建設面臨的快速交付、高效運維以及安全可靠的挑戰與需求,超聚變為客戶提供了端到端的整體數據中心液冷解決方案,助力運營商建設高密、高可靠、綠色的智算中心:FusionPoD for AI 整機柜交付,二次側端到端部署、測試聯調、驗收,交付周期減少一半,大幅提升交付效率;FusionPoD for AI 液冷原生設計,通過防噴射、漏液導流、漏液關斷等液冷高可靠措施保護高價值設備安全可靠運行;FusionPoD for AI 液冷占比高達 80%以上,實現極致能效和超低 PUE。37 第七章 結論與展
50、望 液冷智算開放架構憑借前沿技術創新與先進設計理念的深度融合,為高密度、異構計算場景打造出一套為 8 個 OAM 模組形態 AI 服務器集群化部署和運維極為高效的解決方案。展望未來,隨著大語言模型(LLM)的持續演進,混合專家模型(MoE)作為新興的高效并行算法逐漸嶄露頭角,加之新一代 AI 芯片不斷迭代升級,Scale Up 互聯標準穩步推進,以及 Scale Out 對更高帶寬需求的日益凸顯,超節點架構有望成為高效訓練集群和中心推理集群的又一主流部署模式。屆時,單柜超節點功率有望突破 200kW、500kW,甚至邁向柜級 MW 級應用。在此趨勢下,超節點架構采用液冷整機柜級部署將成為必然且唯一可行的選擇?;诖?,我們呼吁行業內各方攜手共進,凝聚力量共同推動技術創新,積極構建良好的生態體系,以此助力實現更加高效、靈活且標準化的智算數據中心建設與運營模式,為行業的長遠發展注入強勁動力。GCC 官方微信 GCC 官方網站