《中國電信:2024亞太區智算中心液冷應用現狀與技術演進白皮書(98頁).pdf》由會員分享,可在線閱讀,更多相關《中國電信:2024亞太區智算中心液冷應用現狀與技術演進白皮書(98頁).pdf(98頁珍藏版)》請在三個皮匠報告上搜索。
1、致致謝謝在此特別感謝中國電信國際公司的管理層,特別鳴謝吳曉雷、陳凱、程雍對于本次白皮書撰寫的大力支持。感謝在亞太區智算中心液冷應用現狀與技術演進白皮書白皮書撰寫過程中,通過深談會、特約訪談等形式分享專業觀點和經驗的行業專家們(按照拼音順序,排名不分先后):曹曹維維兵兵、柴柴學學、陳陳剛剛、陳陳淼淼、陳陳天天鵬鵬、丁丁海海峰峰、杜杜華華銳銳、段段振振、馮馮立立波波、符符曉曉、葛葛鷹鷹、黃黃維維華華、井井湯湯博博、鞠鞠昌昌斌斌、Kozen、李李劍劍、李李典典林林、李李輝輝、李李志志強強、李李巍巍、劉劉衛衛民民、劉劉昕昕、陸陸干干、陸陸景景瑩瑩、雒雒志志明明、王王藝藝歐歐、王王海海峰峰、喬喬興興波波
2、、喬喬嶠嶠、任任政政、任任華華華華、孫孫地地、唐唐虎虎、唐唐康康、吳吳道道雄雄、吳吳建建雨雨、Tuan Giang、張張冰冰、張張炳炳華華、張張廣廣宏宏、張張鵬鵬、張張齊齊鑫鑫、張張珊珊珊珊、朱朱亮亮、張張義義、周周曉曉偉偉等等。感謝您們的辛苦付出和努力,白皮書的每一個知識點的落實離不開你們的付出。希望亞太區智算中心液冷應用現狀與技術演進白皮書不僅可以為液冷技術的發展提供堅實的理論基礎,還可以為推動亞太區智算中心液冷技術的創新與發展,為智算中心的演進貢獻一份力量!亞太區智算中心液冷應用現狀與技術演進白皮書編委會2024 年 12 月1 12 2序序言言在 2024 年最后一個月,我們可以來簡單
3、回顧一下今年對數據中心行業的意義。如果說 2023 年從 ChatGPT 發布開始成為 AI 元年,那么我們就有足夠的信心稱 2024 年為液冷元年,當然是特指數據中心行業。但 2024 年的年初和年尾,數據中心行業對液冷的應用卻經歷了一個從懷疑觀望,到理解接受,最終堅定擁抱的態度轉變過程。這個過程具有戲劇化的一點主要是,在僅僅一年之內就完成了這個行業對一個核心技術的從質疑到擁抱的全過程,這在數據中心這么一個一直以“保守”著稱的行業而言是從未發生過的。從 2024 年 5 月至 11 月,CTG 和深知社分別在雅加達、上海、香港、新加坡、吉隆坡、胡志明、北京等城市舉辦了多場液冷應用相關的深談會
4、(Deep KnowledgeSymposium)和數據中心訪談,通過深談會和實地訪談產生了大量與液冷相關的知識素材,并通過 CTG 專家團隊和深知社研究員團隊精心梳理和編寫,最終形成了這本亞太地區智算中心液冷應用現狀與技術演進白皮書基于以上背景和訴求,CTG 聯合深知社,共同發起這本亞太地區智算中心液冷技術應用現狀與技術演進白皮書,力求通過深度的調研和實地的考察,準確還原當下亞太地區不同國情、不同模式、不同階段的智算中心液冷應用情況。并通過總結、歸納、創新,基于“兩彈一優”總體技術框架,對液冷應用進行場作為全球通信企業的領導者之一,中國電信很早就開始關注智算技術與市場的發展,并致力于與 AI
5、 相關基礎設施的研究與創新。2023 年 12 月,中國電信集團就根據國內智算中心的發展現狀與預期,首先提出了以“兩彈一優”為核心方法論的新一代 AI 智算基礎設施建設指南,從“能源彈性、制冷彈性、氣流優化”三個維度對智算基礎設施的核心管理目標進行歸納和總結,有效的對全產業生態進行了科學高效的指導。2024 年初,中國電信國際有限公司(以下簡稱 CTG)開始關注以亞太地區為代表的國際智算基礎設施發展情況,特別是液冷技術在AIDC 的應用情況和趨勢。針對亞太地區國家眾多的情況,在國情不同、芯片發展速度快、產業信息不透明等特殊情況下,CTG 希望通過一種國際化、動態化和標準化的研究形式,快速對亞太
6、地區智算中心液冷應用進行調研,并能夠基于不同場景提出具體的液冷部署方法,為迷霧中的亞太地區智算基礎設施行業點亮一盞明燈。景化對比,對智算中心的發展趨勢做出有效的判斷。這本白皮書以純粹的工程師視角、寬廣的國際化視野、深入的調查訪談作為主要的差異點,希望能夠成為亞太地區數據中心從業者深度了解液冷的價值參考。本次白皮書的訪談和編制過程中,CTG 和深知社得到了 ASHRAE 亞太地區各3 3個國家分會組織的鼎力支持。不僅僅是最終的這本白皮書本身,整個白皮書調研、訪談、編寫、翻譯的過程均在國際化團隊的背景下進行,有效促進了中國與亞太地區數據中心工程師的溝通和交流。最后,感謝深知社的研究員和志愿者團隊對
7、此次白皮書辛苦的付出。中國電信國際有限公司2024 年 12 月 10歡迎各位讀者在閱讀完本白皮書后也提出您的寶貴想法和建議。從亞太乃至全球范圍,CTG 將繼續認真聽取來自產業一線的聲音,以期為更為廣闊的國際智算產業發展提供優質的服務水平。日4 4目目錄錄第第一一章章、智智算算產產業業發發展展與與液液冷冷技技術術應應用用的的機機遇遇與與挑挑戰戰.11.1 GPU 芯片快速發展帶來的能耗與散熱挑戰.11.2 規模部署給機柜散熱帶來新的挑戰.21.3 智算中心用電規模及能效的挑戰.31.4 智算中心水資源利用率 WUE 的挑戰.51.5 液冷技術應用的機遇與挑戰.5第第二二章章、亞亞太太地地區區智
8、智算算中中心心的的發發展展.82.1 亞太地區數據中心產業現狀及重點地區分析.82.2 亞太地區智算中心發展遇到的氣候挑戰.112.3 亞太地區智算中心液冷應用現狀與發展趨勢.14第第三三章章、液液冷冷主主流流技技術術路路線線及及架架構構分分析析.193.1 液冷通用架構.193.2 熱捕獲.193.3 熱交換.263.4 冷源.283.5 液冷架構分類.34第第四四章章、風風液液混混合合制制冷冷架架構構的的特特點點分分析析.374.1 風液融合是智算中心液冷應用的必由之路.374.2 常見的風液融合架構.374.3 不同風液融合架構下 WUE、PUE、TCO 對比分析.444.4 架構選擇建
9、議.45第第五五章章、典典型型智智算算中中心心液液冷冷應應用用場場景景的的選選擇擇分分析析.485.1 大型智算中心的液冷架構.485.2 中小型智算中心的液冷架構.51第第六六章章、液液冷冷系系統統的的預預制制化化.555 56.1 數據中心產品預制化發展的趨勢與價值.556.2 冷源預制化方案.556.3 一體化液冷機柜及液冷微模塊.586.4 冷板式液冷集裝箱.60第第七七章章、傳傳統統風風冷冷數數據據中中心心的的液液冷冷改改造造.637.1 冷凍水系統的液冷改造.637.2 直膨式空調系統.65第第八八章章、典典型型智智算算中中心心液液冷冷系系統統運運行行挑挑戰戰.688.1 冷板系統
10、可靠性驗證.688.2 冷板液冷服務器適配性驗證.698.3 冷板液冷系統運維界面劃分.708.4 冷板液冷系統的運行與維護.70第第九九章章、智智算算中中心心新新技技術術展展望望.739.1 數據中心制冷技術的演進分析.739.2 未來熱門的液冷技術應用前瞻.74第第十十章章、總總結結.85附附:名名詞詞解解釋釋.876 6第第一一章章、智智算算產產業業發發展展與與液液冷冷技技術術應應用用的的機機遇遇與與挑挑戰戰1 1.1 1 G GP PU U 芯芯片片快快速速發發展展帶帶來來的的能能耗耗與與散散熱熱挑挑戰戰隨著 CPU、GPU、NPU、TPU(詳見名詞解釋)等芯片的發展,基于大模型的人工
11、智能產業得以快速迭代。以英偉達(NVIDIA)(詳見名詞解釋)為例,自從 2016 年推出 Pascal 系列 GPU 之后,基本保持了兩年更新一代架構的 GPU 芯片智能算力的快速提升。隨之而來的是在做人工智能大模型訓練和微調時,模型進化所需要的能源在不斷減小。英偉達創始人黃仁勛在 2024 年 GTC 大會上公布的數據(如圖 1-1),從 P100 芯片到目前最先進的 B100 芯片,在訓練 GPT-MoE-1.8T這樣的模型時,每 token 所消耗的能源下降了 45,000 倍。圖 1-1 B100 GPU 較 P100 處理 Token 的能耗減少了 45000 倍按照這個數據我們來
12、推演一下,訓練一個 GPT4-MOE-1.8T,以 10 天為訓練周期所需要的能源總數見表 1-1??梢?,芯片算力的演講是算力普惠的必由之路,只有足夠便宜的算力成本,才能推動智算行業蓬勃發展,賦能千行百業。表 1-1 P100 到 B100 各項指標參數(以 GPT4-MOE-1.8T 10 天基準測試為參考)1 1但芯片的快速發展,在應用上也遇到了基礎設施方面的瓶頸與挑戰。隨著芯片算力的快速發展,芯片的 TDP(Thermal Design Power)(見名詞解釋)散熱功率的快速攀升。從英偉達 V100 到 GB200 的芯片散熱功率的變化值,以及未來 Rubin 系列的功耗預測來看(見圖
13、 1-2),芯片散熱功率很快達到 1,200W 以上,甚至更高。圖 1-2 芯片算力與 TDP 提升趨勢的對照按照英偉達最新的計劃,采用最新芯片架構的 GB200 算力模組,模組的散熱功率達到 5400W(兩塊 GB200),如此高的芯片功率密度,給 GPU 服務器的供電和散熱等基礎設施提出了顛覆式的挑戰。因此在 Blackwell 系列開始大規模部署開始,從芯片到服務器再到數據中心的散熱技術需要快速迭代,以適配 AI芯片大規模部署帶來的熱的挑戰。1 1.2 2 規規模模部部署署給給機機柜柜散散熱熱帶帶來來新新的的挑挑戰戰除芯片的散熱功率快速攀升以外,智算大規模部署時網絡架構、網絡帶寬及網絡延
14、時的水平直接影響集群的有效算力,也間接影響了機柜熱密度。GPU 的強大的并行計算能力,大大提升了運算性能。隨著運算數據量的不斷攀升,GPU 間需要大量的交換數據。因此,GPU 通信性能成為了非常重要的指標。在 AI 集群中進行分布式訓練時,通信是必要環節,同時也是相比于單機訓練而言多出來的系統開銷。通信與計算的時間比例往往決定了分布式機器學習系統加速比的上限。因此,分布式機器學習的關鍵是設計通信機制,從而降低通信與計算的時間比例,更加高效地訓練出高精度模型。2 2AI 大模型的訓練是以 GPU 的大規模集群為基礎來實現的。在模型訓練的過程中 GPU 之間需要大量的數據交互,因此帶來了大量節點間
15、通信消耗。而由 GPU集群構成的算力的大小也不是簡單的用 GPU 單卡算力乘以卡數量就能獲得。集群的有效算力與組網規模、網絡性能和通信的可靠性正相關。一般以以下公式來評估:集群有效算力 GPU 單卡算力*總卡數*線性加速比*有效運行時間總卡數:網絡設備容量決定 GPU 集群組網規模。智算采用無收斂網絡架構,兩層網絡架構下,GPU 最大拓展數量=P2/4(P 為交換機端口數)。線性加速比:網絡通信時延決定集群算力線性加速比。在分布式場景下,單次的計算時間包含了單卡的計算時間疊加卡間通信時間,導致加速比150MW。如果我們以一個地區 PUE=1.3 計算,假設采用冷凍水系統,系統的 WUE=2m/
16、MWh,一年的耗水量就達到 1,708,200m,相當于 11 萬戶家庭的用水量,對水資源的消耗相當驚人。因此在智算發展的同時用技術創新做好水資源的節約也是刻不容緩。優化冷卻塔的耗水量:冷卻塔在降低 WUE 方面具有巨大的潛力,因為冷卻塔占數據中心用水量的 90%以上;改用更節水的冷塔技術、通過循環利用冷卻塔中的排污來減少用水量,并通過應用電解等技術來清潔冷卻水,都能達到節水的目標以亞太地區典型市場新加坡為例,2021 年,新加坡用水量較大的數據中心(即上一年凈用水量至少為 60,000 m)的 WUE 中位值為 2.2m3/MWh。據此數據,新加坡公共事業局(PUB)提出,幫助新建和現有數據
17、中心降低 WUE 到 2.0m3/MWh。未來十年,通過如下一些技術革命降到更低的水平。采用更節水的制冷技術:包括風冷型空氣制冷和液冷等技術的應用,也可有效減少數據中心用水量。相關技術的用水水平及方案組合,會在本白皮書后續章節詳細闡述。1 1.5 5 液液冷冷技技術術應應用用的的機機遇遇與與挑挑戰戰如上述章節分析可知,以 GPU 算力為核心的智算中心,會成為未來 10 年數據中心增長的主要推動力。而由于技術的需要,高性能的 GPU 芯片會帶來更高散熱功耗、更短距離高帶寬的組網技術、以及不斷提升的數據中心功率密度。同時規?;膽脦泶罅康碾娏退Y源的消耗,需要通過更先進的技術提供更低的 PU
18、E 和 WUE。按美國暖通制冷空調行業協會 ASHRAE 的推薦,當芯片的 TDP大于 300W,機柜功率密度大于 40kW 以上時推薦使用液冷制冷技術。同時液冷的應用也可以大幅度較低 PUE 和 WUE。因此智算的快速發展給液冷技術在數據中心的應用提供了前所未有的機會。液冷技術前景雖然廣闊,但實現的過程仍然充滿挑戰。在數據中心發展的60 多年、云數據中心發展的 20 多年歷史來看,空氣冷卻型制冷(業內也稱風冷)5 5一直占據絕對的主導地位,液冷技術僅用于科研為主要目標的超算場合。無論是浸沒式液冷還是冷板式液冷,在 Hyperscale 和 Colocation 規模下的大范圍商用還未曾經歷。
19、智算中心的制冷技術能否順利完成從風冷向液冷的轉型,充滿不確定性。其中的挑戰來自于各項液冷技術的成熟度、芯片兼容性、基礎設施兼容性、運維的難度、故障處理的難度以及產業鏈的成熟。在技術融合與切換的過程中還存在液冷設備與以存在的傳統風冷機房的兼容問題、改造問題,風液共存的過渡都需系統性規劃。本白皮書會就液冷技術應用的上述挑戰一一進行分析并嘗試給出解決方案。6 6第第二二章章、亞亞太太地地區區智智算算中中心心的的發發展展2 2.1 1 亞亞太太地地區區數數據據中中心心產產業業現現狀狀及及重重點點地地區區分分析析根據咨詢機構 CUSHMAN&WAKEFIELD 的市場調研報告Asia Pacific D
20、ataCentre Update 2024-H1披露:2024 年上半年,亞太地區數據中心市場的運營容量已接近 12GW,新增供應量約 1.3GW,創下近年來的最大增幅。同時,整個地區在建的開發項目總量為 4.2GW,規劃階段的項目總量為 12.0GW,自 2023 年下半年末以來增加了 2.8GW。在亞太地區的 14 個市場中,主要的成熟市場是:中國大陸(4.2GW)、日本(1.4GW)、印度(1.4GW)、澳大利亞(1.2GW)、新加坡(0.98GW);增長最快的是馬來西亞(2.1GW)、中國香港(0.58GW)等市場。下面我們分別從成熟市場和新興市場挑選幾個典型來詳細分析。日日本本環環東
21、東京京經經濟濟圈圈區區域域2023 年,環東京經濟圈的數據中心運營容量超過 1GW,并在 2024 年上半年保持穩定增長。自 2023 年第二季度以來,整體的運營容量增加了 14%。截止到2023 年底,該市場還額外吸收了 44MW 的 Hyper 和 Colocation 的容量,平均的數據中心運營容量達到 9MW,并計劃持續增容,達到平均 40MW 的規模。由于電力的短缺和基礎建設成熟從業勞動力的短缺,目前該地區很多數據中心的建設有所延誤。例如小田園數據中心的開發,在已確保了 2025 年可以獲得電力供應的前提下,宣稱服務上線時間延遲到 2027-28 年。供電的挑戰還反映在該市的電力建設
22、進度上,雖然目前電力供應產能在穩步提升,電力缺口從 340MW 縮減到 236MW,但與需求比仍然存在較大差距。勞動力短缺方面,預計會在 2025 年大阪世博會前有所改善?;诖饲闆r,越來越多的運營商開始關注門檻較低的東京中央商務區以外的周邊地區(見圖 2-1)。例如印西和相模原地區,土地成本明顯更低,電力供應不受限制,需求占東京都未來數據中心供應容量的 60%以上。吉寶公司與三井不動產簽署了一份諒解備忘錄,以探索數據中心日本和東南亞的發展和投資機會。此外,吉寶數據中心基金 II(KDCF II)還與三井不動產簽訂了遠期購買框架協議,位于東京西部(相模原集群的一部分)的 300,000 平方英
23、尺(27,870 平方米)永久產權專用數據中心,該數據中心將于 2027 年竣工,成為吉寶在日本的首個數據中心項目。8 8圖 2-1 環東京經濟圈數據中心分布新新加加坡坡地地區區新加坡地區目前是亞太地區數據中心投資的熱土。截止到到 2024 年,新加坡總 IT 容量為 1347MW,其中已經投運的有 965MW 占比 71.64%;在建的有101MW,占比 7%;規劃中的有 281MW,占比 20.87%。其中托管類業務占比 55.23%,自用業務占比 44.77%,目前的空置率僅為 8MW。雖然新加坡是目前亞太地區數據中心產品的核心,但由于數據中心基礎設施特別是以AI為主要驅動的智算中心基礎
24、設施的建設和運行需要消耗大量的土地、電力和水,而新加坡本地這些資源都相對緊張。因此為迎接智算時代的數據中心高爆發需求,新加坡政府更多的推動與馬來西亞的合作,將數據中心的建設放在馬來西亞的柔佛和巴淡島,據悉,未來新加坡 60%的新增數據中心都會投資到這兩個地區。馬來西亞及印馬來西亞及印度尼度尼西亞西亞隨著 2019 年新加坡暫停建設本土數據中心以后,最具地理優勢的馬來西亞成為了亞太地區最熱門的數據中心投資區域。據第一數據:First Big Data發布的統計,目前馬來西亞數據中心有大吉隆坡和柔佛兩大集群。詳細如下:集群一:大吉隆坡地區。集群一:大吉隆坡地區。大吉隆坡地區是馬來西亞最早發展的數據
25、中心集群之一。CSF Group、Basis Bay 和 VADS 等公司是大吉隆坡地區市場的先行者。第一數據調研發現(見圖 2-2),從 2010 年開始,大多數國際運營商通過收購進入吉隆坡市場。例如,2018 年,秦淮數據旗下的 Bridge Data Centers 從 CSF 集團手中收購了 CX2 數據中心。根據公布的數據顯示,大吉隆坡地區運營中及在建的數據中心容量達到 211MW。微軟于 2021 年 4 月宣布在賽城自建數據中心,其市場份額排名第一。其余份額領先的公司包括 NTT、AIMS、Bridge Data Centers 和 VADS。9 9圖 2-2 大吉隆坡地區數據中
26、心建設情況統計集群二:柔佛和巴淡島。集群二:柔佛和巴淡島。根據 STRCTURE RESEARCH 在 2024 年 4 月的報告DCI REPORT SERIES MARTET:JOHOR&BATAM披露的數據(見圖 2-3):柔佛和巴淡島地區 2024 年計劃建設的數據中心數量達到 82 個,總容量達到 2,153MW。圖 2-3 柔佛及巴淡島地區 2024 年數據中心建設規劃及分布10102 2.2 2 亞亞太太地地區區智智算算中中心心發發展展遇遇到到的的氣氣候候挑挑戰戰亞太地區面積廣闊,橫跨多個氣候帶和海洋系統,因此氣候特征呈現出多樣性和復雜性:東南亞為典型的熱帶雨林氣候和熱帶季風氣候
27、,這些地區全年高溫多雨,降水豐富;中國南部、日本南部以及澳大利亞的部分地區,屬于亞熱帶季風氣候或亞熱帶濕潤氣候,這些地區夏季高溫多雨,冬季溫和少雨;中國東部、日本大部分地區以及朝鮮半島等,屬于溫帶季風氣候,夏季炎熱多雨,冬季寒冷干燥。主主要要地地區區氣氣候候特特征征及及散散熱熱挑挑戰戰東南亞地區的數據中心眾多且發展潛力巨大,本章節以新加坡、馬來西亞、印尼為例,介紹它們的氣候特征及散熱挑戰。新新加加坡坡新加坡位于北緯 118,東經 10351,馬來西亞半島的南端。新加坡地處熱帶,長年受赤道低壓帶控制,為赤道多雨氣候,年溫差和日溫差小,年平均溫度在 23-33之間,濕度介于 65%到 90%之間。
28、12 月是一年中最冷的月份,平均氣溫 24左右。6 月是一年中最熱的月份,平均氣溫 29左右。圖 2-4 新加坡全年溫濕度根據 ASHRAE 的氣象數據(見圖 2-4),新加坡近 10 年的極端高溫為 36.1,1111極端低溫為 21.7,極端濕球 30.3。馬馬來來西西亞亞根據 OMDIA 的研究報告,馬來西亞數據中心最多的三個地區為:吉隆坡、賽城、新山。吉隆坡距賽城 30 多公里,距新山 300 多公里,但新山緊挨新加坡。因此選擇吉隆坡的氣候特征進行分析。吉隆坡位于北緯 308,東經 10142,馬來西亞半島的西海岸。吉隆坡為熱帶雨林氣候,四季如夏,日照充足且降雨豐沛。年溫差和日溫差小,
29、年平均溫度在 23-34之間,濕度介于 70%到 95%之間。1 月是一年中最冷的月份,平均氣溫 27左右。5 月是一年中最熱的月份,平均氣溫 29左右。圖 2-5 吉隆坡全年溫濕度根據 ASHRAE 的氣象數據(見圖 2-5),吉隆坡近 10 年的極端高溫為 36.9,極端低溫為 21.3,極端濕球 31.3。印印度度尼尼西西亞亞根據 OMEDIA 的研究報告,印尼數據中心最多的地區為:雅加達、泗水、萬隆、巴淡島、棉蘭。這五座城市雖然比較分散,但氣候特征非常接近。因此以雅加達為例分析氣候特征。雅加達位于南緯 609,東經 10649,爪哇島的西北海岸。雅加達為1212熱帶雨林氣候,全年高溫多
30、雨,季節變化不明顯。年溫差和日溫差小,年平均溫度在 24-32之間,濕度介于 60%到 80%之間。旱季(5 月至 10 月)氣溫相對較高在 29-32之間,雨季(11 月至次年 4 月)氣溫相對較低在 28左右。圖 2-6 雅加達全年溫濕度根據 ASHRAE 的氣象數據(見圖 2-6),吉隆坡近 10 年的極端高溫為 37.7,極端低溫為 19.2,極端濕球 29.3。散散熱熱挑挑戰戰從上述的分析可以看出,東南亞幾個核心城市的氣候特征非常相似,主要表現為:終年高溫高濕,年溫差和日溫差小。從數據中心散熱的角度分析,東南亞的氣候條件并不優越。面臨的挑戰是濕熱的環境使得制冷部分的節能難度很大,主要
31、依靠機械制冷,可利用自然冷源的時間非常有限,最終導致 PUE 偏高。綜上,東南亞的數據中心的散熱可以從以下四個方面考慮:1、提高機房溫度設定點,可以有效降低能耗。2、充分利用水資源,采用高效水冷冷機,并配合水側自然冷。3、采用先進的節能技術,例如液冷、余熱回收等。1313在非智算時代,液冷更多的部署在超算中心中,且以單相浸沒方式為主流。而即將大規劃商用化部署的面向 AI 業務的智算中心更多的會采用冷板式液冷的方式。當前全球規?;渴鹄浒迨揭豪涞臄祿行牟⒉欢?,我們以特斯拉xAIColossus 數據中心為例,來了解智算中心液冷規?;渴鸬默F狀。特斯拉 xAIColossus 數據中心目前部署了
32、 10 萬個 NVIDIA H00 GPU。服務器為 4U 高度,包含8 個 GPU,機柜可以擺放 8 臺服務器,因此整機柜含有 64 個 GPU。再由 8 個機柜構成一個陣列,共計 512 個 GPU。Colossus 集群共有超過 1500 個機架,接近200 個陣列(見圖 2-7)4、精細化運維、優化氣流組織、采用智能溫控系統等。2.32.3 亞太地區智算中心液冷應用現狀與發展趨勢亞太地區智算中心液冷應用現狀與發展趨勢。圖 2-7 xAI Colossus 機房布局特斯拉 xAI Colossus 集群的液冷技術采用液冷整機柜設計,每個機柜含一臺柜內機架式冷量分配單元 CDU(Cooli
33、ng Distribution Unit)。為保證液冷系統的可靠運行,柜內 CDU 的核心部件,如循環泵、電源都采用了 N+1 冗余設計并支持在線維護(見圖 2-8)。1414圖 2-8 特斯拉 xAI 機柜內置冷量分配單元柜內擺放的 8 臺服務器都有液冷出入水口,通過支岔路水管 Monifold 與冷量分配單元連接進行散熱。機架中仍保留了風扇系統,用于冷卻內存(DIMM)、電源單元、主板管理控制器(BMC)、網卡等低功耗組件。為保證機柜內的熱平衡,服務器機柜也配備了后門熱交換處理器 RDHx(Rear Door Heat Exchange)(見圖 2-9)服務器風扇從前部吸入冷空氣,從后部排
34、出,隨后經過后門熱交換器處理。圖 2-9 xAI 機柜后門熱交換處理器在亞太區(除中國外),近兩年數據中心建設規模最大和建設速度最快的地1515區是馬來西亞。近兩年,以秦淮數據海外公司 Bridge Data Center 和萬國數據為首的中國數據中心運營商,以及東南亞本地的 NTT、STT 等成熟運營商都在積極部署液冷數據中心,當前馬來地區的液冷數據中心規模也達到了 150MW 以上。2025 年開始,隨著英偉達 GB200 NVL 液冷整機柜業務的大量部署,亞太地區的液冷數據中心也會進入高速增長期。中國作為亞太區最大的獨立市場,在智算中心方面有系統化的規劃。在 2024年的算力大會上,中國
35、電信研究院發布的智算產業發展研究報告(2024)顯示(見圖 2-10),截至 2024 年 6 月,中國已建和正在建設的智算中心超 250 個,已建成的有 40 多個。圖 2-10 中國智算中心規劃布局圖其中,中國電信臨港算力中心就是其中的優秀案例。作為上?!皷|西兩翼”智算中心之一,臨港算力公司建成了長三角首個國產單池萬卡液冷算力集群,智算容量超 5EFLOPS,能夠支持萬億參數大模型訓練。這一成就不僅為科研院校、大模型公司等企業機構在 AI 計算、深度學習、訓練推理等研究中提供了澎湃的算力支持,其在基礎設施層的優秀特征如下:一是建設創新型的“兩彈一優”基礎設施。臨港算力網通過彈性供電、彈性供
36、冷、機房氣流組織優化的“兩彈一優”,實現多元算力組合快速交付(見圖16162-11)。彈性供電方面,通過機柜設備的“小母線+彈性方艙”配電系統,一艙解決不同客戶集群部署模式帶來的機柜功率變化需求。彈性供冷方面,采用冷凍水系統、熱管多聯系統、液冷系統等多種數據中心冷卻手段,統籌預留基礎設施管井及接口,實現制冷技術彈性應用。機房氣流組織優化方面,通過流體動力學模擬計算機架和機房的氣流組織,精細化設計冷熱通道,開展建設性設計和周期性優化,綜合提升供冷效率。圖 2-11 彈性制冷循環系統與能效分布圖二是通過創新性研究解決行業難點問題。通過使用中距離跨區 RDMA(遠程直接內存訪問)進行市內算力組網,解
37、決算力資源分散無法被集中調用的問題。通過使用跨區 RDMA 協議和廣域拓撲感知并行策略,對跨數據中心大模型訓練提出針對性模型訓練策略建議,為客戶提供合適的解決方案,提升訓練效率。聯合國內算力上下游生態合作伙伴為客戶提供適配測試服務。自 2023 年 9 月投入運營以來,建設大規模商用液冷資源池,通過“兩彈一優”實踐創新解決機柜功率的變化需求,支持單列機柜功率密度從 8kW 到 48kW之間靈活適配。目前,跨區 RDMA 組網已完成 128、512 卡 30KM 對比驗證,訓練效率可達單集群的 95%以上,完成 5 家大模型訓練性能測試,支撐星辰 115B等基礎大模型平穩訓練,集群可用率達到 9
38、0%以上。1717第第三三章章、液液冷冷主主流流技技術術路路線線及及架架構構分分析析3 3.1 1 液液冷冷通通用用架架構構液冷架構由多個部分組成,并且每個部分還可以繼續細分,但本質上液冷架構可以描述為三個部分:熱捕獲,熱交換,冷源。下圖 3-1 是簡化后的液冷通用架構,它展示了液冷最核心的三個部分,方便我們將其歸納并討論。圖 3-1 液冷系統通用架構示意圖3 3.2 2 熱熱捕捕獲獲液冷的熱捕獲指的是使用液體從 IT 組件中帶走熱量。根據熱捕獲的方式不同,液冷可以分為多種形式,當前主流的技術方案有三種:冷板式、浸沒式、噴淋式。冷冷板板式式冷板式液冷(見圖 3-2)的冷卻液不與 IT 發熱元件
39、直接接觸,而是通過安裝在發熱元件(通常為 CPU/GPU 等大功耗部件)上的冷板(通常為銅鋁等導熱金屬構成的封閉腔體)將熱量帶走,這種散熱形式也稱為非接觸式液冷。1919圖 3-2 冷板液冷實物圖及原理圖根據冷卻液在冷板中是否發生相變,冷板式液冷可以分為以下兩種類型:單相冷板和兩相冷板。兩種換熱類型的制冷架構基本一致,主要區別在于二次側冷卻液不同。單相冷板一般采用沸點較高的水基冷卻液,換熱過程不發生相變。兩相冷板一般采用沸點較低的制冷劑,換熱過程會發生相變。冷卻液的對比如下表 3-1:2020表 3-1 冷板式液冷冷卻液對比冷板式液冷選擇冷卻液時,需要綜合分析冷卻液的熱性能、環保、兼容性、價格
40、等因素。對于單相冷板液冷,需要特別關注冷卻液的防腐和細菌抑制能力,否則不但會導致換熱效率大幅下降,同時也可能造成泄漏,損壞服務器。推薦選擇 25%丙二醇水溶液。對于相變冷板液冷,需要特別關注當地的環保法規和工作壓力。推薦選擇R515B、R134a、R513A、R1234yf。浸浸沒沒式式:浸沒式液冷是將服務器內的元器件完全浸沒在冷卻液中,通過冷卻液的循環將服務器的熱量帶走,這種散熱形式也稱為接觸式液冷。根據冷卻液在換熱過程中是否相變,浸沒式液冷可以分為以下兩種類型:單相浸沒、兩相浸沒。2121單單相相浸浸沒沒:單相浸沒的箱體稱為 TANK,低溫的冷卻液進入 TANK 后,吸收服務器的熱量,然后
41、進入 CDU 中散熱,整個過程中冷卻液不會發生相變。實物圖和原理圖如下圖 3-3:圖 3-3 單相浸沒式液冷實物圖及原理圖兩兩相相浸浸沒沒:兩相浸沒將 IT 設備浸沒在沸點低于 IT 設備工作溫度的冷卻液中,當 IT 設備的運行溫度達到冷卻液的沸點后,會引起冷卻液的局部沸騰,從而帶走熱量,蒸汽上升到達冷凝器盤管會變成液體并落下。實物圖和原理圖如下圖 3-4:2222圖 3-4 兩相式冷板液冷實物圖及原理圖單相液冷和兩相液冷兩者的制冷架構基本一致,主要差異在于二次側冷卻液的循環方式。相變液冷的冷卻液僅在浸沒腔體內循環,而單相液冷的冷卻液需要進入 CDU 中。冷卻液是浸沒液冷最需要關注的地方,也是
42、其大規模應用的最大瓶頸。浸沒液冷將帶電狀態下的服務器完整的浸沒在冷卻液中,因此充當換熱介質的冷卻液必須是不導電的高穩定介電液體,這樣的介電液體通常不溶(或難溶)于水,可最大限度保障其絕緣性不被輕易破壞。浸沒液冷所使用的介電液體可以分為兩大類:油類、氟化液。油類沸點非常高,因此只應用于單相浸沒;氟化液種類繁多,可以配制成各種沸點,例如從 55到 200以上。低沸點(例如 55)用于兩相浸沒,而高沸點用于單相浸沒。兩者的對比如下表 3-2:2323表 3-2 浸沒式液冷冷卻液對比浸沒液冷在選擇冷卻液時,需要從以下幾個方面綜合考慮:1、綜合熱性能2、信號完整度3、兼容性、可靠性、維護4、環保浸沒液冷
43、的冷卻液推薦氟化液,它的綜合熱性能優秀,并且有非常好的兼容性和可靠性,缺點是價格昂貴,并且需要關注當地的環保法規。噴噴淋淋式式噴淋式液冷是用低溫冷卻液直接噴淋 IT 組件的發熱元件,吸熱后的高溫冷卻液換熱后再次循環進入服務器噴淋,整個過程中無相變。它和浸沒式液冷一樣也屬于接觸式液冷,差異在于噴淋式加強了對流換熱。噴淋式液冷的實物圖及原理圖如下圖 3-5:2424圖 3-5 噴淋式液冷實物圖及原理圖噴淋式與單相浸沒式液冷比較類似,可以把它當作一種特殊形式的浸沒液冷,因此噴淋式可以采用與單相浸沒一樣的冷卻液。三三種種熱熱捕捕獲獲技技術術對對比比三種熱捕獲技術都有各自的優缺點及適用場景,我們從以下這
44、些維度進行比較,見表 3-3:2525表 3-3 三種液冷技術對比液冷技術在進行方案選擇時,還需要重點考慮服務器的側的條件,通過服務器側的具體信息反推基礎設施側采用何種液冷技術。3 3.3 3 熱熱交交換換液冷的熱交換主要通過 CDU(Coolant Distribution Unit)即冷量分配單元來實現。作為連接一次側和二次側的“橋梁”,CDU 中包含熱交換模塊、泵模塊、過濾模塊、補液模塊、監測模塊、控制模塊等,這些模塊集成在一起,實現以下三項功能:1、一/二次側流體的熱交換及隔離2、冷卻液的溫度、流量、壓力控制3、冷卻液監測&處理除了以上三項關鍵功能,還需要關注 CDU 的類型,可以從以
45、下兩個方面具體分析:換熱方式和安裝形式。CDU 的換熱方式2626表 3-4 CDU 換熱方式分CDU 的換熱方式描述是在 CDU 中換熱的二次側和一次側工質。如前文所述,二次側的工質分為單相 L(Liquid)和兩相 R(Refrigerant)。一次側的工質有三種:A(Air),L(Liquid),R(Refrigerant)。CDU 按照換熱方式分類如下見表 3-4:類CDU 的的安安裝裝方方式式CDU 的安裝方式不僅決定了它的安裝位置,同時也決定了它的容量和所帶末端的數量??煞譃闄C架式(分布式)和機柜式(集中式)。兩者的原理圖如下圖 3-6:圖 3-6 CDU 安裝原理圖CDU 兩種形
46、式分別對應不同的場景,對比如下表 3-5:2727表 3-5 CDU 安裝形式對比3 3.4 4 冷冷源源液冷架構的冷源有多種方案可供選擇。選擇冷源前,要確定一次側的供水溫度,ASHRAE TC9.9 定義了一次側冷水的溫度等級,如下表 3-6:表 3-6 ASHRAE 液冷水溫等級當水溫較高且當地氣候條件好,可以完全利用自然冷卻系統,而當水溫較低時,一般就需要利用機械冷卻系統。還有一種情況比較特殊:部分老舊機房也會有智算需求,因此要對它們進行液冷改造,但普遍存在的問題是現場無法新增一套供液冷使用的冷源,所以只能將原有的精密空調作為冷源。因此,冷源共有三類:自然冷卻系統、機械冷卻系統(帶自然冷
47、)、原有精密空調自然冷卻系統。2828自然冷源系統可以分為:開式冷卻塔、閉式冷卻塔、干冷器、泵驅兩相系統。開開式式冷冷卻卻塔塔系系統統:開式冷卻塔在各種制冷場景下都被廣泛使用。它的優點是散熱效率高、占地面積小并且價格便宜。缺點是 WUE 高、運行水質差,因此在液冷系統中使用時需要在冷塔的出水口增加板換和泵組,避免 CDU 板換結垢。系統原理圖如下圖 3-7:圖 3-7 開式冷卻塔系統工作原理圖閉閉式式冷冷卻卻塔塔系系統統:閉式冷卻塔由內循環和外循環組成,內循環向系統提供冷卻水,它是一個封閉的系統,所以水質比較好,不需要增加板換,WUE 也會低于開式冷卻塔。缺點是價格昂貴且體積大。系統原理圖如下
48、圖 3-8:圖 3-8 閉式冷卻塔系統工作原理圖干干冷冷器器系系統統:干冷器即干式冷卻器,它的管內是冷卻液,與環境空氣直接換熱,工作過程沒有消耗水。優點是 WUE 為 0(或非常低),價格便宜。缺點是換熱效率較低,2929對空氣質量和環境溫度有較高要求。干冷器也可以配置水噴淋系統以增強在高溫季節的換熱能力。系統原理圖如下圖 3-9:圖 3-9 干冷器工作原理圖泵泵驅驅兩兩相相系系統統:泵驅兩相系統主要由氟泵、冷凝器、儲液管組成,采用相變冷卻。優點是換熱效率高,不需要考慮防凍和水質處理。缺點是價格較高,維護復雜。該系統的冷凝器可以選擇風冷冷凝器或者蒸發式冷凝器,前者 WUE 為 0,后者換熱效率
49、高。系統原理圖如下圖 3-10:圖 3-10 泵驅兩相系統工作原理圖除了以上這些自然冷源之外,還有一些比較高效的自然冷源,例如間接蒸發冷卻塔、干濕聯合式冷卻塔等。他們都是在上述自然冷源的基礎上進行的優化拓展,可以使用同樣的液冷架構。機機械械冷冷卻卻系系統統(帶帶自自然然冷冷)機械冷卻是指帶有壓縮機的直膨系統。該系統可以提供更加低溫的一次側冷3030卻液,滿足液冷系統的進液要求,同時不受環境溫度的限制。在液冷系統的應用中,機械冷卻會加入自然冷模塊,從而提高全年能效比??梢苑譃轱L冷冷水機+水側自然冷系統,水冷冷水機+水側自然冷系統,磁懸浮相變+氟泵自然冷系統。風風冷冷冷冷水水機機+水水側側自自然然
50、冷冷系系統統該系統的常用配置是在風冷冷水機的基礎上配置一套干冷器或者絕熱冷卻器(可額外配置也可集成在冷機上),實現過渡季節的部分自然冷和寒冷季節的完全自然冷。該系統的優點是省去了冷卻水系統,安裝方便,適應性更強,WUE 為 0(干冷器)或者非常低(絕熱冷卻器)。缺點是運行過程中容易受環境因素影響,對比水冷冷水系統能效偏低。系統原理圖如下圖 3-11:圖 3-11 風冷冷水機+水側自然冷系統工作原理圖風風冷冷冷冷水水機機+水水側側自自然然冷冷系系統統通過調節閥 1、2、3 的狀態,可以分別實現機械冷、部分自然冷、完全自然冷。工作狀態如下表 3-7:表 3-7 工作模式切換表3131水水冷冷冷冷水
51、水機機+水水側側自自然然冷冷系系統統:該系統被廣泛的應用在冷凍水數據中心,它是在水冷冷水機的基礎上額外增加了一套板換組件從而實現自然冷源的利用。該系統的優點是制冷效率高,運行穩定,運維簡單。缺點是前期投資大,耗水量高。系統原理圖如下圖 3-12:圖 3-12 水冷冷水機+水側自然冷系統工作原理圖通過調節閥 1-4 的狀態,可以分別實現機械冷、部分自然冷、完全自然冷。工作狀態如下表 3-8:表 3-8 工作模式切換表磁磁懸懸浮浮相相變變+氟氟泵泵自自然然冷冷系系統統該系統由磁懸浮壓縮機、氟泵、儲液罐、閥件、換熱器等部件組成。冷凝器可選擇干冷器或者蒸發式冷凝器,前者 WUE 低,后者能效高。該方案
52、不使用水作為載冷劑,二是直接向 CDU 輸送制冷劑,對應的 CDU 類型為 L2R 或 R2R。優點是換熱效率高,無油系統穩定性好。缺點是價格昂貴,維護難度比水系統大。3232它有兩種運行模式:機械冷和氟泵自然冷。低溫時氟泵單獨工作,實現完全自然冷。系統原理圖如下圖 3-13:圖 3-13 磁懸浮相變系統工作原理圖原原有有精精密密空空調調系系統統利用機房現有的精密空調作為液冷系統的冷源時,對應的 CDU 類型為 L2A或 R2A,安裝形式可以為機架式或者機柜式。液冷服務器的熱量傳遞給機房內的空氣,最終由精密空調的冷凝器將熱量散到室外。液冷改造類項目的限制條件較多,因此并不是每種熱捕獲形式都適用
53、。目前冷板式液冷對原有機房的承重、機柜、服務器等兼容性最好,所以液冷改造項目以冷板式液冷為主。原理圖如下圖 3-14:圖 3-14 原有空調系統液冷改造原理圖冷冷源源選選擇擇建建議議3333本節的冷源選擇建議針對新建的液冷數據中心。選擇冷源時,需要從以下幾個方面綜合考慮:1、一次側供液溫度等級2、氣候條件(溫度、濕度、氣溫變化范圍等)3、水資源情況及 WUE 政策4、技術因素(能效、可靠性、冷卻介質等)5、經濟因素(初投資&運行成本)6、其他因素(建設周期、可擴展性、建筑形式等)本文中所涉及的冷源選擇建議如下圖 3-15:圖 3-15 冷源選擇建議需注意:一次側供液溫度與當地氣象參數相關聯,同
54、樣的供液等級在不同地區的冷源形式可能不同。3 3.5 5 液液冷冷架架構構分分類類3434液冷系統的三個核心部分組合在一起可以形成多種液冷架構。熱捕獲形式中,噴淋式液冷的應用案例太少,未形成完整的產業鏈。因此,液冷架構還是以冷板式和浸沒式為主,可以歸納為下表中的 8 種架構,見表 3-9:表 3-9 液冷架構分類以上每種架構都有各自適用的場景,可以根據下表 3-10 選擇合適的液冷架構:表 3-10 各類液冷架構特點35353535第第四四章章、風風液液混混合合制制冷冷架架構構的的特特點點分分析析4 4.1 1 風風液液融融合合是是智智算算中中心心液液冷冷應應用用的的必必由由之之路路根據 Up
55、time 的研究報告,見圖 4-1,當前絕大部分數據中心的液冷方案還是以冷板式為主。因此,現階段需要重點關注冷板式液冷。如前文所述,冷板式液冷主要解決服務器中大功率部件的散熱問題,這部分的發熱量約占服務器總發熱量的 50%-85%,其余部分的散熱仍要依靠傳統的風冷形式。圖 4-1 各項液冷技術應用占比這種同時使用液冷和風冷為服務器散熱的方式稱為風液融合。前面已經描述了液冷架構,風液融合架構只需要在液冷架構的基礎上增加風冷部分即可。4 4.2 2 常常見見的的風風液液融融合合架架構構風液融合架構可以歸納為三大部分:二次側的液冷和風冷部分以及一次側冷源。其中液冷部分是確定的,風冷部分和冷源有多種變
56、化。根據液冷與風冷是否共用同一套冷源,可以將該架構分為風液同源架構和風液獨立架構兩種類型。風風液液同同源源架架構構3737風液同源架構按照冷源和風冷部分的不同組合,可以分為冷卻塔+動態雙冷源架構、冷水主機+冷凍水末端架構、磁懸浮相變系統+熱管末端架構。冷冷卻卻塔塔+動動態態雙雙冷冷源源架架構構該架構的室外側冷源使用冷卻塔(開式、閉式)或干冷器向二次側提供冷卻水。二次側的風冷部分采用動態雙冷源空調,它包含一套冷卻水系統和一套壓縮機系統。液冷為完全自然冷,風冷為部分自然冷。架構模型如下圖 4-2:圖 4-2 冷卻塔+動態雙冷源架構雙冷源空調為彌漫式送風的大風墻,安裝在設備間中。當冷卻塔的供水溫度較
57、低時,冷卻水盤管單獨工作;當冷卻塔供水溫度較高時,開啟壓縮機系統進行補冷。該架構當前應用案例較多,整個系統沒有冷水機,所以成本較低;并且采用分布式冷卻塔,可以有效避免單點故障。雙冷源空調安裝在設備間內,與機房內設備解耦,非常適合租賃型業務。冷冷水水主主機機+冷冷凍凍水水末末端端架架構構該架構的室外側冷源使用前文所述的帶有自然冷模塊的冷機(風冷冷機、水冷冷機),因此可以提供的水溫區間比較大。二次側風冷部分使用冷凍水末端,它不局限于大風墻這一種形式,還可以是列間、小風墻、背板等形式。架構模型如下圖 4-3:3838圖 4-3 冷機+冷凍水末端架構與冷卻塔+雙冷源空調相比,該架構在室外側實現了“雙冷
58、源”,冷機的壓縮機系統僅在環境溫度較高時才開啟。優點是該架構的末端非常靈活,有多種應用形式,可以適應更多的場景,例如液冷機柜的預制式一體方案等。缺點冷機的供水溫度要兼顧末端冷凍水空調,因此整體的能效會略低于冷卻塔+雙冷源的方案。為了提升能效,可以對該架構的細節進行優化,如下圖 4-4 所示:室外側使用冷卻塔+集成板換的水冷冷機,室內側風冷部分使用水冷 DX 空調,由冷卻塔散熱。冷機在液冷系統中只負責應對低溫水的需求,因此能效會有明顯的提升。該架構為全鏈路的冷水方案,空調使用水氟換熱器進行散熱,可以兼容雙冷源空調、水冷氟泵空調等制冷形式。液冷部分配置集成板換的水冷冷機,壓縮機只在需要時開啟,同時
59、可提供比較寬的水溫區間。3939圖 4-4 冷機+水冷 DX 空調架構隨著人工智能的快速發展,芯片的 TDP 也快速提高,根據 OCP 的研究,見圖 4-5:到 2030 年,GPU 芯片的 TDP 將達到 1.5kW。更高的發熱量需要更低的冷卻液溫度,1.5kW 發熱量對應的冷卻液溫度區間為 20-40,為了應對芯片的快速迭代并保證制冷設備可長期使用,合理的冷卻液溫度是 30,對應的一次側的供水溫度必然小于 30。在這種情況下,使用冷機作為一次側冷源的優勢就非常明顯了,因為它在高溫季節仍可以提供比較低的供水溫度,而冷卻塔顯然無法做到。冷源側配備冷機能非常好的應對將來芯片功率的發展趨勢,從耐用
60、性的角度而言,它是極佳的解決方案。因此,可以預測未來的液冷系統中,冷機組會成為必選項,以它作為冷源的風液同源架構也會得到更多的應用。4040圖 4-5 OCP 關于芯片功率與冷卻液溫度的研究磁磁懸懸浮浮相相變變系系統統+熱熱管管末末端端架架構構該架構的室外側冷源使用帶有氟泵自然冷的磁懸浮相變系統,見圖 4-6。二次側風冷部分使用熱管末端,可采用多種形式,例如:大風墻、小風墻、列間、背板等。CDU 的換熱類型為 L2R。圖 4-6 磁懸浮相變+熱管末端架構與前兩個架構相比,該系統沒有使用水作為載冷劑,而是直接將制冷劑輸送到 CDU 和末端空調,這樣可以減少換熱次數從而帶來更高的能效。同時也和冷4
61、141機一樣可以提供更低的一次側供液溫度,但在成本和維護方面并不占優,所以目前的應用案例相對較少。風風液液同同源源架架構構分分析析:風液同源架構最大的優點是風液比可調,適配彈性部署。對于很多數據中心(尤其是租賃型)而言,在建設初期很難準確預測業務在其生命周期內的具體部署情況。不同業務類型的服務器有不同的風液比,例如GPU 訓練服務器的液冷比例可高達 85%左右,而大數據存儲服務器的液冷占比約為 50%,并且某一階段可能兩者混用甚至全部使用風冷服務器。因此,該類數據中心在設計階段就要明確一次側冷源是共享的,可同時兼容風冷和液冷,提供 100%的制冷量。并且冷源可以與二次側末端一起調節,實現不同的
62、風液比。除此之外,風液同源架構的一次側冷源在規模應用時,還需要實現分布式和一體化設計。這樣做的優點是可以支持小規模的分期建設,降低系統性風險,簡化現場布管和調試。風風液液獨獨立立架架構構風液獨立架構指的是風冷和液冷分別使用各自獨立的一次側冷源?,F階段,液冷部分的一次側冷源通常使用冷卻塔(部分地區使用干冷器或冷機),該方案可同時兼顧能效和成本。風冷部分的選擇相對于風液同源架構更加靈活多樣,數據中心常用的空調類型:例如氟泵自然冷機組、冷凍水系統、間接蒸發冷機組、新風系統、風冷直膨空調都可以使用。風冷部分使用冷凍水系統架構模型,圖 4-7:圖 4-7 風冷部分采用冷凍水系統架構4242該架構與傳統的
63、數據中心的制冷方式最接近,成熟度高兼容性好,對機房建筑形式和設備維護都非常友好,控制更加簡單,運行更加平穩。缺點是管路復雜,成本高。風冷部分使用間接蒸發冷架構模型,圖 4-8:圖 4-8 風冷部分采用間冷架構該架構的優勢在于間接蒸發冷+液冷的組合能效非常高,且都是預制化設備,交付周期大幅縮減。但是間接蒸發冷機組對建筑的層數有要求,一般不超過 4層。該系統的 WUE 會比較高,因此在缺水地區也可以使用傳統的精密空調。風冷部分使用精密空調架構模型,圖 4-9:圖 4-9 風冷部分采用 CRAC 架構4343該架構的風冷部分技術成熟度高,不受水資源和建筑形式的限制,是種通用性很高的方案。如果當地冬季
64、氣溫較低,可以考慮增加氟泵自然冷模塊提升能效。風風液液獨獨立立架架構構分分析析:與風液同源架構相比,風液獨立架構對于需要彈性部署的數據中心并不適用,原因是該架構實現風液比可調的成本太高。高彈性機房的冷源總冷量可以通過下表 4-1 進行比較:表 4-1 不同架構的高彈性機房所需冷量對于業務明確的數據中心,風液比是相對固定的,此時風液獨立架構的優勢就很明顯:風冷與液冷部分完全解耦,可以因地制宜根據項目實際情況選擇最佳的風冷和液冷組合方案,能效和可靠性都得到提升。綜上所述,兩種架構都有各自適合的場景。對于業務不確定,需要彈性制冷的場景,優先選擇風液同源架構;對于業務明確的場景,優先選擇風液獨立架構。
65、同時,不論選擇哪種架構,室外側冷源都要進行分布式和一體化設計。4 4.3 3 不不同同風風液液融融合合架架構構下下 W WU UE E、P PU UE E、T TC CO O 對對比比分分析析前面兩節介紹了多種形式的風液融合架構,下面對它們的 WUE、PUE 和 TCO進行對比,見表 4-2。對比之前需明確的條件如下:1.地點為馬來西亞新山;2.一次側供液溫度 35;3.冷凍水系統使用水冷冷機,磁懸浮系統使用蒸發式冷凝器,風液獨立架構中液冷部分使用冷卻塔;4.液冷占比為 50%-85%。4444表 4-2 各種風液融合架構對比下表 4-3 是馬來西亞通信與多媒體委員會(MCMC)發布的綠色數據
66、中心規范-2024 中關于PUE的分級。當使用風液融合架構時,可以達到最佳的Excellent等級。表 4-3 馬來西亞數據中心 PUE 分級4 4.4 4 架架構構選選擇擇建建議議冷板式液冷的應用中,風液同源與獨立架構都有各自適合的場景,要針對項目的具體情況來選擇最佳的架構。綜合前文所述的內容,冷板式液冷的風液融合架構可以參考下圖 4-10 進行設計:4545圖 4-10 風液融合架構選擇建議需要注意的是架構的選擇要靈活,需根據實際情況具體分析。例如業務是固定的,但現場空間有限或者想要簡化系統從而縮短工期,也可以考慮使用同源架構。4646第第五五章章、典典型型智智算算中中心心液液冷冷應應用用
67、場場景景的的選選擇擇分分析析智算中心是 AI 時代最主要的計算力生產中心,它能夠以強大算力驅動 AI 模型對數據進行深度加工,源源不斷產生各種智慧計算解決方案,并通過網絡以云服務形式供應給組織及個人。在第三章和第四章,我們分析了不同的液冷技術、液冷系統方案和風液混合液冷架構。從分析中我們發現,不同的方案和架構都有其特點和適合的場景。在實際應用中,我們需要根據實際的項目的環境條件、業務需求和運營目標,選擇合適的架構。本章會以大型智算中心和中小型智算中心為例來闡述如何進行進行液冷架構的選型。5 5.1 1 大大型型智智算算中中心心的的液液冷冷架架構構大大型型智智算算中中心心的的特特點點大型智算中心
68、通常配備數千到數萬臺高性能服務器,具備 PFlops(每秒千萬億次浮點運算)級別或更高的計算能力,能夠滿足復雜的智能計算需求。它通常采用先進的計算架構和硬件設備,如高性能計算集群、大規模存儲系統以及高速網絡等,以確保計算任務的高效執行。大型智算中心對業務的連續性有非常高的要求,并且在部署上具有一定的靈活性,能夠根據客戶需求和場景進行定制化服務。同時,它需要具備支持多種計算模式和架構靈活切換和擴展的能力。大型智算中心主要服務于人工智能、大數據分析、深度學習等需要強大智能計算支持的領域。除了 AI 領域外,還廣泛應用于物聯網、工業互聯網等新興領域,并與更多行業深度融合,如醫療、交通等。大大型型智智
69、算算中中心心的的液液冷冷架架構構由于高性能計算設備(如 GPU 和 AI 加速器)產生的熱量遠超傳統服務器,風冷系統的冷卻效率有限,因此液冷方式成為最佳選擇。如前文所述,冷板式液冷具有更高的兼容性和成熟度,因此可以作為大規模應用的優選方案。參考第三章和第四章的內容,液冷架構分為熱捕獲、CDU、冷源三個部分,而冷板式液冷需要風冷進行補充,又分為風液同源和獨立兩種類型。設計時可以分兩步來確定最終的架構:4848一:先羅列出所有的已知條件,然后根據這些條件分別對每個部分進行選型,最后將這些部分組合起來,對照第三章架構表中的-,就可以得到最合適的液冷架構。二:根據業務類型,確定風液同源或獨立架構,然后
70、選擇合適的風冷方案與之配合。我們以東南亞地區為例,一次側供液溫度 35,各部分盡量選擇能效高、成本適中、技術成熟的方案。選擇冷源時要綜合分析:從一次側供液溫度的角度考慮,選擇冷卻塔即可;從制冷設備的長期使用和風冷末端靈活性考慮,帶自然冷的水冷冷機則更合適。步驟一,見圖 5-1:圖 5-1 大型數據中心液冷架構選型步驟二,圖 5-2:4949圖 5-2 風液融合架構選型經過以上兩個步驟,就完成了風液融合架構的搭建,架構模型如下:風風液液同同源源方方案案,見圖 5-3:圖 5-3 風液同源方案架構圖風風液液獨獨立立方方案案,見圖 5-4:5050圖 5-4 風液獨立方案架構圖兩種方案的風冷末端都推
71、薦大風墻,它可以安裝在設備間內,實現與機房設備的解耦。5 5.2 2 中中小小型型智智算算中中心心的的液液冷冷架架構構中中小小型型智智算算中中心心的的特特點點中小型智算中心通常規模較小,一般配備數十到數百臺服務器,包含有限的計算資源、存儲資源和網絡資源。以高性能計算為基礎,融合深度學習、機器學習等先進算法,專注于處理大規模、復雜的數據分析和智能決策任務。相較于大型智算中心,中小型智算中心在部署上更加靈活,能夠根據客戶需求和場景進行定制化服務。在快速變化的市場環境中,它能夠更快地響應客戶需求,提供及時的技術支持和解決方案。中小型智算中心更側重于滿足特定行業或場景下的計算需求。例如為醫療、零售等領
72、域提供定制化的解決方案。另外在部分高性能計算領域,如教育及科研基本都以中小型智算中心為主。中中小小型型智智算算中中心心的的液液冷冷架架構構冷板式液冷同樣適用于中小型智算中心,但是相比于大型智算中心,它對液冷技術的兼容性和成熟度的要求略低一些,并且高性能計算的發熱量非常大,因此浸沒式液冷也是一個不錯的選擇。根據中小型智算中心的特點,液冷架構應該實現靈活高效、系統簡單、快速部署、“一鍵開機”等要求。5151我們仍然按照前文所述的兩個步驟來搭建液冷架構,以東南亞地區為例,一次側供液溫度 35。步驟一,見圖 5-5:圖 5-5 中小型數據中心液冷架構選型步驟二:浸沒式液冷方案,見圖 5-6:浸沒式為
73、100%全液冷,不需要風冷進行補充,因此架構相對簡單一些,冷源選用冷卻塔即可。推薦采用一體式 TANK,它已經將 CDU 內置,工程現場只需要一些簡單的操作。圖 5-6 浸沒式液冷方案5252冷板式液冷方案,見圖 5-7:冷板式液冷應用在中小型智算中心時,為了實現快速部署、簡化系統、降低工程量等要求,應盡量將風冷部分與液冷部分融合在一起。風液共用同一冷源,極大地簡化現場管路。一體化機柜將風冷和液冷集成在一起。背板空調安裝在機架上,負責風冷部分,它所需的水溫較低,需采用機械冷源。該方案高度預制化,可以實現快速部署、“一鍵開機”等功能,因此優先推薦該方案。圖 5-7 預制一體化液冷方案5353第第
74、六六章章、液液冷冷系系統統的的預預制制化化智算中心與液冷技術的應用,除了新技術的引入以外也對智算中心的建設、部署和工程提出了新挑戰。特別是在芯片昂貴、產品技術新、行業工程經驗不足的情況下,客戶希望的越來越快的交付時間和運營方希望的高質量之間存在越來越多的矛盾和挑戰。在此情形下,液冷系統預制化越來越成為一種流行的選擇。本章會從數據中心的預制化發展開始,闡述液冷系統預制化的形成、分系統形態和產品特征。6 6.1 1 數數據據中中心心產產品品預預制制化化發發展展的的趨趨勢勢與與價價值值6 6.2 2 冷冷源源預預制制化化方方此外,中國數據中心快速發展,為應對算力發展中持續增長的能耗問題,液冷由于具有
75、高密度、高集成、低碳綠色的優勢,成為數據中心發展的趨勢。根據賽迪顧問發布的2023-2024 年中國液冷數據中心市場研究年度報告顯示 2023年液冷市場規模為 86.3 億元,相比上一年同比增長達 26.2%,高于全球 2 個百分點,連續三年保持 20%以上的高速增長。預計到 2026 年,中國液冷數據中心市場規模將達到 180.1 億元,同比增長將達 29.1%。針對液冷系統預制化,現階段冷源側、液冷機柜、液冷微模塊、冷板式液冷集裝箱等均有相關預制化產品及方案。案案預預制制化化集集成成冷冷站站預制化集成冷站是將傳統的冷水機組機房系統進行有機整合,集冷水機組、冷水輸配及水處理系統、冷卻水輸配及
76、水處理系統、換熱站、動力系統、集中控制系統于一體的高效冷水機房系統,具有高效集成、節能綠色、管理及維護成本低等特點,相比裝配式冷站,集成度更高。預制化集成冷站的形式主要有集裝箱5555傳統數據中心不僅建設周期長,初期投資成本大,而且各個子系統之間孤立,規劃和建設分離,拼湊式建設模式給后期運維管理也帶來較大的難度 為應對此弊端,數據中心預制化、模塊化逐漸從數據中心的弱電設備、環境設備向整個數據中心延伸,從模塊化 UPS、模塊化溫控、模塊化母線等數據中心部件到電力/水力模塊、微模塊、IT 模塊等模塊化解決方案再到模塊化數據中心 在預制化、全模塊化設計下,將各個子系統預集成在模塊內,在工廠進行預制組
77、裝,標準化生產流程,各個模塊品質如一,多系統協同設計,并且在出廠前完成全系統調試和測試,確保高質量和高可靠性 同時現場只需完成極簡施工,可大大降低現場管理難度及施工風險,有效提升數據中心可靠性 預制化的數據中心具備快速部署、彈性擴容、運維簡單、高效節能等優勢,整體而言數據中心必然向著產品化、預制化、模塊化的方向發展。式、方艙式。集裝箱式根據項目情況和氣候條件可以安裝在室內,也可以安裝在室外。具體可細分為單元式預制集裝箱集成冷站模式和組合式預制集裝箱集成冷站模式。單元式預制集裝箱集成冷站(見圖 6-1)一般可根據不同的冷量將其劃分為三類:類型一單元制冷量 350RT 以下,類型二 400600R
78、T,類型三 7001800RT;類型一和類型二拼接方式為獨立式,類型三拼接方式可以水平及垂直疊放。圖 6-1 單元式預制集裝箱集成冷站組合式預制集裝箱模式(見圖 6-2)一般可分為三種類型,類型一:冷機模塊+板式換熱器模塊+管路切換模塊+水泵模塊,此模式的缺點是維護空間相對比較狹小,后期運營維護稍有不便;類型二:冷機模塊+板式換熱器模塊+水泵模塊;類型三:主機模塊+板換水泵模塊+管道模塊+檢修模塊。圖 6-2 組合式預制集裝箱集成冷站方艙式具體可以分為室內方艙及室外方艙,室內方艙(見圖 6-3)是由管路撬塊、單體設備撬塊等組成,相應撬塊可以直接吊裝過來,完成對接就可以交付;室外方艙(見圖 6-
79、4)是由冷源模組、水力模組、蓄冷罐、冷站控制室等組成。5656圖 6-3 室內方艙集成冷站圖 6-4 室外方艙集成冷站一體化冷源一體化冷源一體化冷源是高度集成化的產品,它將冷卻塔、水泵、加藥裝置、定壓補水裝置等集成在一起,現場只需完成接電和通水即可運行,其中一體化冷源類型有閉式冷卻塔、開式冷卻塔、間接蒸發冷卻冷水機組。一體化冷源在冷板式液冷同源架構動態雙冷源系統(見圖 6-5)中有較好的應用?,F階段維諦技術、曙光數創等均推出有應對冷板式液冷的一體化冷源解決方案。圖 6-5 冷板式液冷一體化冷源(動態雙冷源)系統5757對于間接蒸發冷卻一體化冷源(見圖 6-6)是利用間接蒸發冷卻技術產出低于濕球
80、溫度的冷卻水,可以在全國大多數地區實現風、液系統全年自然冷卻。風、液通道冷源集成于冷站內,極大降低了系統建設難度和成本(減少機械制冷投入),最大程度降低系統能耗。以西北地區為例,極端濕球溫度在 20-24,利用間接蒸發冷卻技術可以全年制取 20-22以下冷卻水,滿足液冷機房氣通道供水溫度要求。目前,間接蒸發冷卻技術結合板式液冷系統,在廣東(高溫高濕地區)、浙江(華東地區)、山西(華北地區)均有實現全年 100%自然冷卻的應用案例。圖 6-6 間接蒸發冷卻一體化冷源一體化冷源的核心就是用一套自然冷卻的冷源,來解決整個數據中心的風冷和液冷的所有冷卻需求,從而讓一套大環網整體去帶動風側的精密空調和液
81、冷側CDU,無論是風側的空調還是液冷側 CDU 它們的換熱冷源都來自于一套一次側系統,這樣大大簡化了數據中心的管理復雜度,另外在數據中心建設時可以一次性地按照整個數據中心的規劃容量建設好一套匹配電力容量的全冷量自然冷源,或者至少可以先把大的管路環網先建好,然后后面再分批分期建設冷卻塔和水泵。此外,因為要搭載冷板式液冷服務器,因此一定要建一套自然冷卻的系統,而且在可預見的未來液風比肯定會越來越高,風冷的冷量需求占比將越小,一體化冷源系統中風液比例可以靈活調節,且可以實現彈性部署。對于大型數據中心通常分期建設,并且要嚴格控制系統性風險,采用分布式一體化冷源的小顆粒度設計也可以支持小模塊分期建設和擴
82、展,降低系統性風險。6 6.3 3 一一體體化化液液冷冷機機柜柜及及液液冷冷微微模模塊塊一一體體化化液液冷冷機機柜柜目前一體化液冷冷機柜產品按照液冷形式可分為冷板式液冷機柜及單相浸沒式液冷機柜,分別介紹如下。一體化冷板式液冷機柜(見圖 6-7)以單個機柜為單位,采用模塊化設計理念,高集成、高標準設計,整合 IT 機柜、配電單元、封閉組件、制冷單元、布線、綜合運維等功能獨立的單元,由機柜、Manifold 管路、液冷服務器、液冷快速連接器以及插框式 CDU 構成。單柜內全部組件在工廠預制安裝、調試,可靈活拆卸、搬運,既節約機房空間又可靈活擴展,實現現場批量快速部署。一體5858化液冷機柜作為液冷
83、設備的載體,每個設備之間用液冷專用軟管進行連接,用來保證散熱效果。圖 6-7 一體化冷板式液冷冷機柜示意圖一體化單項浸沒式液冷機柜(見圖 6-8),采用單項浸沒式液冷技術,將發熱電子元器件如芯片、主板、內存條、硬板等直接浸泡在絕緣、化學惰性的冷卻液中,通過循環的冷卻液將電子元器件產生的熱量帶走,因發熱元器件冷卻均勻度更好,大幅提高了傳熱效率。同時內置了監控模塊,對液冷機柜中的電力及運行環境實時監控,針對運行狀況實施實時控制,以及針對各個機柜的進出流量進行控制。一次 CDU 供液采用集中供液方案,滿足集中換熱的同時又可單獨于運維;二次側供、回液管路與機柜之間可采用法蘭鏈接,管路上需設置閥門,確保
84、機柜與一次側管路之間可以拆卸維護,供回路可采用雙進雙出的管路設計。冷卻液循環管路及接頭應具有良好的密封性和兼容性,在系統使用壽命周期內不產生腐蝕、漏液等潛在風險,機柜側管路可采用高分子材料或無縫鋼管等材質。圖 6-8 一體化單項浸沒式液冷機柜供液示意圖液液冷冷微微模模塊塊液冷微模塊產品(見圖 6-9)集成風冷、液冷、供配電、機柜、氣流遏制、監控、照明、布線等子系統,各子系統標準化、智能化程度高,獨立運行,聯合管理,將復雜的液冷工程,變為簡潔的模塊化產品,可通過模塊化設計、工廠預5959制,從而減少數據中心設計和運維成本,并能實現部署速度提升 50%?,F有液冷微模塊產品制冷系統采用冷板式液冷,滿
85、足高散熱量、高功率密度場景需求。圖 6-9 液冷微模塊產品6 6.4 4 冷冷板板式式液液冷冷集集裝裝箱箱冷板式液冷集裝箱(見圖 6-10)是一種采用液冷制冷系統+輔助風冷制冷系統,集成冷板式 IT 設備,單機柜電功率可達 20kW50kW 的集裝箱數據中心解決方案。主要由集裝箱結構系統、供配電系統、制冷系統(液冷系統+輔助風冷系統)、液冷服務器機柜系統、消防系統、安防及動環監控系統等組成。冷板式液冷集裝箱是一款集高密性、節能性和獨立性的邊緣數據中心產品,可以滿足嚴苛的戶外環境運行條件,具備經濟靈活、快速部署、按需建設等多方面優勢。目前標準集裝箱規格有 20 尺、40 尺、45 尺,非標尺寸可
86、根據項目不同進行定制化設計。以某品牌 45 尺冷板式集裝箱為例進行構成剖析,此款產品尺寸13716*3000*3600mm(W*D*H),單機柜平均功耗 20kW,單模塊可放置 6 個液冷機柜,單模塊最大 IT 總功率120kW,模塊總電功率150kW,單機柜最大容納節點數 24 個。液冷配置兼容設計,一次側最高支持 37進水(去離子水);一次側冷源 N+1 冗余備份,采用環形管路的形式,一次側循環泵(1+1)備份模式,液冷 CDU(1+1)備份。二次側支持最高 40供水(去離子水),二次側采用環形管路,減小二次側管路因泄露造成的故障顆粒度,冷源采用干冷器。6060圖 6-10 冷板式液冷集裝
87、箱(45 尺)6161第第七七章章、傳傳統統風風冷冷數數據據中中心心的的液液冷冷改改造造除新建智算中心需要引入液冷之外,傳統數據中心因為業務的變革也會逐步的開始承載高熱密度的智算業務。傳統的數據中心由于機柜功率密度較低,因此制冷方式普遍采用風冷形式。在當前節點,很多傳統數據中心都有液冷改造的需求,原因主要有兩點:1、業務調整:隨著 AI 時代的來臨,很多數據中心將業務類型逐步由通算升級為智算。算力的升級需要高效的液冷技術與之配合。2、節能減碳:各國政府對數據中心 PUE 的要求越來越嚴格,而液冷相比傳統風能節省約 20%-30%的能源,有效降低 PUE,助力實現節能減碳目標。對于液冷改造項目,
88、需要特別關注液冷技術與現有機房設備的兼容度,包括服務器、機架、機房承重、配電等。如果兼容性較差,那么改造的難度、工程量、成本就會非常高。從這個角度而言,單相冷板式液冷是現階段非常合適的改造方案。傳統數據中心的風冷類型主要分為以下兩類,我們分別制定相應的改造方案。仍然以東南亞地區為例,一次側供液溫度 35。冷冷凍凍水水系系統統直直膨膨式式空空調調系系統統7 7.1 1 冷冷凍凍水水系系統統的的液液冷冷改改造造該系統改造時,需要先判斷機房現場有沒有新增一套液冷專用冷源的條件,根據這個條件可以將改造分為利舊原有冷源和新建專用冷源兩種場景。利利舊舊原原有有冷冷源源當改造項目的現場沒有充足的空間或項目預
89、算有限時,可以選擇利舊原有冷源的方案。該方案與第四章所述的同源方案類似,在原有的冷凍水系統上引出一套管路供新增的液冷系統使用,并和原有的風冷系統共用同一套冷源。方案模型如下圖 7-1:6363圖 7-1 利舊原有冷源方案該方案的優勢在于:與原有的冷卻設備兼容度較高,只需新增一套管路即可;整體成本比較低;能效會有顯著的提升。缺點是兩套系統耦合,在改造和后期使用過程中會影響原有的風冷系統;由于使用舊的冷源,因此不適合擴容類的改造項目。新新建建專專用用冷冷源源該方案與第四章介紹的風液獨立方案類似,在部署前需確認現場有充足的空間來新增一套液冷專用的冷源系統。新增的液冷冷源選用冷卻塔。方案模型如下圖 7
90、-2:圖 7-2 新建專用冷源方案該方案的優勢在于:兩套系統完全解耦,在改造過程中不會影響原有業務的連續性;能效顯著提高,優于共用原有冷源的方案;應用范圍廣,適合擴容類項63636464目。缺點是需要新增一套設備及管路,改造量大且成本高。7 7.2 2 直直膨膨式式空空調調系系統統該系統的液冷改造可以分為 L2A 和 L2L 兩種類型。L2A 型型改改造造方方案案該方案與第三章介紹的使用原有精密空調作為冷源的架構一樣,將液冷的熱量傳遞給機房內的空氣,然后再由原有的風冷空調將熱量排到室外。CDU 使用L2A 型,它與新增的液冷機柜并排布置并用管路進行連接。方案模型如下圖 7-3:圖 7-3 L2
91、A 方案系統架構該方案的優勢在于:與原有的冷卻設備高度兼容,無需改造原有的風冷系統;整體成本低;L2A 型 CDU 可以預制,方便現場快速安裝部署。缺點是能效有所提升但低于 L2L 方案;冗余性較差;CDU 占用較多空間,不適合大規模部署。L2R 型型改改造造方方案案該方案采用分體式冷水機,它可以用原有的精密空調進行改造,并與 CDU集成在一起,由水氟換熱器、泵組件、定壓補水裝置等組成。室外側可以直接使用原有的冷凝器。分體式冷機的原理圖如下圖 7-4,如果是在寒冷地區,可以考慮增加氟泵自然冷模塊來提高全年能效。6565圖 7-4 分體式冷機原理圖方案模型如下圖 7-5:圖 7-5 L2R 方案
92、系統架構該方案的優勢在于:兩套系統完全解耦,在改造過程中不會影響原有業務的連續性;能效顯著提高,優于 L2A 方案。缺點是改造量大且成本高。6666第第八八章章、典典型型智智算算中中心心液液冷冷系系統統運運行行挑挑戰戰相比于傳統數據中心風冷系統,智算中心液冷系統在架構、末端熱捕獲形式、運維界面等方面有很大的不同。當液冷系統設備在運行時管路冷卻介質發生壓降、漏液、氣阻、臟堵等情況時,由于熱量的快速積累,給予運維人員的應急處理時間大大縮短。同時,液冷系統的運維經驗相對較少,運維人員一方面需要適應新的系統架構和設備產品,改變傳統的運維習慣,將基礎設施和 IT 設備聯動監控;另一方面需要快速響應并處理
93、液冷系統的各種故障場景。當前智算中心液冷系統的應用以冷板液冷更為常見,下面重點介紹冷板液冷系統運行過程中的挑戰和一些關注點。8 8.1 1 冷冷板板系系統統可可靠靠性性驗驗證證液液冷冷系系統統可可靠靠性性驗驗證證液冷系統可靠性驗證同樣可按照四個階段進行:廠驗階段,安裝查驗、系統設備功能測試階段、系統聯調及故障模擬階段。1.廠驗階段應審查設備性能參數和功能是否設計要求,重點關注 CDU 設備、預制化管路、快速接頭、manifold 的生產工藝、質檢過程、出廠測試等內容。2.安裝查驗階段審查竣工材料的完整性、準確性,審查是否存在系統設計缺陷,通過現場目視檢查各子系統或設備在安裝、外觀、標識、線纜路
94、由、端子接線是否存在問題或隱患。重點關注一次側、二次側冷卻液循環管路的密封性及潔凈度保證、水力平衡調試、防漏水功能檢測。3.系統設備功能測試階段測試各子系統和設備功能是否滿足設計和運行要求。4.系統聯調及故障模擬階段驗證系統是否能夠在不同的機房設計負載率工況下安全穩定運行,驗證系統對不同場景下的設備動作、維護工作或故障場景的響應是否滿足設計要求。系統聯調及故障模擬階段包含以下內容:1.在冷板液冷機房模塊內的所有液冷機柜布置相應設計功率的液冷假負載和風冷假負載。2.通過開啟風液冷假負載,使得測試機房模塊通道內的風液冷熱負荷達到100%,驗證冷板液冷系統的 100%帶載能力。3.通過開啟風液冷假負
95、載,使得測試機房模塊通道內的風液冷熱負荷達到25%、50%、75%、100%,驗證冷板液冷系統動態自動調節能力。4.通過模擬冷卻塔、冷量分配單元、循環管路、動力設備、電力中斷等單點故障場景,驗證冷板液冷系統在各故障場景下的自動調節能力和運行安全穩定性。5.通過分別模擬冷板液冷系統中一次側所有的循環水泵、冷源設備同時故障的6868場景,測試冷板液冷系統分別在極端故障場景和故障恢復場景下,記錄二次側供液溫度變化規律。8 8.2 2 冷冷板板液液冷冷服服務務器器適適配配性性驗驗證證冷板液冷服務器上架交付前,應關注冷板組件的設計參數與當前的液冷系統是否匹配,包括冷卻液與冷板組件材料兼容性、冷板散熱能力
96、匹配性、快速接頭的型號規格匹配性等方面,宜在現有液冷基礎設施條件下上滿單機柜液冷服務器,并分項目進行適配性測試。測試內容如下表 8-1:表 8-1 冷板液冷服務器適配性測試69698 8.3 3 冷冷板板液液冷冷系系統統運運維維界界面面劃劃分分冷板式液冷系統通常有三種交付模式:1、IT 設備側僅交付液冷服務器,其他由機房基礎設施側交付;2、IT 側交付液冷服務器+液冷機柜,其他由機房基礎設施側交付;3、IT 側交付液冷服務器+液冷機柜+CDU+二次側管路。交付模式(1)為解耦交付,液冷機柜與液冷服務器之間遵循用戶或行業統一制定的接口設計規范,機柜與服務器解耦,由不同廠家交付,基礎設施和服務器廠
97、家需協調合作。解耦式交付易于規?;茝V與靈活部署。交付模式(2)、(3)為一體化交付,整機柜由同一廠商集成化設計開發并交付,從而有利于后續運維界面的劃分。根據不同的液冷系統交付模式,確定相應的運維界面,通過制定并執行 IT側和機房側的 SLA,共同保障液冷系統的安全穩定運行。同時,由于冷卻工質進入服務器內部,IT 側和機房側在全生命周期運維中需聯動(包括日常巡檢、告警、應急和維護各場景)。8 8.4 4 冷冷板板液液冷冷系系統統的的運運行行與與維維護護目前大部分冷板液冷系統未能有類似于冷凍水風冷空調系統配置蓄冷罐一樣的技術方案,當發生冷源側故障時,由于熱量的快速積累,末端服務器設備將在幾分鐘內
98、因超溫而宕機。為確保冷板液冷系統的安全穩定運行,應確保一次側、二次側的冷卻工質的不間斷循環和服務器熱量的連續排至室外。因此,液冷系統運維的重點在于如何避免以上故障的發生,以及如何做到故障發生時的及時發現和快速應急處理。設設備備的的不不間間斷斷運運行行1)液冷系統的關鍵設備(一次側/二次側循環水泵、CDU、風冷空調等)應配置不間斷電源,運行時至少雙機在線冗余。2)通過液冷系統關鍵設備的預防性維護,較早發現并閉環設備存在的缺陷。3)液冷系統關鍵設備的手自動切換控制應盡可能方便快速達到并操作,在自控邏輯失效的場景下運維人員能較快實現應急操作。4)液冷系統宜按照分布式系統設計,減小故障的影響范圍。冷冷
99、卻卻工工質質的的品品控控70701)液冷服務器上架前確認其內部冷板組件的潔凈度滿足上架要求。2)CDU 設備的過流部件較多,預防性維護時應針對所有的過流部件的密封性和材料性能進行檢查,針對已明確有材料劣化風險的部件立即安排更換。3)機房現場配置 RO 水處理設備,可隨時提供足夠的冷卻工質補充。4)液冷系統應安排月度水質檢測,及時發現并控制冷卻工質的品質。5)水質不滿足運維要求時,及時安排在線循環換水。二二次次側側循循環環管管路路的的補補液液1)CDU 自帶補液系統液冷系統 CDU 水箱自帶補水定壓功能,非緊急情況下,可通過 CDU 自帶補水管路及補水泵往水箱中補充純水。2)外置補水小車配置補水
100、小車,補水小車自帶水箱和水泵,通過 CDU 管路,直接注入 CDU水箱中完成補水,可實現 CDU 內補液與外補液同時補液。對外置補水小車的水質需定期進行更換與管理。3)快速補水液冷系統二次側環網設置快速補水,當發生大量漏水事件,回水環網壓力低于特定值時,可開啟快速補水手閥,對二次側環網進行大量補水。單單機機柜柜級級漏漏液液1)液冷服務器上架加電前,現場進行加氣保壓測試。2)液冷服務器漏液、高溫等告警同步推送至機房側運維人員。3)針對不同程度級別的漏液設置不同的處理方案,配置定制化的堵漏配件,減緩漏液程度,從而延遲停機維修計劃,待業務合適時機再進行維修。4)針對較為嚴重的漏液時,通過快速就近接入
101、臨時 manifold,完成故障機柜業務的快速恢復。7171第第九九章章、智智算算中中心心新新技技術術展展望望9 9.1 1 數數據據中中心心制制冷冷技技術術的的演演進進分分析析隨著以人工智能為代表的新技術越來越廣泛的應用,推動了全球多個領域對于高密機柜的需求。無論是基礎設施廠家、服務器廠家還是云服務商,都在積極開發新的冷卻技術來支持機柜內更高的發熱量。下表 9-1 展示了隨著機柜功率密度的增加,制冷技術的演進方向。圖 9-1 制冷技術演進從上圖的技術路徑可以發現,隨著機柜熱密度的提升,制冷技術的發展路徑是不斷地靠近服務器從而降低熱阻。近端風冷靠近熱源,散熱效率高于遠端風冷,可以解決 50kW
102、 以內的熱密度,但同時也帶來能效低、噪音大等問題。因此,當熱密度超過 30kW/R 時,建議優先考慮液冷方案。下圖 9-2 是 OCP 對于 CPU&GPU 熱阻的趨勢研究,可以總結兩點:GPU 是液冷技術迭代的主要驅動力;轉型液冷之后,仍然需要不斷地技術升級從而達到更低的熱阻。7373圖 9-2 熱阻變化趨勢在液冷方案中,兩相液冷和混合液冷都是在單相液冷的基礎上進一步降低熱阻的有效方式,當前比較先進的液冷技術也都是以這兩種為主。9 9.2 2 未未來來熱熱門門的的液液冷冷技技術術應應用用前前瞻瞻兩兩相相冷冷板板式式液液冷冷:前文已經簡單介紹了兩相冷板式液冷,根據制冷劑的驅動方式不同,有兩種技
103、術路線:被動兩相式和泵驅兩相式。被被動動兩兩相相式式:被動兩相式冷板液冷技術無需機械泵或外部電源來驅動工作流體循環,而是一種依靠重力驅動的閉式熱虹吸管路系統。該系統的原理是:閉合回路中,工作流體在低處(蒸發器內)部分蒸發。通過浮力,兩相混合物從升管到達高處的冷凝器。在冷凝器中冷卻后,再次變成液體,最后通過降管進入蒸發器。由于升管中兩相混合物的密度低于降管中液體的密度,因此依靠重力即可維持工作流體的流動,而無需機械驅動裝置。原理圖如下圖 9-3:7474圖 9-3 被動兩相式原理圖該技術在高功率服務器機柜中的應用,見圖 9-4:圖 9-4 被動兩相式在液冷機柜中的應用7575實際應用中該系統需要
104、多級熱虹吸管配合,即服務器級的熱虹吸管將熱量傳遞給機架級的熱虹吸管,最后由水冷冷凝器將熱量傳遞到室外。該技術的優點是無需動力部件,散熱效率高,溫度均勻性好,且封閉系統不擔心泄漏,多應用在航天領域。目前在數據中心的應用還不成熟,案例比較少。泵泵驅驅兩兩相相式式:泵驅兩相系統的工作流體循環需要依靠泵來完成。它的原理是:過冷液體(制冷劑)被泵送至冷板中,部分液體被轉化為蒸汽,然后被泵送至冷凝器(CDU 的熱交換器)進行冷卻,完全轉化回液體并重新被泵送至冷板,然后重復該循環。原理圖如下圖 9-5:圖 9-5 泵驅兩相式原理圖下圖 9-6 是維諦技術(Vertiv)與 Intel 合作開發的泵驅兩相系統
105、圖:右側為Vertiv 的泵驅兩相 CDU,左側為 Intel 的四個機柜。7676圖 9-6 泵驅兩相式實物圖泵驅兩相的換熱能力強于泵驅單相,因此被應用在熱密度更高的場景中,這套泵驅兩相(P2P)系統可以消除高達 160kW 的總熱量,其中芯片的功率為 1000W,一次側水溫范圍為 17-45。這套架構采用的是第三章所述的液冷架構和,即機械冷源或自然冷源+機柜式 R2L 型 CDU+兩相冷板。這兩種架構也對應芯片功率的發展趨勢。如前文所述,更高芯片功率需要匹配更低的冷卻液溫度。因此,泵驅兩相系統的冷源未來會更多的使用冷水機組。兩種技術相比,泵驅兩相系統成熟且靈活,限制因素少,更加適合大規模部
106、署?;旎旌虾弦阂豪淅洌夯旌弦豪涫菍⒗浒迨胶徒]式液冷融合在一起,充分利用各自的優點,組成一套系統來解決更高熱密度的服務器散熱問題。該技術目前有兩條技術路線:單相浸沒+兩相冷板和單相浸沒+單相冷板。單單相相浸浸沒沒+兩兩相相冷冷板板:該混合液冷方案由NVIDIA 團隊構建,以應對未來GPU芯片更高的散熱需求。作為先進的液體冷卻系統,得到了美國能源部 COOLERCHIPS 計劃 500 萬美元的7777撥款支持。NVIDIA 的混合液冷結合了芯片的兩相冷板冷卻和其余組件的單相浸沒冷卻。據 NVIDIA 介紹,該系統有如下優點:1、服務器機架功率高達 200kW,是目前的 25 倍;2、與風冷相比
107、,成本至少降低 5%;3、與風冷相比,冷卻效率提高 20%;4、運行更安靜,更低碳。該系統原理圖如下圖 9-7:圖 9-7 混合液冷原理圖下圖 9-8 是 NVIDIA 官方博客發布的圖片:7878圖 9-8 NV 混合式液冷該系統目前還處于開發階段,只有相關的概念,但該技術是 NVIDIA 提出,因此有眾多廠家跟進。單單相相浸浸沒沒+單單相相冷冷板板:該方案由法國云服務商 OVHcloud 提出,并已有小規模的項目落地。它同樣也獲得了 COOLERCHIPS 計劃 284 萬美元的資助。相比于 NVIDIA 的方案,它將兩相冷板改為單相冷板,雖然散熱能力會有所降低,但技術上更加簡單。它的原理
108、是:向密封的刀片服務器中注入冷卻液,給芯片以外的 IT 組件提供浸沒式冷卻;并通過服務器中的冷板給芯片散熱;冷板和換熱銅管冷采用串聯的形式。原理圖如下圖 9-9:7979圖 9-9 混合液冷原理圖系統中的冷卻水先進入冷板中給芯片散熱,冷卻水的溫度升高,從冷板出來后直接進入到換熱銅管中,通過換熱銅管給冷卻液降溫,從而為其他 IT 組件散熱。冷卻液并不采用強制對流換熱,而是采用自然對流換熱的方式將熱量傳遞給換熱銅管中的冷卻水。下圖 9-10 是使用該混合液冷技術的服務器和機柜實物圖:該機柜共安裝 48個服務器,功率48kW。圖 9-10 混合液冷實物圖8080模模塊塊化化 CDU:模塊化 CDU
109、的設計由德國基礎設施供應商 Rittal 提出并在多個項目中落地。這種全新的設計為 CDU 的開發提供了兩條思路:CDU 可兼容 ORV3 標準機柜,內部的器件模塊化設計。按照這種設計理念,Rittal 的模塊化 CDU 以 ORV3 機架為基礎,所有的模塊都可以直接安裝在標準的ORV3機架內;泵模塊采用分布式小顆粒度的N+1設計,高可用性,并且可以按需開啟;所有模塊支持熱插拔,并采用 DC48V 供電。機柜的實物照片及布局如下圖 9-11:圖 9-11 模塊化 CDU 實物圖該 CDU 的泵模塊采用 4+1 冗余配置,每個模塊支持熱插拔,可以不停機維護,并且與服務器一樣采用 DC48V 供電
110、。運行時按需開啟,原理圖如下圖 9-12:8181圖 9-12 模塊化 CDU 原理圖負負壓壓 CDU在冷板式液冷的實際應用中,泄漏一直是無法回避的技術痛點。為了從根本上解決泄漏問題,Schneider、Chilldyne、Aqua 等廠家開發了負壓 CDU。負壓CDU技術的核心在于通過設計使得液冷系統二次側的壓力低于大氣壓,冷卻液在負壓下循環。當回路中的任何部分出現漏點,空氣就會被吸入其中,而冷卻液不會從管路中泄漏。下圖 9-13 是將運行中的管路剪斷后的效果,可以發現并沒有冷卻液從管中流出。圖 9-13 負壓 CDU 剪斷管路效果圖8282下圖 9-14 是負壓 CDU 的原理圖:圖 9-
111、14 負壓 CDU 原理圖負壓 CDU 的設計中,需要兩組泵,一組為潛水泵,只負責將高溫冷卻液從儲存室送入換熱器中降溫,降溫后的冷卻液再返回儲存室,不參與低溫冷卻液在二次側的循環。另一組為真空泵,負責制造二次側管路中的真空環境,從而使冷卻液在服務器及各腔體中流動。具體過程如下:第一階段,真空泵對主室抽真空,主室壓力低于儲存室,冷卻液從儲存室進入服務器然后回到主室。第二階段,當主室快充滿時,真空泵對輔助室抽真空,并將主室的冷卻液排入儲存室。此時輔助室壓力低于儲存室,冷卻液從儲存室進入服務器然后回到輔助室。第三階段,當輔助腔室快充滿時,循環重復前兩個階段。通過交替對主室和輔助室抽真空,二次側可產生
112、穩定的流動,冷卻液從儲存室流出,流經服務器,然后流回 CDU。負壓 CDU 的優勢在于出現漏電時系統仍可以安全運行,極大地提升了系統的可靠性。對于中小型數據中心,尤其是對系統的可靠性有嚴格要求的數據中心非常適用。83838383第第十十章章、總總結結以上九章是本白皮書主要的內容。小結一下:本白皮書從智算產業的發展,由 IT 側的技術變革推導出智算中心未來在基礎設施側面對的新需求與挑戰。進而以液冷技術為主要研究對象,以亞太地區智算中心的應用為目標,進行了算力中心液冷從設計到落地的全過程方案的設計。在本白皮書的第二章,介紹了亞太地區的氣候特征以及數據中心的散熱特征。第三章,介紹了智算中心液冷的通用
113、架構:熱捕獲、熱交換(CDU)和冷源。根據主流技術路線將液冷架構梳理成 8 種架構:在此分類的基礎上根據場景的邊界條件給出了這 8 種液冷架構適合的業務場景:8585液冷架構在智算中心部署時不能單獨存在,而是與風冷系統混合使用,相輔相成。因此,在本白皮書的四到六章,對不同的風冷混合架構的部署進行了分析。并從使用者角度出發,對智算中心落地液冷時需考慮的邊界條件,如:環境、建筑特征、業務特性、運營目標(Capex、Opex、TCO、PUE、WUE 等)、以及可維護性、方案成熟、能源可持續性(如余熱回收)等方面,給出了選定合作制冷架構的方法如下:第一步、先羅列出所有的已知條件,然后根據這些條件分別對
114、每個部分進行選型,最后將這些部分組合起來,對照第三章架構表中的-,就可以得到最合適的液冷架構。第二步、根據業務類型,確定風液同源或獨立架構,然后選擇合適的風冷方案與之配合。從第六章到第九章,白皮書對智算中心液冷建設的預制化趨勢、傳統數據中心的液冷改造、液冷系統的運維和液冷技術未來的演進逐一做了詳細的闡述,對液冷系統在智算中心的落地方法和未來方向給予了建議。希望通過本白皮書的闡述,能為讀者提供一套智算中心落地液冷方案的參考,幫助更多的智算中心順利進入液冷時代。8686附附:名名詞詞解解釋釋1.CPU(Cent ral Processing Unit):中央處理器,是計算機的主要處理單元,負責執行
115、程序指令、處理數據和控制計算機的其他硬件部件。2.GPU(Graphics Processing Unit):圖形處理單元,用于大規模并行計算,如圖形渲染、科學計算、深度學習等。3.NPU(Neural Processing Unit):神經網絡處理單元,專門設計用于加速機器學習任務,尤其是深度學習算法。4.TPU(Tensor Processing Unit):張量處理單元,由 G oogle 開發,專門用于術、市場領導地位、性能優勢、軟件和硬件的緊密結合以及行業合作與支持等方面具有綜合優勢。6.TDP(Thermal Design Power):熱設計功耗,最初是由 Intel 在 Pen
116、tium Pr加速 Tensor Flow 框架下的機器學習工作負載,執行 TensorFlow 模型的訓練和推理。5.英英偉偉達達(NVIDIA):是全球領先的圖形處理器(GPU)制造商,其在 GPU 技o系列中引入,是指芯片或組件在正常運行狀態下所產生的最大熱量。7.PUE(Power Usage Effectiveness):電能利用效率,是評價數據中心能源利用效率的指標。PUE 計算公式為:PUE=Pt/PIT,其中 Pt 為數據中心全年總耗電量,單位是 KWh;PIT 為數據中心的 IT 設備全年耗電量,單位也是 KWh,因此,PUE 是一個大于 1 的數值,PUE 值越低,說明數據
117、中心用于 IT 設備以外的能耗越低,越節能。8.WUE(Water Use Efficiency):水資源利用效率,是衡量數據中心水資源利用效率的重要指標。WUE 計算公式是:數據中心水資源的全年消耗量/數據中心 IT 設備全年耗電量。因此,WUE 數值越小,表示數據中心的水資源利用效率越高。9.熱熱捕捕獲獲(Heat capture):是指使用液體從 IT 組件中帶走熱量。根據熱捕獲的方式不同,液冷可以分為:冷板式液冷、浸沒式液冷、噴淋式液冷。10.冷冷板板式式液液冷冷:液冷技術之一,也稱非接觸式液冷,是指冷卻液不與 IT 發熱元件直接接觸,而是通過冷卻液流過安裝在發熱元件上的冷板(通常為銅
118、鋁等導熱金屬構成的封閉腔體)將熱量帶走。11.浸浸沒沒式式液液冷冷:液冷技術之一,也稱為接觸式液冷,是將 IT 發熱元件完全浸沒在冷卻液中,通過冷卻液的循環流動將熱量帶走。878712.CDU(Coolant Distribution Unit):冷量分配單元,是一種用于調節和分配冷卻液的設備,CDU 一般由熱交換模塊、泵模塊、過濾模塊、補液模塊、監測模塊、控制模塊等組成。8888版版權權聲聲明明本白皮書版權屬于中國電信國際有限公司,并受法律保護。凡是需要轉載、摘編或利用其它方式使用本白皮書成果中的文字或者觀點的,均需要預先獲得中國電信國際有限公司的書面許可,并注明來源:“亞太區智算中心液冷應用現狀與技術演進白皮書”。如需獲取許可,請致信 。未經書面同意而實施的剽竊、復制、修改、銷售、改編、匯編和翻譯出版等侵權行為,將追究其法律責任。89898989