《施耐德電氣:2024智算中心液冷架構探討白皮書(13頁).pdf》由會員分享,可在線閱讀,更多相關《施耐德電氣:2024智算中心液冷架構探討白皮書(13頁).pdf(13頁珍藏版)》請在三個皮匠報告上搜索。
1、 智算中心液冷架構探討 摘要 許多用于訓練大型語言模型(LLM)和推理工作負載的配備了加速器(如 GPU)的人工智能服務器會產生足夠的熱量,因此需要采用液冷進行冷卻。這些服務器配備了輸入輸出管道,并且需要一個由歧管(Manifolds)、冷卻分配單元(CDUs)和室外散熱機組組成的生態系統。針對六種適用于液冷的常見散熱架構,我們提供指南以選出最符合您的人工智能服務器或集群的架構。能源管理研究中心 第 133 號白皮書 作者:Paul Lin Robert Bunger Victor Avelar 為本白皮書評分 施耐德電氣能源管理研究中心 第 110 號白皮書 版本 2 2 智算中心液冷架構探
2、討 用于人工智能訓練和推理的服務器所使用的加速器和處理器具有很高的熱設計功耗(TDP)1??紤]到散熱器尺寸、服務器氣流和能效等因素,通過風冷方式對這些芯片進行冷卻變得越來越不切實際,因此不得不轉而采用液冷進行冷卻。液冷服務器具有諸多優勢,包括能夠提升加速器的可靠性和性能、提高能效、減少用水量和降低噪音。2 AI 服務器的液冷方式主要分為兩類:冷板式液冷和浸沒式液冷3。它們在本文我們將探討的散熱生態系統方面有些細微差異。對于在部署液冷服務器方面缺乏經驗的數據中心運營商和 IT 經理,需要了解以下幾個問題:如何讓冷水流入、熱水流出?什么是 CDU?我是否需要 CDU?選擇合適的液冷散熱架構需要采取
3、哪些步驟?液冷生態系統涉及三個要素(即服務器內部的熱捕獲、CDU 類型和將熱量排至室外環境的方法)。CDU 是一種用于將 IT 流體回路與制冷系統其余部分隔離的系統,且必須具備五大功能(即溫度控制、流量控制、壓力控制、流體處理、熱交換和隔離)。如表1 所示,常見的液冷架構有六種,它們各有優缺點,以及適用的部署場景。散熱方法 CDU 類型 使用現有設施散熱系統 將熱量排入 IT 機房的空氣中 使用機柜內安裝式 CDU 使用落地式 CDU 將熱量排至設施現有水系統 使用機柜內安裝式 CDU 使用落地式 CDU 構建專用的設施散熱系統 將熱量排至獨立的水系統 使用機柜內安裝式 CDU 使用落地式 C
4、DU 冷卻分配單元(CDU)是液冷架構中的重要組成部分。CDU 用于將 IT 冷卻液與制冷系統的其余部分隔離開來。圖 1 為 ASHRAE 液冷架構的簡化視圖。圖中顯示的三個回路分別為技術冷卻系統(TCS)、設施水系統(FWS)和冷卻水系統(CWS)回路。FWS 回路被稱為一次回路,而 TCS 回路則被稱為二次回路。以上簡短的描述表明,在缺乏合理框架情況下,關于液冷架構的討論將變得非常復雜。1 有關該主題的更多信息,請參見第 110 號白皮書人工智能帶來的顛覆:數據中心設計的挑戰及相關指南。2 有關液冷優勢的更多信息,請參見第 279 號白皮書采用液冷的五大原因。3 有關液冷方法的更多信息,請
5、參見第 265 號白皮書用于數據中心和邊緣應用的液冷技術。液冷架構描述 表 1 常見的液冷架構,包括散熱方式和 CDU 類型。簡介 施耐德電氣能源管理研究中心 第 110 號白皮書 版本 2 3 智算中心液冷架構探討 機柜機柜外部CDU服務器CDU服務器冷機冷卻水系統(CWSCWS)設施水系統(FWSFWS)技術冷卻系統(TCSTCS)冷卻塔數據機房1 12 21 13 32 2 我們建議一種液冷架構從根本上應該通過以下三個要素進行描述:1.服務器內部的熱捕獲(不在本白皮書討論范圍之內)2.CDU 類型 3.將熱量排至室外環境的方法 圖 1 中標出了這三個要素,下文將對其進行簡要介紹。1.1.
6、服務器內部的熱捕獲 利用液體從 IT 組件中捕獲熱量。這種液體可以是與元器件直接接觸的絕緣液(通常是油),也可以是流經固定在發熱元器件上冷板的制冷劑或水。雖然這是液冷架構的重要組成部分,但不在本白皮書討論范圍之內。2.2.CDUCDU 類型 如前所述,CDU 是一種將 IT 流體回路(TCS)與制冷系統其余部分隔離的系統。CDU通常以單機柜形式存在,內部集成了所有部件。它們執行下文介紹的五大功能。在介紹CDU 類型之前,了解這些功能非常重要。溫度控制 CDU 精確控制 TCS 回路中的流體溫度。TCS 供液溫度由 IT 供應商確定,通常取決于加速器和處理器的最高殼體溫度,以及所使用的液冷解決方
7、案。流量控制 為了帶走芯片所產生的熱量,CDU 必須能夠通過機柜歧管(manifolds)、快接頭和冷板為所支持的所有服務器和機柜供應足夠的流量。浸沒式液冷柜體也需要在服務器之間保持絕緣液的流動。壓力控制 CDU 管理壓力時需要考慮兩個方面。首先是系統允許的最大壓力,其次是提供所需流量的壓差。TCS 通常在正壓下運行,但也有 CDU 可以通過吸圖 1 數據中心液冷架構簡化視圖 數據來源:ASHRAE,液冷 服務器:通用設計、部件 和流程,第 10 頁 施耐德電氣能源管理研究中心 第 110 號白皮書 版本 2 4 智算中心液冷架構探討 吮的方式(通常稱為“負壓”4)泵送流體,以消除 TCS 的
8、漏液風險。這種功能通常被稱為防漏系統(LPS)。流體處理 與設施系統相比,TCS 對流體的過濾和化學成分要求更為嚴格。對于水基TCS,丙二醇水溶液是一種常用的流體,用于防止微生物生長和保持水質。熱交換和隔離 將 TCS 中的熱量傳導出去是 CDU 的基本功能之一。此外,它還必須將TCS 回路中的流體與制冷系統其余部分隔離開來5。CDU 主要由泵、熱交換器、過濾系統和用于執行這些功能的控制設備組成。在最終確定 CDU(例如,控制器、過濾器類型等)時,會涉及到許多詳細的屬性。然而,在為設施選擇合適的液冷架構時,并不需要確定所有這些屬性。僅需通過確定 CDU 的關鍵屬性,我們就可以簡化這一過程。關鍵
9、屬性指的是,如果選擇錯誤,這些屬性會迫使您重新更改基本架構,從而浪費花在細節設計上的時間和精力。我們認為,CDU 類型必須基于兩個關鍵屬性:熱交換類型(液體-空氣、液體-液體等)CDU 的容量和外形尺寸(機柜內安裝式、落地式)接下來我們將詳細介紹每種屬性。熱交換類型 液冷行業存在六種熱交換類型:液體-空氣(L2A)TCS 流體回路熱量被泵送到盤管(即散熱器),熱量直接排入數據中心的空氣中。液體-液體(L2L)TCS 流體回路熱量被排至設施水系統。制冷劑-空氣(R2A)兩相冷板式系統通過散熱器將熱量直接排入空氣中。其工作原理類似于風冷冷凝器。制冷劑-液體(R2L)兩相冷板式系統將熱量排至設施水系
10、統。其工作原理類似于水冷冷凝器。液體-制冷劑(L2R)TCS 流體回路將熱量排至設施的氟泵系統。制冷劑-制冷劑(R2R)非典型類型。CDU 的容量和外形尺寸 泵的規格、熱交換器尺寸和流體類型決定了 CDU 系統的總容量(kW)。CDU 的容量范圍廣,具體取決于外形尺寸:4 負壓 CDU 的主要特點是防漏,但也具有簡化 TCS 回路、機柜和服務器的連接和組件等優點,有助于降低總體成本。5 DTC 液冷式服務器對水溫、流速和化學成分有著嚴格的要求。這意味著不能讓設施系統(如冷機)中的水直接流經芯片的冷板。否則會腐蝕冷板內的金屬微通道。施耐德電氣能源管理研究中心 第 110 號白皮書 版本 2 5
11、智算中心液冷架構探討 機柜內安裝式 CDU 安裝在機柜內,為單個機柜提供一個 TCS 回路,而且可以與服務器預集成??梢圆捎?L2A 或 L2L 熱交換類型,其中 CDU 的容量分別為 20-40 kW 和 40-80 kW。機柜內安裝式制冷劑 TCS 回路的容量也在上述范圍內。落地式 CDU 為多個機柜提供 TCS 回路。外形尺寸可能類似于 IT 機柜,也可能隨著容量的增加而增大。這些 CDU 通常位于液冷 IT 機柜的附近或與之相鄰,對于浸沒式系統,可以集成到液槽中。落地式 CDU 可以采用 L2A 類型,功率可達約 60 kW。L2L 型落地式CDU 的容量從 300 kW 到 1 MW
12、 以上不等。圖 2 給出了一些示例。(a)(b)在本白皮書中,我們重點討論兩種主要的熱交換類型(L2A 和 L2L)。表 2 介紹了四種常見的 CDU 類型:熱交換類型 CDU 的容量和外形尺寸 液體-空氣(L2A)機柜內安裝式(20-40 kW)落地式(最高 60 kW)液體-液體(L2L)機柜內安裝式(40-80 kW)落地式(300 kW 及以上)3.3.將熱量排至室外環境的方法 這是關于液冷架構描述的第三個要素,也是最后一個。一旦 IT 設備釋放的熱量被 TCS回路捕獲,問題就轉化為,如何將這些熱量傳遞到室外?答案就在圖 3 所述的散熱系統中。常見的方法有三種:現有散熱系統 o 通過液
13、-氣熱交換,將 TCS 回路中的熱量排出到 IT 機房的空氣中(也稱為“閉環式局部散熱”)o 通過液-液熱交換,將 TCS 回路中的熱量排到設施系統的水中(利用現有 FWS 或 CWS 回路)專用散熱系統 為液冷方式設計新的獨立散熱系統。圖 2 CDU 外形尺寸示例 (a):落地式(L2A)(b):落地式(L2L)表 2 常見 CDU 類型 施耐德電氣能源管理研究中心 第 110 號白皮書 版本 2 6 智算中心液冷架構探討 室內熱交換室外熱交換傳熱流體服務器內部傳熱流體傳熱流體服務器CRAC/CRAHCDU室外散熱設備CRAC 機房精密空調CRAH 機房空氣處理裝置冷媒空氣空氣水冷媒水冷媒空
14、氣絕緣液CDU 與 CRAC/CRAH 或只有 CDU冷凝器或冷機或干冷器或冷卻塔安裝在IT元器件頂部 通過將最后兩個架構要素(“CDU 類型”和“將熱量排至室外環境的方法”)組合,我們可以構建出業界常見的六種液冷架構。表 3 列出了這些組合。我們將在下一節介紹如何選擇合適的液冷架構。散熱方法 CDU 類型6 現有散熱系統 將熱量排入 IT 機房的空氣中 L2A 機柜內安裝式 L2A 落地式 現有散熱系統 將熱量排入到設施水系統中 L2L 機柜內安裝式 L2L 落地式 專用散熱系統 將熱量排入到獨立水系統中 L2L 機柜內安裝式 L2L 落地式 在本節中,我們將從六種常見架構中選擇最合適的架構
15、,這個過程可以簡化為兩個步驟。步驟 1-選擇散熱方法 步驟 2-選擇 CDU 的容量和外形尺寸 請注意,表 3 中“CDU 類型”所列的熱交換類型(如 L2A)是由散熱方法決定的。7而第二個 CDU 屬性,即“CDU 的容量和外形尺寸”,與散熱決策無關。因此,您可以 6 R2A 和 R2L 的決策過程與 L2A 和 L2L 相同,因此未列入表中。7 例如,L2A 熱交換器的二次側空氣不能與設施水系統連接。圖 3 液冷架構散熱的簡化視圖 表 3 常見的液冷架構,包括散熱方法和 CDU 類型。選擇合適的架構 施耐德電氣能源管理研究中心 第 110 號白皮書 版本 2 7 智算中心液冷架構探討 通過
16、兩個獨立的步驟來確定合適的液冷架構。選擇散熱方法以及CDU 的容量和外形尺寸取決于諸多因素,下面列出了其中的四個關鍵因素:與現有制冷基礎設施兼容性 現有制冷基礎設施能否易于支持新的液冷服務器。部署規模 液冷架構可支持的機柜數量。部署速度 從設計、建造到首次運行,設施部門部署液冷架構所需的時間。能效 整體液冷架構的相對效能。請注意,與等效的風冷式架構相比,所有液冷架構都會帶來一定的改進。您可能無法最大化所有這些因素,但可以根據您的工作重點在它們之間做出權衡。例如,與現有風冷式系統兼容性最好的液冷架構很難保證高效。這是因為與水相比,空氣的熱傳遞效率較低。以下章節通過詳細描述每種架構的優點、缺點和適
17、用的部署場景,來全面了解這些因素并做出明智選擇。請注意,所有的散熱系統圖都以落地式 CDU 為例,但也可以替換為機柜內安裝式 CDU。步驟 1 1 選擇散熱方法 現有散熱系統 將熱量排入 IT 機房的空氣中 通過這種架構,可以將 TCS 回路設計為 IT 機房內的獨立系統。L2A 型 CDU 可以采用機柜內安裝式或落地式。在此架構中,現有風冷基礎設施的一切保持不變(如圖 4 所示)。這種架構也被稱為閉環式局部散熱。最后,IT 機房內的所有熱量都會被現有制冷基礎設施排出到室外。液冷IT設備 CDU風冷IT機柜CRAHCRAH冷冷機風冷IT機柜CRAH 機房空氣處理裝置CDU 冷卻分配單元 優點
18、與大多數現有制冷基礎設施兼容 無需對現有制冷基礎設施進行改動 可預制,便于安裝、標準化等 如果 TCS 回路出現問題,受影響的服務器/機柜較少 圖 4“將熱量排出到 IT 機房的空氣中”架構示意圖 施耐德電氣能源管理研究中心 第 110 號白皮書 版本 2 8 智算中心液冷架構探討 缺點 與 L2L CDU 相比,由于存在更多的熱交換和風扇,導致能效低 機柜內安裝式和落地式 L2A CDU 會占用機柜或地板空間 大規模部署時成本較高 需要許多獨立的回路來監測和保持水質 較難實現充分的并行可維護性或完全冗余性 小規模的基于水的 TCS 回路支持的散熱時間較短,這意味著如果 CDU 風扇發生故障,
19、與其他架構相比,制冷中斷后回路中的水量無法提供足夠冷量來支持負載。適用的部署場景 無法提供冷凍水或冷卻水,或無法連接現有制冷基礎設施時 風冷冷量充足,并且通過氣流分析或計算流體動力學(CFD)驗證機房能夠承載高密度時 范圍僅涉及單臺服務器或數個機柜的小規模液冷服務器的部署時 部署速度是首要考慮因素時 現有散熱系統 將熱量排入到設施水系統中 在此架構中,TCS 回路充分利用 L2L CDU,形成一個獨立的回路,并由冷凍水或冷卻水回路供水。服務器的熱量通過 CDU 的 L2L 熱交換器從 TCS 回路輸送至設施回路(如圖 5 所示)。隨后,熱量被排出到室外或重新用于其他用途(例如,集中供熱)。液冷
20、服務器 60%至 90%的熱量可以通過液體轉移,具體取決于液冷組件的數量。剩余的熱量通過風冷方式(例如,CRAC、CRAH8、冷門背板)進行散熱。風冷IT機柜CDUCRAH液冷IT機柜FWS(一次側)TCS(二次側)冷機CRAH 機房空氣處理裝置CDU 冷卻分配單元 8 CRAC 機房精密空調,CRAH 機房空氣處理裝置 圖 5“將熱量排入現有冷凍水回路”架構示意圖 施耐德電氣能源管理研究中心 第 110 號白皮書 版本 2 9 智算中心液冷架構探討 優點 利用現有散熱系統,減少投資 與“將熱量排入 IT 機房的空氣”液-氣架構相比,液冷的散熱能力更高、能效更高、噪聲更?。ㄍㄟ^服務器的風速更低
21、)。對于改造項目而言,CDU 可以重新利用之前由 CRAH 占用的空間 缺點 與 L2A CDU 相比,現場安裝工作量更大,包括 CDU 與設施水系統的連接和 TCS與機柜的管道連接等 適用的部署場景 在配有冷機設備的數據中心部署中大規模液冷服務器時 當有水回路連接或“插接裝置”時 當能效的優先級高于部署速度時(例如,L2A 型 CDU)專用散熱系統 將熱量排入到獨立水系統中 在此架構中,專門為液冷(通過 L2L CDU 實現)設計了專用的散熱系統。這樣就能以最高效的方式優化 TCS 和散熱回路的溫度和流量,而不受共用的風冷式散熱系統的限制。圖 6 提供了液冷和風冷專用散熱系統的比較示例。為了
22、實現液冷,采用帶輔助功能壓縮機的干冷器來提供較高的供水溫度(40);而為了實現風冷,采用帶自然冷卻冷機來提供較低的冷凍水溫度(20)。帶壓縮機輔助的冷卻器FWS(一次側)TCS(二次側)CRAH冷冷機風冷IT機柜CRAH 機房空氣處理裝置CDU 冷卻分配單元 優點 由于增加了自然冷卻的時長,因此能效更高(除最炎熱的天氣外,大多數情況下無需機械制冷)可獲得更高的回水溫度,提供了重新用于空間供暖、工業加工用水預熱等用途的可能性。部署過程中不會影響現有制冷系統 圖 6 專用散熱系統 架構意 施耐德電氣能源管理研究中心 第 110 號白皮書 版本 2 10 智算中心液冷架構探討 缺點 需要在設施層面設
23、計額外管道系統 需要投資構建專用的散熱系統 與其他架構相比,部署更耗時 適用的部署場景 預計需要部署大規模液冷服務器時 高能效是首要考慮因素時 步驟 2 2-選擇 CDUCDU 的容量和外形尺寸 機柜內安裝式 CDU 專門服務于單個機柜,這意味著每個機柜都有獨立的 TCS 回路。CDU 通常安裝在機柜底部,包括泵組、過濾和控制裝置。熱量通過風扇輔助后門熱交換器(L2A)散熱到數據中心的空氣中,或者通過 L2L 熱交換器排至到設施回路中。優點 可以在安裝到數據中心之前與服務器進行預集成和測試。將潛在故障模式限制在單個機柜內(例如,TCS 泄漏或污染)可以為每個機柜設置冗余(例如,1N 泵與 2N
24、 泵)。適用于僅有少量液冷機柜的傳統數據中心的簡單解決方案 缺點 隨著機柜數量的增加,每千瓦 IT 負載的成本高于落地式 CDU CDU 占用 IT 服務器空間 將最大機柜密度限制在約 40 kW(L2A)到 80 kW(L2L)與大型落地式 CDU 相比,隨著機柜數量的增加,總安裝時間更長(即調試每個機柜上的 CDU)相較于單個較大的落地式 CDU,隨著機柜數量的增加,能效下降 適用的部署場景 部署速度至關重要時(應用于數量較少的液冷機柜)預計僅需要部署少量液冷機柜(1 到 10 個機柜)時 落地式 此 CDU 為一排或多排機柜服務,這意味著它們共用一個 TCS 回路。CDU 可以安裝在一排
25、機柜的末端,也可以安裝在離 AI 集群較遠的地方。熱量通過風扇輔助熱交換器(L2A)排至到數據中心的空氣中,或通過 L2L 熱交換器排至設施回路中。優點 與機柜內安裝式 CDU 相比,大規模部署的每千瓦 IT 負載的成本更低 施耐德電氣能源管理研究中心 第 110 號白皮書 版本 2 11 智算中心液冷架構探討 在改造項目中,可以根據所替代 CRAH 的位置和容量選擇 CDU,以盡可能減少管道鋪設工作 CDU 不占用 IT 機柜空間 與機柜內安裝式 CDU 相比,可以實現更高的機柜密度 與每個機柜都安裝 CDU 相比,隨著機柜數量的增加,安裝時間可以大幅縮短 由于機柜內安裝式 CDU 需要為每
26、個機柜都配備循環泵,隨著機柜數量的增加,落地式部署 CDU 效率也會提高 與機柜內安裝式 CDU 相比,停電后的熱容能力更強 缺點 集中在單個 TCS 回路中的所有機柜容易因為常見故障受影響(例如,TCS 泄漏、污染、控制等)占用地面空間 適用的部署場景 預計需要 10 個以上液冷機柜時 由單個 CDU 服務的所有機柜的工作負載(例如,AI 訓練集群)可以同時容忍常見故障(例如,流體中斷)時 IT 機柜中沒有足夠的垂直空間來部署機柜內安裝式 CDU 時 施耐德電氣能源管理研究中心 第 110 號白皮書 版本 2 12 智算中心液冷架構探討 越來越多的服務器需要液冷系統來支持人工智能工作負載。根
27、據液冷服務器部署的規模,數據中心可以通過現有或專用散熱系統進行冷卻。本白皮書所討論的術語、架構和選擇時考慮的因素可幫助數據中心運營商初步了解液冷生態系統的構建。以下是我們針對數據中心運營商遇到的常見液冷問題提供的答案:如何讓冷水流入、熱水流出?涉及三個要素(即服務器內部的熱捕獲、CDU類型和將熱量排出至室外的方法)。什么是 CDU?我是否需要 CDU?CDU 是一種用于將 IT 流體回路與制冷系統其余部分隔離的系統,且必須具備五大功能(即溫度控制、流量控制、壓力控制、流體處理、熱交換和隔離)。選擇合適的液冷散熱架構需要采取哪些步驟?本白皮書介紹了六種液冷架構,每種架構各有優缺點,并且包括適用的
28、部署場景。關于作者 Paul Lin 是施耐德電氣能源管理研究中心的技術總監和“愛迪生”專家。Paul 致力于數據中心設計和運營方面的研究,并且通過向客戶提供風險評估和設計實踐方面的咨詢,來優化數據中心環境的可用性和可持續發展。他是業內公認的專家,經常以演講嘉賓和圓桌論壇專家身份出席數據中心行業的重大活動。在加入施耐德電氣之前,Paul 曾在 LG 電子公司擔任研發項目經理并工作多年。他還是一名注冊公用設備工程師,擁有 10 多項專利。Paul 擁有吉林大學機械工程學士和碩士學位。他還持有歐洲工商管理學院(INSEAD)頒發的證書。Robert Bunger 是施耐德電氣首席技術辦公室的創新產
29、品負責人。在施耐德電氣供職的 26 年間,Robert 擔任過客戶服務、技術銷售、產品管理、業務開發和行業聯盟領域的各種管理職位。在 APC/施耐德電氣工作期間,他曾在美國、歐洲以及中國生活和工作過。加入 APC 之前,他是美國海軍潛艇部隊的一名特派軍官。Robert 在美國海軍學院獲計算機學學士學位,在倫斯勒理工學院獲電子工程碩士學位。Victor Avelar 是施耐德電氣能源管理研究中心的高級研究員,Victor 致力于數據中心的設計與運營方面的研究,并且通過向客戶提供風險評估和設計實踐方面的咨詢,來優化數據中心環境的可用性和能效。Victor 于 1995 年從倫斯勒理工學院(Rens
30、selaer Polytechnic Institute)獲得了機械工程學的學士學位,而后在巴布森商學院獲得工商管理碩士 MBA 學位。Victor 是 AFCOM 的成員。為本白皮書評分 結論 施耐德電氣能源管理研究中心 第 110 號白皮書 版本 2 13 智算中心液冷架構探討 人工智能帶來的顛覆:數據中心設計的挑戰及相關指南 第 110 號白皮書 用于數據中心和邊緣應用的液冷技術 第 265 號白皮書 采用液冷的五大原因 第 279 號白皮書 注:鏈接網址可能會隨時間而失效。資源鏈接在本白皮書編寫時是有效的,但現在可能已經失效。聯系我們 關于本白皮書內容的反饋和建議請聯系:施耐德電氣能源管理研究中心 dcscschneider- 如果您是我們的客戶并對數據中心項目有任何疑問:請與您的施耐德電氣銷售代表聯系,或登錄: 瀏覽所有白皮書 資源 瀏覽所有 TradeOff Tools權衡工具 2024 施耐德電氣版權所有。