《開放數據中心標準推進委員會:2024年服務器應用無源兩相散熱技術報告(74頁).pdf》由會員分享,可在線閱讀,更多相關《開放數據中心標準推進委員會:2024年服務器應用無源兩相散熱技術報告(74頁).pdf(74頁珍藏版)》請在三個皮匠報告上搜索。
1、服務器應用無源兩相散熱技術報告編號 ODCC-2024-01001服務器應用無源兩相散服務器應用無源兩相散熱技術報告熱技術報告2024.09 發布開放數據中心標準推進委員會服務器應用無源兩相散熱技術報告版權聲明版權聲明ODCC(開放數據中心委員會)發布的各項成果,受著作權法保護,編制單位共同享有著作權。轉載、摘編或利用其它方式使用 ODCC 成果中的文字或者觀點的,應注明來源:“開放數據中心委員會 ODCC”。對于未經著作權人書面同意而實施的剽竊、復制、修改、銷售、改編、匯編和翻譯出版等侵權行為,ODCC 及有關單位將追究其法律責任,感謝各單位的配合與支持。服務器應用無源兩相散熱技術報告編寫編
2、寫組組項目經理:項目經理:李建北京三快云計算有限公司工作組長:工作組長:王峰中國電信股份有限公司研究院貢獻專家:貢獻專家:李偉祖中科可控信息產業有限公司黃強深圳市英維克科技股份有限公司田文斌英特爾亞太研發有限公司王大偉華為技術有限公司于美澤中國信息通信研究院服務器應用無源兩相散熱技術報告目錄目錄一、概述.1二、術語、定義和縮略語.2三、服務器散熱分析.3四、服務器散熱技術分析.4五、服務器液冷散熱技術分析.7(一)冷板式液冷技術分析.9(二)浸沒式液冷技術分析.15六、無源兩相液冷散熱技術介紹.17七、熱管.21(一)熱管機理.21(二)熱管的主要技術痛點.26(三)熱管的技術現狀.31(四)
3、熱管的發展趨勢.32八、均溫板技術.35(一)均溫板機理.35(二)均溫板的技術現狀.36(三)均溫板的主要技術痛點.38(四)均溫板的發展趨勢.39九、熱虹吸技術.42(一)熱虹吸機理.42(二)熱虹吸管的技術現狀.43服務器應用無源兩相散熱技術報告(三)熱虹吸管的主要技術痛點.44(四)熱虹吸管的發展趨勢.45十、環路熱管技術.45(一)環路熱管的機理.45(二)環路熱管的技術現狀.49(三)環路熱管的主要技術痛點.51(四)環路熱管的發展趨勢.54十一、其他無源兩相散熱技術介紹.55(一)脈動熱管技術.56(二)微型熱管技術.58(三)泵輔助毛細環路熱管技術.61十二、無源兩相液冷散熱技
4、術應用方案設計參考.62(一)通用服務器散熱解決方案熱管復合水冷技術.62(二)AI 服務器散熱解決方案環路熱管無漏液液冷技術.64十三、參考文檔.65服務器應用無源兩相散熱技術報告1服務器應用無源兩相散熱技術白皮書服務器應用無源兩相散熱技術白皮書一、一、概述概述隨著云計算、大數據、人工智能(Artificial Intelligence,AI)、自動駕駛等技術的快速發展,算力需求保持強勁的同時也出現明顯的分化,不同的業務需求形成了以通用算力、智算算力、邊緣算力為代表的多樣化算力載體,多樣化算力也推動了 CPU(Center ProcessingUnit)、GPU(Graphics Proce
5、ssing Unit)、NPU(Neural-networkProcessing Unit)、FPGA(Field Programming GateArray)等算力平臺的快速發展1。在當前的算力分布中,通用算力和智算算力占據主導地位,通用算力以 CPU 為主要算力平臺,智算算力以 GPU 為主要算力平臺,在生成式人工智能 AIGC(Artificial Intelligence GeneratedContent)的技術取得突破之前,CPU 和 GPU 為代表的算力芯片的性能發展趨勢一直較為平穩,CPU 約 2.5 年翻一倍,GPU 差不多 2.25年翻一倍2;AIGC 技術突破以后,GPU
6、的性能發展趨勢明顯加快,已經達到每年 1.5 倍的性能提升速度。由摩爾定律可知芯片性能的提升主要來源于晶體管數量的增加,參考芯片功耗的主要影響因素公式:PC*N*V2*f(P 為芯片功耗,C 為負載電容,N 為芯片的晶體管數量,V 為晶體管工作電壓,f 為晶體管工作頻率),晶體管數量與芯片的功耗成正比關系,雖然芯片的晶圓制程一直在迭代優化,但是對于芯片功耗控制的邊際效應逐步顯現,芯片功耗總體上仍呈現明顯上升的趨勢,以應用最為廣泛的算服務器應用無源兩相散熱技術報告2力平臺 CPU 和 GPU 為例,CPU 的功耗將演進至 600 W 以上,GPU的功耗將演進至 1 000 W 以上,大功耗芯片散
7、熱已經成為服務器系統散熱設計的主要挑戰。還有一點值得一提的是,在當前地緣政治的影響下,先進半導體制程的限制對我國相關算力發展產生明顯影響,而半導體制程對于算力芯片有一個非常大的影響就是散熱技術限制導致的功耗限制,例如,在其他條件相同的前提下,以臺積電公布的 5nm 制程為基準,芯片性能一致的目標下,7nm 制程芯片功耗將是 5nm 芯片的 2.86 倍。在此大背景下,散熱技術對于我國算力行業的重要性更加凸顯。本白皮書聚焦服務器相關散熱技術,對主流散熱技術的現狀、特點和技術前景做了匯總分析,并提出了極具技術前景的散熱解決方案。充分體現了我國在散熱領域具備足夠的技術積累,可以有效解決我國半導體技術
8、帶來的散熱挑戰,可以有效應對服務器系統面臨的散熱挑戰,可以強力支撐算力需求發展。二、二、術語、定義和縮略語術語、定義和縮略語術語解釋CPUCenter Processing Unit,中央處理器GPUGraphics Processing Unit,圖形處理器NPUNeural-network Processing Unit,網絡處理器FPGAField Programming GateArray,現場可編程門陣列AIGCArtificial Intelligence Generated Content,生成式人工智能LGALand GridArray,平面網格陣列封裝DIE一般指單個切割下來
9、未封裝的半導體芯片VCVapor Chambers,蒸汽腔均溫板服務器應用無源兩相散熱技術報告3MTBFMean Time Between Failure,MTTRMean Time To Repair,AFRAnnualized Failure Rate,年化整機故障率NASANationalAeronautics and SpaceAdministration,美國航空航天局RKA俄羅斯聯邦航天局DNBDeparture from Nucleate Boiling,離核沸騰DWODensity Wave Oscillations,密度波振蕩PDOPressure Drop Oscillat
10、ions,壓降振蕩THOThermal Oscillations,熱振蕩LHPLoop Heat Pipe,環路熱管CPLCapillary Pumped Loop,毛細泵環路熱管PHPPulsating heat pipe,脈動熱管或振蕩熱管BGABall GridArray,球柵陣列CDUCooling Distribution Units,冷卻液分配單元PACLPump-Assisted Capillary loops,泵輔毛細環路熱管MPCLMechanical Pump-driven two-phase cooling loop,機械泵驅兩相液冷系統三、三、服務器散熱分析服務器散熱分
11、析不同算力芯片的功耗差異較大,如 CPU 比 GPU 的功耗低很多,同樣存在散熱挑戰的核心原因在于算力芯片所處的熱邊界條件不同。熱邊界條件是指芯片所在的散熱相關的約束條件,如芯片本身的尺寸、封裝 形式、功耗分布、溫度規格,服務器的硬件架構、空間尺寸、使用環境,散熱器的選型、風量大小、冷板設計、液體流量和進出溫差等。對芯片散熱設計產生約束的信息均屬于熱邊界條件。以目前業界使用最廣泛的 2U 通用服務器和 AI 服務器為例,分析 CPU 和 GPU 芯片散熱邊界的差異。如表 3-1 所示,CPU 和 GPU服務器應用無源兩相散熱技術報告4芯片的熱邊界條件存在較明顯的差異,CPU 的散熱主要受限于空
12、間和芯片封裝設計,而 GPU 的散熱則主要受限于多卡級聯和芯片封裝設計,特別是 GPU 計算模塊的計算芯片數量達到 8 顆以上,并排部署,留給每顆芯片可用的散熱空間非常有限,也就是說芯片近端的熱邊界條件對于熱設計方案的制定有諸多限制和約束,甚至會限制一些散熱技術手段的應用實施,變相加劇了服務器系統的散熱挑戰難度。表 3-1 CPU 和 GPU 芯片熱邊界條件對比示意CPUGPU架構示意圖圖片來源:美團圖片來源:H3C空間通用計算服務器的高度和深度空間限制 CPU 散熱器的尺寸;GPU 服務器的高度空間比較靈活;硬件架構存算串聯的通用計算架構的高流阻限制了系統風量;8 卡&16 卡串并聯限制了散
13、熱器設計;GPU 卡的前后熱級聯效應;芯片封裝LGA(land GridArray)的封裝對散熱器的高剛度要求限制了高性能傳熱技術的應用;2.5D 或 3D 等多 DIE 合封帶來的熱流密度和溫度規格不均的問題;裸 DIE 芯片設計帶來的散熱器安裝應力問題;總結空間限制和芯片封裝設計是主流CPU 芯片散熱受限的核心原因。多卡級聯和芯片封裝設計是GPU 芯片散熱受限的核心原因。四、四、服務器散熱技術分析服務器散熱技術分析在服務器散熱場景下,根據散熱工質是否存在相變,散熱技術可以分為單相散熱技術和兩相散熱技術,兩類散熱技術的差異如表 4-1服務器應用無源兩相散熱技術報告5所示,在實際使用中,一個服
14、務器系統中可能出現多個技術混用的情況。例如,目前最常用的風冷換熱本身屬于單相傳熱技術,但是芯片使用的熱管散熱器中的熱管部件屬于兩相散熱技術;單相冷板技術也是在服務器風冷散熱的基礎上針對芯片單獨使用的單相冷板散熱技術,也屬于多個散熱技術混用的場景。表 4-1 單相和兩相散熱技術對比單相散熱技術兩相散熱技術傳熱類別顯熱工質單相溫度變化發生潛熱伴隨相變發生換熱量及相關量Q顯熱=Cp*m*T取決于流量、溫差和工質本身的物性參數Q潛熱=m:相變潛熱系數,物性參數取決于兩相循環的速度代表技術風冷換熱單相冷板式單相浸沒式環路熱管技術、均溫板技術熱虹吸技術、脈動熱管技術熱管技術、兩相冷板式兩相浸沒式總結優點:
15、技術門檻低,成熟度高缺點:效率低優點:效率高缺點:技術門檻高單相和兩相散熱技術各有優缺點,考慮 CPU 或 GPU 這類芯片呈現的高功耗和高熱流密度特點,在實際使用中選擇散熱技術時,可以通過對比傳熱量和單點熱流密度的能力來查看是否滿足芯片的散熱需求。以 2U 通用服務器 CPU 為例,主要散熱技術的性能水平如圖4-1 所示,可以得出以下結論:(1)2U 通用服務器架構下,單純空氣冷卻的傳熱量和熱流密度都是服務器應用無源兩相散熱技術報告6比較小的,所以實際使用中需要借助燒結型銅水熱管(兩相散熱技術)來提升散熱器的熱流密度和傳熱量;(2)燒結型銅水熱管,采用的是無源兩相散熱技術,通過多根排布設計,
16、可以明顯改善純金屬風冷散熱器面臨的熱流密度和傳熱量不足的問題,但是對應的性能上限取決于熱管技術本身的性能限制;(3)冷板式和浸沒式為代表的泵驅液冷技術在傳熱量和熱流密度方面相比空氣冷卻有大幅度的提升,這也是業界大力推廣液冷技術的原因;(4)單相冷板的熱流密度要高于單相浸沒式,但是傳熱量指標低于單相浸沒式;(5)兩相冷板的熱流密度和傳熱量相比單相冷板有大幅度的提升;(6)單相浸沒式可以和空氣冷卻一樣通過使用熱管和 VC 等技術提升熱流密度支持能力;(7)環路熱管是兩相散熱技術中性能最高的散熱技術,性能與泵驅液冷性能相當,是一項非常有潛力的散熱技術。需要著重說明的是,冷板式和浸沒式散熱技術都是芯片
17、近端散熱解決方案,芯片近端的熱邊界條件會對熱設計方案產生嚴格的約束,這也是當前服務器散熱挑戰成為核心問題的原因,環路熱管在具備非常出色的熱性能的同時,具備非常出色的熱傳輸性能,可以以很小的溫差(5)把熱源大量的熱量從近端傳遞到遠端,可以有效減少熱源近端的熱邊界條件的約束,從而大幅度降低服務器系統熱設計難度,特別是面對 AI 服務器的使用場景下,是非常有技術前景的一條服務器應用無源兩相散熱技術報告7技術路線。圖 4-1 2U 通用服務器架構不同散熱技術散熱能力對比示意圖34五、五、服務器液冷散熱技術分析服務器液冷散熱技術分析液冷技術作為一種高效散熱技術,在汽車、電力等領域有著成熟和廣泛的應用,因
18、此,服務器行業希望通過引入液冷技術來解決服務器芯片散熱挑戰,目前服務器側引入的液冷技術主要包含冷板式技術和浸沒式液冷技術,每個技術路線還可以分為單相和兩相,如表 5-1所示。冷板式液冷技術可以和風冷服務器保持架構歸一,所以冷板式液冷技術對于整個產業鏈來說更容易接受和推進,單相冷板式液冷技術因為技術成熟使用更為廣泛,但是隨著芯片功耗和熱流密度的增長,單相冷板的性能逐步逼近天花板,具備更高性能的兩相冷板液冷技術目前也逐步引起業界的關注。浸沒式液冷技術同樣分為單相和兩相方案,其中兩相浸沒式在超算和高性能計算領域一直有廣泛使用,對于通用服務器和 AI 智算服務器,單相浸沒式液冷技術在系統復雜度、成本等
19、方面的優勢逐步成服務器應用無源兩相散熱技術報告8為當前業界探索的主要技術方向。表 5-1 液冷散熱技術對比單相冷板兩相冷板風扇+空氣+泵+單相冷卻液+冷板風扇+空氣+泵+兩相冷卻液+冷板散 熱方 案示意圖片來源:美團圖片來源:zutacore散 熱器 示意圖圖片來源:美團圖片來源:zutacore問題可靠性+性能瓶頸+成本穩定性+成本單相浸沒式兩相浸沒式泵+單相冷卻液+散熱器(熱管&VC)泵+兩相冷卻液+散熱器(沸騰增強)散 熱方 案示意圖片來源:阿里巴巴圖片來源:阿里巴巴散 熱器 示意圖圖片來源:Intel圖片來源:Intel問題兼容性+成本較高服務器應用無源兩相散熱技術報告9不管是冷板式還
20、是浸沒式液冷技術,在服務器行業推進的時候,碰到了很多新問題和挑戰,限制了液冷技術的大規模部署,比如:單相冷板式液冷技術的主要問題是可靠性問題、性能瓶頸問題和成本問題,兩相冷板液冷技術可以解決單相冷板的性能瓶頸問題,但是會引入穩定性問題,同時兩個液冷系統大多場景下是無法實現平滑演進,即單相冷板液冷系統一般無法直接切換成兩相冷板系統使用,這個也是技術路線選擇必須要考慮的。對于浸沒式而言,不管是單相還是兩相系統,核心限制因素主要是兼容性問題和成本問題。下面進行詳細闡述。(一)(一)冷板式液冷技術分析冷板式液冷技術分析服務器冷板式液冷技術方案的核心是充分利用冷板式液冷高熱流密度的特點,針對性解決芯片散
21、熱問題,工質通過管路與安裝在芯片上的冷板內部的翅片換熱來帶走熱量。單相冷板的工質可以使用水基、單相氟化液等高沸點工質,兩相冷板的工質以兩相氟化液或者氫氯氟烯烴一類的制冷劑為主。工質的差異,帶來的核心問題也會有不同,實際使用單相冷板以水基冷卻液為主,所以會存在因漏液導致的可靠性風險;兩相冷板主要使用無水工質,基本不存在可靠性問題,但是兩相流的引入則會帶來穩定性問題。另外,常見的服務器冷板式液冷系統分為閉環式(Close Loop)和開環式(Open Loop),其中開環式冷板式液冷系統是當前的主流方案。如表 5-2 所示,相比傳統的風冷散熱器,單相和兩相冷板液冷系統的復雜度會變高,故還會存在標準
22、化和成本問題。服務器應用無源兩相散熱技術報告10表 5-2 冷板式液冷散熱技術對比閉式冷板液冷方案(Close Open)開環式冷板液冷方案(Open Loop)散 熱方 案示 意圖圖片來源:NIDEC圖片來源:NIDEC優點技術較為成熟方便部署,運維要求相對較低故障半徑可以控制在節點級技術成熟密度更高缺點成本相對更高有泄露風險需要較大空間部署集中式冷凝器故障半徑一般更大與 IDC 耦合,系統更為復雜運維要求高可靠性問題的核心是服務器出現泄露時的故障半徑和可維修時間的問題。漏液風險的衡量指標對應平均無故障工作時間(MeanTime Between Failure,MTBF),出現泄露以后維修時
23、效的衡量指標對應平均維修時間(Mean Time To Repair,MTTR)。本文統計了目前我國 A 級數據中心的機架式服務器的可靠性指標水平參考(截止 2024.7月的水平,見表 5-3),可以看出,實際使用中 AI 服務器的故障率約是通用計算服務器的 3-5 倍,AI 服務器的主芯片數量約是通用計算服務器的 5-9 倍,風冷散熱方案下的板卡維修相對簡單,冷板式液冷方案下,大規模上量以后“維修”將成為一個必須考慮的問題。需要注意的是,不同的業務類型或者不同的調度水平對于可靠性指標的約束會存在比較大的差異,如何應對可靠性帶來的問題需要根據實際情況綜合考慮。服務器應用無源兩相散熱技術報告11
24、表 5-3 服務器可靠性指標參考通用計算服務器AI 計算服務器MTBF整機 MTBF110 000 小時47 000 小時年化整機故障率(AFR)24*365/MTBF8%18.6%實際 AFR6%8%20%30%MTTRMTTR1 小時N/A實際維修時效48 小時10KW 量級)。最初的環路熱管是前蘇聯烏拉爾科技學院的 Gerasimov 等在 1972 年發明并申請專利,此后美國、中國和歐洲陸續開始發展該技術,早期環路熱管主要運用于宇宙航空航天領域,如表 10-1 所示。環路熱管技術因其在性能和可靠性方面的突出特性,近年來一直是學術界和工程界重點關注的前沿技術之一。表 10-1 環路熱管技
25、術主要發展時間表序號服務時間航天機構/航天器/目的研制機構用途11989-1991RKA 俄羅斯航天局“Gorizon”衛星在軌試驗俄羅斯國家科學院烏拉爾分院熱物理研究所驗證空間環境下并聯蒸發器 LHP 的啟動,運行能力,測試不同充裝量的影響服務器應用無源兩相散熱技術報告4621989.12-2001.6RKA 俄羅斯航天局“Granat”衛星在軌試驗俄羅斯國家科學院烏拉爾分院熱物理研究所驗證丙烯 LHP 的長時間在軌運行的能力31994RKA 俄羅斯航天局OBZOR 衛星搭載三顆丙烯 LHP 發射升空俄羅斯國家科學院烏拉爾分院熱物理研究所控制光學儀器和傳感器的溫度41997NASA STS-
26、87,在軌試驗Dynatherm驗證美國 LHP 制造技術的成熟度51997NASASTS-83/STS-94 在軌試驗SwalesAerospace驗證美國 LHP 微重力運行能力,驗證燒干后恢復能力61999-20072002-至今上海八院FY-1應用TAIS 公司鎳鎘電池控溫72003.11-至今RKA 俄羅斯航天局Yaml-200 應用RKA,TAIS 公司鎳氫電池控溫82003ESA,Asrium,STS-107 在軌試驗TAIS-OHB 聯合研制驗證歐空局 LHP 的在軌運行能力92003.1-2003.8NASA GSFC ICESAT應用Dynatherm為星上電子設備和激光器
27、進行熱控102004-至今NASA GSFC TES AURA應用NASA GSFC為 TES 上設備進行熱控112004-至今NASA GSFC SWIFT應用NASA GSFCBAT 控溫122011TacSat-4NASA電子設備散熱132014探月工程三期月-地高速再入返回器中國航天科技集團2 套環路熱管用于IMU 設備熱控142015高分 9 號衛星中國航天科技集團CCD 散熱152019東方紅 5 號衛星平臺中國航天科技集團DFH-5 平臺可展開式熱輻射器服務器應用無源兩相散熱技術報告47典型的環路熱管的示意圖如圖 10-1 所示,與常見的熱管結構差異很大,最明顯的變化就是環路熱管
28、的汽/液管道是分離的,且管道無毛細結構,蒸汽和液體各自在光滑管道中流動,在避免汽液逆流夾帶的問題的同時有效降低沿程阻力損失,可以支持更遠的熱傳遞距離。另外環路熱管只在蒸發器有毛細結構,毛細芯和管道分離,毛細芯的尺寸不受管道直徑限制,毛細芯的泵壓比熱管高 12 個數量級以上,可以有效提高傳熱能力和反重力能力。通過上述設計,可以有效解決現有熱管存在的傳熱量小、傳熱距離短和反重力能力弱的問題。圖 10-1 環路熱管對熱管方案對比示意圖(圖片來源:CALYOS)環路熱管主要包含蒸發器、冷凝器、汽管、液管、儲液器或者補償器組成。環路熱管的工作過程如下:蒸發器從外界吸收熱量,是內部的工質汽化,同時在氣液界
29、面上產生彎月面,形成毛細力,產生的蒸汽經蒸汽管道進入冷凝器,并在冷凝器內凝結成液體,放出熱量,凝結后的液體在毛細力的驅動下經液體管道重新回到蒸發器內,并以服務器應用無源兩相散熱技術報告48此種形式在回路內往復循環不已,這樣回路內的工質便以相變傳熱的形式不斷的將熱量自蒸發器傳向冷凝器,液體補償器內儲存一定量的液體工質,可以向蒸發器補償其所需的工質,液體補償器可起到控制運行溫度的作用,冷凝器氣液界面變化時可以接納多余的工質或者向其注入工質。環路熱管正常工作的前提條件是蒸發器芯中產生的毛細管壓力大于回路中的總壓降,環路熱管中的總壓降是蒸發器凹槽、蒸汽管線、冷凝器、液體管線、蒸發器芯中的摩擦壓降和由于
30、重力引起的靜壓降之和:PcapPtotal=Pgrove+Pvap+Pcon+Pliq+Pw+Pg(公式 10-1)圖 10-2 所示的典型環路熱管的全鏈路的壓力分布,P1 和 P7 的差值代表毛細力,主要的變量是重力,不同的重力場景下的壓力表現如圖 10-3 所示,反重力場景下需要更大的毛細力,重力輔助場景下,需要的毛細力更小。圖 10-2 環路熱管的壓力測點分布示意30服務器應用無源兩相散熱技術報告49圖 10-3 不同場景下環路熱管的壓力分布示意30環路熱管同樣會受到運行過程中涉及的物理現象及其運行規范相關的限制,但是這些限制的程度和特征與傳統熱管有明顯差異。聲速極限在理論上是相關的,但
31、可以通過合理設計蒸汽管線和蒸汽通道的尺寸來避免;夾帶極限在汽液管道分離的環路熱管中相關度也較低,大部分場景下都不會成為限制;所以環路熱管主要受到毛細極限、蒸氣壓極限和沸騰極限的限制。(二)(二)環路熱管的技術現狀環路熱管的技術現狀表 10-2 不同環路熱管技術方案對比表31類型示意圖熱力學曲線特點LHPCPL服務器應用無源兩相散熱技術報告50環路熱管由于從原理上帶來的靈活性,實際上應用中有很多的技術方案,目前主流的技術路線主要分為 2 類:LHP(Loop Heat Pipe)和 CPL(Capillary Pumped Loop),如表 10-2 所示,LHP 和 CPL 的主要差異點:LH
32、P 的液體補償器必須在物理上非??拷舭l器,因為它們直接或通過相對較弱的毛細管連接共享流體。這一要求可能會導致集成困難,因為液體補償器通常相對較大,同時液體補償器對熱量增益很敏感,在某些應用中,將蒸發器和液體補償器組件封裝在熱源旁邊可能很困難。CPL 的液體補償器通過一條直徑非常小的、可以任意長的管線連接到蒸發器,同時 CPL 中的液體補償器對熱泄漏并不那么敏感。因此,CPL 比 LHP 更容易集成。LHP 比 CPL 更簡單且通常更穩健。隨著環路熱管技術使用場景增多,為了更好的適應電子器件冷卻需求,蒸發器從圓柱型逐步演進至平板式,如圖 10-4 和 10-5 所示。對于工質的要求可以參考熱管
33、工質選擇的原則,水仍然是服務器應用環路熱管技術最為優選的工質,單純從工質的品質系數來看,工質差異對散熱能力的影響甚至可以達到 10 倍以上。圖 10-4 圓柱型毛細蒸發器示意((a)參考文獻32,(b)參考文獻33,(c)服務器應用無源兩相散熱技術報告51參考文獻34,(d)來源中國航天 5 院)圖 10-5 平板型毛細蒸發器示意圖(a)參考文獻32,(b)參考文獻35,(c)來源中國航天 5 院)(三)(三)環路熱管的主要技術痛點環路熱管技術不管在學術界還是工程界,目前仍屬于散熱領域的前沿技術,呈現“會做的少,用的更少”的特點?!皶龅纳佟敝饕w現在,目前環路熱管的工程化能力主要掌握在美國、
34、俄羅斯、歐盟和中國手中,其他國家和地區主要以學術科研為主?!坝玫母佟敝饕w現在,當前環路熱管技術的使用場景以宇航領域的航天器為主,手機產品上有少量使用,服務器產品上規模應用的案例非常少?,F有航天級環路熱管的設計方案應用于民用電子冷卻領域,面臨最大的問題是要根據民用電子冷卻需求進行對應的適配設計,不管是構型設計、工質選擇、整體結構部署方案、甚至加工制程等等。以智算算力服務器為例,采用如圖 10-6 所示的技術方案,可以通過環路熱管技術將多顆 GPU芯片的功耗傳遞到專用的集中式水冷散熱器或者集中式風冷散熱器,芯片熱量搬運路徑由水管更換為環路熱管,可以有效規避液體上板帶來的泄露導電風險,同時通過集
35、中式服務器應用無源兩相散熱技術報告52散熱器的設計實現服務器可風可液的兼容性設計,解決液冷技術面臨的可靠性、兼容性、成本等限制難題。圖 10-6 環路熱管無漏液液冷系統方案示意圖4以環路熱管+集中式水冷散熱方案為例,如圖 10-7 所示,一個GPU 芯片對應一套環路熱管,環路熱管的蒸發器側和芯片熱源接觸,冷凝器和水冷器接觸。環路熱管的冷凝器優選全部部署在水冷器的上部,便于拆裝和運維,可以實現單個 GPU 運維,不影響其他 GPU,無需拆卸水冷器。水冷器本身的設計比較靈活,可以根據系統設計需求,設計為 1 拖多的形式,比如 1 拖 2(1 個水冷器對應 2 顆 GPU 芯片),1 拖 4(1 個
36、水冷器對應 4 顆 GPU 芯片),水冷器設計方案主要受到進水流量、水冷器內部流道和壓降、系統空間、成本等多個方面的影響。冷凝器和水冷器之間推薦填充熱界面材料以降低接觸熱阻。服務器應用無源兩相散熱技術報告53圖 10-7 環路熱管無漏液液冷系統示意圖(以英偉達 H800 模組為例)環路熱管應用于 GPU 散熱解決方案的優點可以概括為“四高一低”。(1)高性能:環路熱管的內部工質為水,與氟化液或氫氟烯烴(HFOs)等工質相比具備更高的品質系數,從而為環路熱管帶來優異的散熱性能,在解決單相水冷面臨的性能瓶頸問題的同時,可以提供更高的性能演進能力(3000W 以上功耗演進能力);(2)高可靠性:環路
37、熱管為負壓運行,本身具備非常高可靠性;水冷器不上主板,配合水冷器的無漏液加工工藝,基本杜絕漏液風險,液冷方案的可靠性可以達到風冷散熱方案;有效解決現有水冷板存在的可靠性難題;(3)高通用性:環路熱管的傳熱距離相比熱管有明顯提升,可以將現有近芯片端散熱解決方案面臨的問題通過熱源拉遠的方案來服務器應用無源兩相散熱技術報告54解決,有效解決芯片本身帶來的尺寸、空間等熱邊界條件的限制。相比現有水冷板液冷技術,專用水冷器可支持的更高散熱需求,可采用的強化散熱的手段更為豐富,與采用微通道的冷板液冷系統相比,集中式專用水冷器對工質循環系統在導電率、過濾凈化、泵壓等方面的要求大幅度降低,有效提高方案通用性;(
38、4)高兼容性:環路熱管負責把熱源拉遠,集中式散熱器負責把熱量帶走,集中式散熱器可以是風冷也可以是液冷,支持 AI 服務器散熱方案實現可風可液的兼容設計;同時可以復用現有 Open Loop冷板式液冷系統的相關設計和標準,比如手動快接頭、分水器、整機柜盲插、CDU、液冷環路設計和控制等,可以實現對冷板式液冷技術的平滑演進支持,對于數據中心機房的規劃設計、部署、運維等更加友好;(5)低成本:環路熱管+水冷器的系統方案相比現有水冷板液冷技術方案,系統復雜度大幅度降低,結合機房側液冷系統的簡化,整體液冷系統成本預計會有大幅度下降,更有利于大規模部署。(四)(四)環路熱管的發展趨勢環路熱管的發展趨勢環路
39、熱管技術作為新一代的高性能無源兩相散熱技術,具備非常好的靈活性,未來的發展與應用領域有很大的關聯,以當前服務器應用需求來看,環路熱管技術未來主要有兩個發展方向。第一個方向是分體式環路熱管技術,如圖 10-7 所示,蒸發器和冷凝器在空間上明顯分開,該技術方向具備非常高的性能,從當前主要算力芯片的功耗演進趨勢來看,預計 2030 年,芯片散熱需求會達服務器應用無源兩相散熱技術報告55到散熱量 3000W 和 200W/cm2的熱流密度,所以環路熱管未來也將沿此需求演進。第二個方向是單體式環路熱管技術,該技術可以替代現有熱管散熱器或者 3DVC 散熱器,如圖 10-11,采用環路熱管技術,可以有效改
40、善現有散熱器存在的幾個問題,比如熱管散熱器的傳熱量不足、3DVC 熱管散熱器加工困難和成本較高等問題。圖 10-11 單體式環路熱散熱器示意圖(圖片來源:圣榮元)最后需要說明的是,近年來,隨著我國對空間站、探月等空間技術的持續投入,我國的環路熱管技術發展迅速,已達到國際先進水平。借助環路熱管在航天領域的多年成熟應用,結合國內服務器市場規模和供應鏈優勢,未來非常有希望在服務器領域實現規模商用,有效解決芯片散熱難題。十一、十一、其他無源兩相散熱技術介紹其他無源兩相散熱技術介紹除了上述提到幾種常用的無源兩相散熱技術,還有一些相對不常用的無源兩相散熱技術,比如脈動熱管、微型熱管、泵輔助毛細環路熱管技術
41、等,下面予以簡介。服務器應用無源兩相散熱技術報告56(一)(一)脈動熱管技術脈動熱管技術圖 11-1 脈動熱管原理示意圖1720世紀90年代初日本的Akachi提出一種新型兩相散熱技術脈動熱管(PHP),其結構如圖 11-1 所示,由金屬毛細管彎曲成蛇形結構,彎頭一端為加熱段,另一端為冷卻段,在中間任意位置設計絕熱段,根據管路的走向,脈動熱管分為回路型、開路型和 帶控制閥的回路型 3 種,如圖 11-1 所示。脈動熱管內部無需吸液芯結構,利用蒸發段與冷凝段之間的壓差以及管中存在的壓力不平衡,使得工作液體產生自身震蕩,從而加快氣液交流,快速傳遞熱量。為了運行,PHP 必須利用毛細管力形成液體和蒸
42、汽段塞。Akachi 和 Polasek 描述了 PHP 的基本原理:當波狀毛細管的匝束一端受到高溫時,內部的工作流體蒸發并增加蒸氣壓,導致蒸發器區的氣泡生長,這將液柱推向低溫端(冷凝器)。低溫端的冷凝會進一步增大兩端的壓差。由于管子相互連接,管子某一部分的液塞和氣泡服務器應用無源兩相散熱技術報告57向冷凝器的運動也會導致下一部分的液塞和氣泡向高溫端(蒸發器)的運動,這起到恢復力的作用,恢復力導致汽泡和液塞沿軸向振蕩。振蕩的頻率和振幅預計取決于管中液體的熱流和質量分數,熱量可以從加熱部分傳遞到冷卻部分。PHP 由一束連續的毛細管組成。毛細管的直徑必須足夠小,以允許液體和蒸汽塞共存。對于這種情況
43、,Akachi 和 Polasek(1995)將最大直徑通過公式 11-1 確定,對應水工質的 d5.34mm,乙醇 d3.25mm。脈動熱管具有結構簡單、體積小、傳熱性能好、適應性強的優點,受到各國學者的普遍關注。但實際上脈動熱管的運行機理相當復雜,受到多方因素的影響,其內部氣液兩相流動和傳熱現象錯綜復雜。因此,人們著力于脈動熱管可視化實驗,并據此進行理論與數值分析。d2*(/l/g)0.5(公式 11-1)PHP 的優點是無源且不需要毛細結構來輸送液體。雖然脈動熱管的總阻力通常大于傳統熱管的總阻力,但脈動熱管可以在更高的熱通量下運行,因為系統利用沸騰并且不受臨界熱通量以外的沸騰限制的限制,
44、性能如圖 11-2 所示。服務器應用無源兩相散熱技術報告58圖 11-2 脈動熱管性能示意圖3目前廣泛使用的脈動熱管散熱器有以下幾種形式:翅片式脈動熱管、柔性連接熱管及平板式脈動熱管等。脈動熱管已被成功應用于電力設備及微電子器件的散熱。圖 11-3 管翅式脈動熱管散熱器示意圖3(二)(二)微型熱管技術微型熱管技術微熱管的概念最初是作為一種在半導體器件中提供更均勻的溫度分布從而消除這些器件產生的局部熱點的方法而提出的,微小型通道具有換熱系數高和單位流動體積傳熱面積大的優點,散熱流密度可達 1001000W/cm2。這些微型熱管由通常為尖角幾何形狀(例如三角形)的無芯非圓形幾何形狀形成內部通道,水
45、力直徑約為小于 1000 m(或者小于0.5mm)。由于直徑較小,一般不采用傳統的毛細結構來增強毛細力,通常通過鋒利的尖角充當液體動脈,并提供支撐液-汽界面所需的毛服務器應用無源兩相散熱技術報告59細管結構,如圖 11-4 所示,邊緣和拐角的差異會影響 MHP 內部的流動蒸汽狀態。自最初提出以來,已有多項研究針對微熱管概念。最初的研究主要集中在特征尺寸為 1.0 mm 量級的微型熱管上并提供了對傳統熱管和微型熱管之間預期發生的根本差異的深入了解。圖 11-4 微型熱管工作機理和不同形狀截面示意圖37使用化學蝕刻和氣相沉積技術在硅片上構建了特征尺寸為 30 至100 微米量級的微型熱管陣列。這些
46、微型熱管陣列已經在穩態和瞬態操作中進行了測試,并通過降低最大表面溫度或熱點,從而在晶圓中提供更均勻的溫度分布,證明了相對于普通硅晶圓的顯著改進。這些測試證明了微熱管的概念是可行的。在電子應用中使用微熱管之前,必須解決幾個問題。這里包括確定存在的工作流體的量對操作性能的影響以及確定操作期間微熱管內工作流體的分布。在傳統的熱管中,所需的工作流體的量由芯吸結構在熱管的工作溫度范圍內有效飽和的要求來控制。由于微熱管中的服務器應用無源兩相散熱技術報告60尖角區域充當毛細結構,因此不容易確定最佳性能所需的工作流體量。對微型熱管充液不足和過度充液都會導致熱管性能嚴重下降。工作流體的位置本質上非常復雜,由微熱
47、管的幾何形狀、工作流體的量和相應的熱量輸入決定。隨著熱輸入的增加,由于需要更大的毛細管泵送要求來將液體從冷凝器輸送到蒸發器,因此蒸發器區域中的液體彎月面后退到尖角中。由于微型熱管包含固定量的工作流體,因此蒸發器中減少的質量必須對應于冷凝器中增加的質量庫存。然而,隨著彎液面后退,液體可以流動的面積減少,導致增加阻礙液體回流的摩擦力。液體流動面積可能沿著微熱管的長度發生變化,使得性能評估進一步復雜化。工作流體的量不僅影響熱管內工作流體的分布,而且顯著影響熱管的最大性能。如果熱管過度充液,則傳熱阻力會增加,因為熱量必須穿過額外的流體,并且實際上可能導致系統的傳熱特性比沒有熱管時的系統差。類似地,如果
48、熱管充注不足,則液體流動通道尺寸可能減小并導致液體中的摩擦損失增加。必須存在最佳的沖液量,以實現微熱管的最大性能。與傳統熱管相比,微熱管具有以下優勢:(1)可直接鑲進硅基板中,減少電子模塊與熱沉之間的接觸熱阻;(2)可最大限度地降低熱點部位溫度,芯片表面溫度分布更為均勻;(3)基于 MEMS 技術可實現與電子芯片的集成加工,并批量生產。雖然微型熱管具有較大優勢,但在基礎研究和應用方面,仍需要大量研究,主要包括:(1)充注封裝方法的改進與優化;(2)微尺度相服務器應用無源兩相散熱技術報告61變換熱的機理研究,如熱管內相變行為、潤濕和再潤濕過程、氣液兩相流和傳熱傳質等,掌握各種參數對熱管傳熱極限的
49、影響規律;(3)新型流動工質在熱管中的應用,如納米流體、自濕潤流體等;(4)降低加工制作成本,應減少復雜的成形工藝或材料的使用,并應用相對簡單有效的手段來加強換熱性能,如碳納米管、功能性表面、濕度梯度能利用等。(三)(三)泵輔助毛細環路熱管技術泵輔助毛細環路熱管技術機械泵對毛細泵進行輔助的環路熱管技術,一般稱為泵輔助毛細環路熱管技術(Pump-Assisted Capillary loops,PACL),另一類是機械泵直接替換掉毛細力的泵驅環路熱管技術,(Mechanical Pump-driventwo-phase cooling loop,MPCL),也就是泵驅兩相循環系統,需要注意的是,
50、機械泵對毛細泵進行輔助的環路熱管技術,在不同的文獻中各不相同,名稱包括混合毛細管泵送回路、泵送輔助毛細管驅動兩相回路、混合回路熱管或機械毛細管驅動兩相回路等,為了保持一致性,本文采用術語泵輔助毛細管環路(PACL)來描述這些系統。服務器應用無源兩相散熱技術報告62圖 11-5 PACL 環路示意圖32PACL 的示意圖如圖 11-5 所示,泵位于液路回路上,主要用于蒸發器的回液輔助,整個環路的動力在毛細力的基礎上增加了一個額外的泵輔助動力,相當于可以突破毛細極限的限制,提高整個系統的熱性能,所以 PACL 可以做為環路熱管技術的增強版。因為原理上的差異,對于當前的服務器系統而言,PACL 和環
51、路熱管均可以使用水工質,而泵驅兩相液冷系統目前無法使用水作為工作液體。十二、十二、無源兩相液冷散熱技術應用方案設計參考無源兩相液冷散熱技術應用方案設計參考(一)(一)通用服務器散熱解決方案通用服務器散熱解決方案熱管復合熱管復合水水冷技術冷技術在某些特殊場景下,數據中心和服務器承載了政府、民生等的核心關鍵業務,對于服務器的可靠性要求非常高,即使對于單臺服務器宕機導致的數據丟失也難以容忍,所以在這類場景下的服務器難以推進單相水冷板液冷技術。為了解決該場景下服務器的散熱和數據中心機房的節能需求,中國移動聯合華南理工大學開展熱管復合液冷技術的探索和研究,2016 年在中國移動南方基地機房,建成了基于熱
52、管復合水冷散熱方案的 200 臺服務器的熱管理系統,機房 PUE 穩定在1.2 以下,在解決 CPU 散熱的前提下,整個系統方案具備非常明顯的節能效果。整體方案如圖 12-1 所示,CPU 芯片的熱量通過熱管拉遠至專用水冷器進行散熱,專用水冷器的位置在服務器后端接口卡區域,所以在通用服務器架構下,會占用一部分原本屬于接口卡的空間,同時因服務器應用無源兩相散熱技術報告63水冷器的位置仍然在 PCB 上,理論上仍然存在一定的漏液風險。圖 12-1 熱管復合水冷技術示意圖(圖片來源中國移動)上述 2 個問題,可以通過服務器硬件架構優化解決,隨著中國移動對存算分離技術的推進,通用服務器存算串聯架構中的
53、硬盤區域不再成為必須,隨著硬盤區域的移走,服務器硬件架構可以進行重構,類似圖 12-2 所示,相關的 IO 前置,CPU 拉遠以后的水冷器可以放在專用隔離區域,從而實現對 IO 和無漏液需求的同時滿足。當然如果熱管無法滿足傳熱量的要求,采用環路熱管技術同樣可以實現該技術方案的持續演進。服務器應用無源兩相散熱技術報告64圖 12-2 存算分離服務器硬件架構熱管復合液冷技術方案示意圖(二)(二)AI 服務器散熱解決方案服務器散熱解決方案環路熱管無漏液液冷環路熱管無漏液液冷技術技術以 AI 服務器最常見的 8 卡架構為例,采用環路熱管的技術方案如圖 12-3 所示,通過環路熱管將 GPU 的熱量拉到
54、主板外且空間限制小的地方,采用集中式水冷器,通過外部水循環帶走熱量。圖 12-3 AI 單服務器系統環路熱管無漏液液冷技術方案示意(俯視圖)無漏液設計思路:水冷器不上主板,配合水冷器的無漏液加工工藝,基本杜絕漏液風險,有效解決現有水冷板存在的可靠性難題。性能設計思路:環路熱管以很小的溫差(5)把芯片熱源大量的熱量從蒸發器傳遞到冷凝器,可以有效減少熱源近端的熱邊界條件的約束,從而大幅度降低服務器系統熱設計難度,充分發揮液冷散熱的技術優勢,有效應對 AI 芯片和服務器散熱演進需求。隨著 AI 技術的發展,整機柜服務器相比單服務器系統優勢逐步顯示,以英偉達發布的 GB200 NVL72 整機柜服務器
55、產品為例,單機服務器應用無源兩相散熱技術報告65柜功耗已經達到 120KW,如此高的密度對散熱和供電都提出了非常高的挑戰,環路熱管技術同樣適用于整機柜服務器方案,如圖 12-4所示,通過環路熱管把每一顆芯片的熱量傳遞到集中式水冷器進行散熱,每一顆芯片對應一套環路熱管,支持芯片裸 DIE 封裝設計,有效降低芯片本身的封裝成本,同時相比水冷板液冷系統的復雜度大幅度降低,支持該系統架構更大功耗的平滑演進需求。圖 12-4 AI 整機柜服務器節點環路熱管無漏液液冷技術方案示意(俯視圖)十三、十三、參考文檔參考文檔1郭亮.數據中心發展綜述J.信息通信技術與政策,2023,49(5):2-8.2Karl
56、Rupp.40 years of microprocessor trend data.https:/ diphasiques pour le controle de lelectronique.https:/www.sft.asso.fr/Local/sft/files/316/2_JourneEe_SFT_yves_ bertin.pdf.4李建,阮迪.多樣化算力對服務器的散熱挑戰分析J.信息通信技術與政策,2024,50(2):46-54.5張雙.數據中心用泵驅動兩相冷卻回路換熱特性研究D.北京工業大學.6 Numerical simulation of power plants and
57、firing systemsM.Vienna,Austria:Springer,2017.服務器應用無源兩相散熱技術報告667 https:/folk.ntnu.no/fernandi/index_thermohydraulics.html8 https:/ D,Lee J,Chakraborty A,et al.Recent advances in two-phase immersion cooling withsurface modifications for thermal managementJ.Energies,2022,15(3):1214.11 V.Dupont,CALYOS,S
58、ystemes diphasiques CALYOS,developpementsrecents,https:/www.sft.asso.fr/Local/sft/files/319/8_JourneEe_SFT_vincent_dupont.pdf12 Faghri A.Heat pipes:review,opportunities and challengesJ.Frontiers in Heat Pipes(FHP),2014,5(1).13 Byon C.Heat pipe and phase change heat transfer technologies for electron
59、ics coolingJ.Electronics Cooling,2016,31.14Heat transfer handbookM.John Wiley&Sons,2003.15 Elnaggar M H,Edwan E.Heat pipes for computer cooling applicationsJ.ElectronicsCooling,2016,51.16https:/ des systemes diphasiques dedies au refroidissement delelectronique https:/www.sft.asso.fr/Local/sft/files
60、/316/2_JourneEe_SFT_yves_bertin.pdf20萬曉琪,崔曉鈺,謝榮建.均溫板散熱技術研究進展J.化工進展,2022,41(2):554.21 Intel,613922_LGA4677-1_LGA4710-2_Stiffness_Guidance_rev1p1,June,202222George Meyer,Heat Pipes&Vapor Chambers DesignGuidelines,https:/semi-therm.org/wp-content/uploads/2017/04/Heat-Pipe-Vapor-Chamber-Heat-Sink-Design
61、-Guidelines-Thermal-Live-2016.pptx.pdf服務器應用無源兩相散熱技術報告6723 Mochizuki M,Nguyen T.Review of various thin heat spreader vapor chamber designs,performance,lifetime reliability and applicationJ.Frontiers in Heat and Mass Transfer(FHMT),2019,13.24 Ju Y S,Kaviany M,Nam Y,et al.Planar vapor chamber with hybr
62、id evaporator wicks for thethermal management of high-heat-flux and high-power optoelectronic devicesJ.InternationalJournal of Heat and Mass Transfer,2013,60:163-169.25 汪維偉,黃昕之,趙福云,等.基于葉脈仿生的散熱均熱板性能研究J.航天器環境工程,2021,38(2):138-147.26 Zhou F,Liu Y,Dede E M.Design,fabrication,and performance evaluation o
63、f a hybrid wickvapor chamberJ.Journal of Heat Transfer,2019,141(8):081802.27 Damoulakis G,Megaridis C M.Wick-free paradigm for high-performance vapor-chamberheat spreadersJ.Energy Conversion and Management,2022,253:115138.28謝艷,楊曉睿,李曉林,等.熱管技術在航空領域研究綜述J.制冷與空調(四川),2023,37(5):613-624.29https:/ Ku J.Pres
64、sure profiles in a loop heat pipe under gravity influenceC.45th InternationalConference on Environmental Systems,2015.31 Thermohydraulic analysis of two-phase capillay pumping systems for industrial design andspaceapplicationgs,https:/abcm.org.br/app/webroot/anais/cobem/2007/pdf/COBEM2007-0694.pdf32
65、Torre S A S.A Pump-Assisted Capillary Loop Evaporator Design for High Heat-FluxDissipationD.Purdue University Graduate School,2021.33 Wang H,Lin G,Bai L,et al.Comparative study of two loop heat pipes using R134a as theworking fluidJ.Applied Thermal Engineering,2020,164:114459.34 Nemec P,Smitka M,Mal
66、cho M.Heat removal from bipolar transistor by loop heat pipe withnickel and copper porous structuresJ.The scientific world journal,2014,2014(1):724740.35 楊濤,張明佳,趙石磊,等.陶瓷芯平板式毛細泵設計及試驗J.中國科學:技術科學,2021,51(5):11.服務器應用無源兩相散熱技術報告6836 Li C,Li J.Passive cooling solutions for high power server CPUs with pulsating heat pipetechnologyJ.Frontiers in Energy Research,2021,9:755019.37Eslami Majd A,Tchuenbou-Magaia F,Meless A M,et al.A Review on Cooling Systems forPortable Energy Storage UnitsJ.Energies,2023,16(18):6525.服務器應用無源兩相散熱技術報告69ODCCODCC 公眾號公眾號ODCCODCC 訂閱號訂閱號