1、智算中心基礎設施演進白皮書智算中心基礎設施演進白皮書12序言近兩年來,我們目睹了人工智能(AI)以驚人的速度發展和不斷成熟,它正在改變我們的生活、工作和與技術交互的 方式,它將會徹底改變從醫療、金融到交通和娛樂等眾多行業。以ChatGPT為代表的生成式人工智能(AIGC)因其顯著的進步和廣泛的應用范圍而引起各行各業極大的關注。它能夠生成與人類語言非常相似的文本,生成高清圖片,視頻,影片,甚至編程,顛覆了大眾對人工智能(AI)的傳統認知,吸引了普通大眾乃至各個領域的專家的重點關注。隨著人工智能(AI)應用變得越來越普遍和具有影響力,其對算力的需求也隨之快速增長,人工智能(AI)業務負載也正在成為
2、數據中心負載的重要組成部分,并且要求必須以集群的方式進行部署。因此,機柜的功率密度和數據中心的規模將大幅提升,給數據中心物理基礎設施(包括供配電、制冷等)帶來顛覆性的挑戰。換句話說,這意味著人工智能(AI)將顛覆通算中心(傳統數據中心)的設計和運營。為應對這些挑戰,我們需要重新思考數據中心從IT層面到物理基礎設施層面的規劃和設計,從而建設出可以適應未來IT技術不斷發展的具有彈性和可擴展性的智算中心(AIDC)。維諦技術作為英偉達(NVIDIA)官方認可的解決方案合作伙伴,很早就開始關注智算中心(AIDC)中的物理設施基礎架構未來究竟會有哪些顛覆性的變革?;仡檾祿行男袠I過去30年的發展,其基礎
3、設施層面的發展基本遵循一個 線性的功耗密度提升和智能化提升的模式,維諦技術在此過程中,一直以技術和質量來引領全球行業的發展。但是從2024年的年初開始,人工智能(AI)的發展進入類似于指數的增長曲線,從單個GPU的計算能力到集群的規模,從單機柜的功率密度到液冷的普及速度,似乎都被按下了加速鍵,數據中心行業正在經歷一個自己的“寒武紀”。面對如此快速 變化的時代,市場和行業的信息和經驗也都是碎片化的,國家之間、企業之間、個人之間也都存在著巨大的信息壁壘,產業生態和技術格局存在著重大的不確定性。作為數據中心行業的全球領先企業,維諦技術希望通過一種創新的形式,通過 收集市場上分散的經驗和信息,整理出智
4、算中心(AIDC)的機電系統架構演進趨勢和挑戰,從而做出一個系統性和中立性的分析和預測,希望通過提煉出的觀點和意見,能夠對數據中心行業的上下游起到一定的歸納和參考意義,對數據中心 行業的健康發展有一定的促進作用。而深知社(DeepKnowledge Community)作為中國具有號召力的國際化數據中心產業工程師社群,同樣在這段時間里也在思考此類問題。經過與維諦技術深度溝通后,受維諦技術委托,由深知社對智算中心基礎設施演進白皮書做系統的行業調研、分析、提煉以及白皮書撰寫。因此,深知社于2024年4月-6月,對國內業已實施的智算中心、超算中心的近50位一線資深技術專家進行深度訪談和調研,并結合深
5、知社海量的全球動態深度知識庫,由DKI(DeepKnowledge Intelligence)研究員團隊執筆,進行本次 白皮書的撰寫。這本白皮書訪談、調研和寫作的專家和工程師均以個人名義參與,使得這本白皮書能夠最大程度以中立、系統和開放的角度,深度還原中國數據中心工程師群體對智算中心(AIDC)機電架構演進和發展的經驗和判斷。致謝感謝智算中心基礎設施演進白皮書撰寫組成員(排名不分先后):維 諦 技 術 編 委 組:顧 華、張 迪、雷 愛 民、趙 玉 山、王 騰 江、譚 紅 麗、王 安 林、李 朝 輝、趙 呈 濤、王 超、郭 昊、劉東澤、李旭、韓會先、鄒宇飛、姜峰等。深知社編委組:高昆、董衛衛、
6、陳淼、王謀銳、高曉明等。以及在白皮書撰寫過程中,通過深談會、特約訪談等形式分享專業觀點和經驗的行業專家們:李典林、井湯博、何建、楊瑛潔、沈誠、王寧、夏忠謀、王強、陶志峰、唐虎、王洪濤、李巍、劉凱、肖軍、李振江、劉陽遷、符曉、肖波、蘇志勇、方黎達、師宇清、陳必成、丁海峰、葉飛、林密、張雙華、于淼、杜華銳等。感謝你們的辛苦付出和努力,白皮書的每一個知識點的落實離不開你們的付出。希望智算中心基礎設施演進白皮書可以為通算中心(傳統數據中心)向智算中心(AIDC)的演進過渡中貢獻出 一份力量!智算中心基礎設施演進白皮書34序言的最后,必須要感謝維諦技術編委組的專家團隊對深知社的調研和寫作過程的大力支持,
7、維諦技術的行業 大局觀、產業生態觀、技術發展觀同樣給此次白皮書的訪談對象和DKI研究員團隊留下深刻的印象。希望各位數據中心同行在閱讀完這本白皮書之后,對于AIDC的演進趨勢有更多、更深、更系統的理解。因水平和 經驗有限,這本白皮書一定會有一些不足甚至錯誤之處,如您有任何意見或疑問,也請隨時與深知社取得聯系(微信 公眾號:DeepKnowledge,或官網網站),我們將認真聽取您的反饋和意見,在未來不斷提升。深知社編委組2024年8月目錄一.智算中心的演進分析1.1 智能算力的發展情況概述 1.2 智算芯片結構演進1.3 智算用戶側訴求演進1.4 機柜功耗高密度化演進1.5 靜態負載向動態負載演
8、進二.智算中心選址與規劃 2.1 智算中心選址2.2 智算中心建筑形式 2.3 智算中心建筑布局 2.4 智算中心房間功能需求 2.5 智算中心裝飾裝修需求 2.6 已有建筑改造為智算中心 三.智算中心電氣鏈路架構挑戰及演進趨勢3.1 智算中心電氣鏈路的挑戰3.1.1 電力能源接入挑戰3.1.2 配電與IT機房的面積比挑戰3.1.3 電能利用率挑戰3.1.4 能源利用效率(PUE)挑戰3.1.5 服務器電源形式挑戰3.1.6 智算負載分級供電的挑戰3.1.7 末端配電方式挑戰3.1.8 負載動態沖擊挑戰3.1.9 環境溫度突變挑戰3.2 智算中心供配電系統的演進趨勢 “智算電能管理鏈”3.2.
9、1 電力能源系統向“算電協同”演進3.2.2 簡化供電系統架構演進3.2.3 智算負載分級供電演進3.2.4 預制電力模組演進3.2.5 UPS向MW級,超高效及高密化演進3.2.6 鋰進鉛退/儲備一體演進66 88911121213 13 14 14 15161616161717171818191919192023232425智算中心基礎設施演進白皮書56一.智算中心的演進分析過去的十幾年,是通算中心(傳統數據中心)(見附錄名詞解釋)快速發展的階段,主要以云計算為主。隨著生成式 人工智能(AIDC)(見附錄名詞解釋)的橫空出世,人工智能(AI)(見附錄名詞解釋)在醫療、金融、制造業、零售業和
10、交通 運輸等領域產生了廣泛的應用需求,通算中心(傳統數據中心)已經逐漸無法滿足日益增長的計算需求,智算中心(AIDC)(見附錄名詞解釋)應運而生,它支持大規模的數據處理、機器學習、深度學習和其他智能算法的運算需求,得益于人工 智能的革命性發展,智算中心的規模和處理能力正在呈指數級增長,以滿足日益增長的算力需求。智算中心已成為通算 中心(傳統數據中心)升級發展的必然趨勢。本章節結合目前智能算力的發展情況,對智算中心(AIDC)在芯片結構演進、用戶側訴求演進、高密度化演進、負載 特性演進等進行分析和總結,作為規劃選址、電力系統、制冷系統及預制化等后續章節的依據和基礎。1.1 智能算力的發展情況概述
11、算力發展:隨著數字經濟時代的到來,數據成為新的生產資料,而算力則成為新的生產力。在萬物互聯的背景下,數據量爆炸式增長,對算力的需求達到前所未有的高度。從城市到家庭到個人,從政府到行業到企業,以及新能源汽車智能化操控、短視頻內容推薦、電商平臺個性化推薦等,每個生活和生產場景均離不開算力對信息的處理,算力已成為社會發展的重要動能??梢灶A見,算力將無處不在,算力服務也將像水、電一樣,成為一種社會基礎設施。算力分類:按照系統構成、技術特征和應用領域的差異,算力可分為三類:通用算力、超算算力和智能算力(見附錄 名詞解釋)。由于超算中心屬于高度定制化的算力中心,不在本白皮書的討論范圍內。本白皮書將重點討論
12、通用算力中心(簡稱 通算中心,即傳統數據中心)向人工智能(AI)算力中心(簡稱智算中心)的演進。智算業務:智算業務在應用中包括兩個環節:訓練和推理(見附錄名詞解釋)。智算業務發展趨勢:根據IDC的統計數據(見圖1),2022年部署的智算算力里,訓練算力占比為41.5%,推理算力 占比達到58.5%;預計到2026年,推理算力的占比將會提升到62.2%,訓練算力降低到37.8%。這種趨勢也符合智算被 廣泛應用的科學的比例變化,而隨著推理算力的普及,生成式人工智能(AIGC)的應用將引起范式革命(見附錄名詞 解釋)(見圖2)。目錄3.2.7 末端電壓等級提升及全直流系統演進3.2.8 SST的前沿
13、應用探索 3.2.9 包間白地板交付方式的演進 3.2.10 融合末端配電方式的演進 3.3 新能源、儲能在智算中心的應用分析 3.3.1 新能源在智算中心應用是必然趨勢 3.3.2 新能源發電在智算中心消納仍面臨諸多挑戰 3.3.3 儲能系統在智算中心應用的多重價值 3.4 智算電能管理鏈 四.智算中心制冷系統架構 4.1 制冷技術發展趨勢 4.2 制冷系統架構的分類及方案 4.2.1 芯片側 4.2.2 機柜側/末端空調側(風冷技術)4.2.3 機柜側/末端空調側(液冷技術)4.2.4 冷源側 4.3 制冷技術應用評估 4.4 智算中心制冷應對策略 五.智算中心預制模塊化技術的應用分析 5
14、.1 智算中心預制模塊化技術發展趨勢 5.2 電氣預制模塊化趨勢 5.3 制冷預制模塊化趨勢 5.4 智算中心預制模塊化趨勢 5.5 預制模塊化技術的應用與挑戰 六.總結與展望 七.附錄 7.1 名詞解釋 7.2 主要作者介紹 7.3 版權聲明 2627 2828 30 30 31 3233343435 36 3741 4243 45 4646 474950 51525454 56 57 智算中心基礎設施演進白皮書78其中智能算力規模達到70EFLOPS?!皷|數西算”干線光纜規劃已超過180條,骨干網互聯帶寬擴容到40T,全國算力樞紐節點時延20ms時延圈已經覆蓋全國主要城市。1.2 智算芯片
15、結構演進智算算力(智算中心)和通用算力(傳統數據中心)在服務器芯片結構上存在本質的差異。通用算力芯片架構相對單一,主要以CPU為算力核心,基于CPU和云存儲集群提供的相關云服務,通常由多個物理 服務器組成,通過網絡連接形成一個虛擬化的計算環境。智算算力則通常采用芯片異構計算架構,結合CPU、GPU、NPU、TPU等(見附錄名詞解釋)多種芯片,形成高并發的 分布式計算系統,應用于神經網絡模型的訓練及推理等。除算力芯片外,智算中心的存儲芯片也存在差異化的需求,例如更大的DRAM和NAND容量,以及存算一體技術的 應用,以解決馮諾依曼架構中的存儲墻問題等。從芯片結構演進來看,通算中心(傳統數據中心)
16、側重于通用計算任務的性價比和靈活性,而智算中心注重人工智能(AI)類型的特定計算需求及運算效率,并要求具有強大的圖形處理功能,需要制定人工智能(AI)算力硬件和存儲解決 方案,以滿足其人工智能(AI)高性能計算需求。1.3 智算用戶側訴求演進通用算力(傳統數據中心)的用戶側訴求經過長期不斷的發展和梳理,已逐漸趨于成熟和穩定,而智算中心用戶側 訴求則主要是基于算力業務開展帶來的諸多挑戰。通算中心最初的用戶訴求主要來自于一些特定的應用,諸如:電子郵件、社交媒體和員工工資發放等。后來隨著云 計算的快速發展,越來越多的關鍵應用遷移到云端,數據中心建設的規模也越來越大,通算中心對時延、帶寬、可用性 以及
17、安全性等有了更高的要求。為了滿足更高的標準和要求,通算中心通常選擇引入雙路市電,采用柴油發電機作為市電中斷后的應急電源,并配備不間斷電源UPS,從而確保系統的持續運行,隨著“碳中和、碳達峰”的目標制定,通算中心 開始對極致PUE、降低數據中心的總擁有成本進行持續要求。智算中心的用戶訴求則來自于智算訓練業務。為確保大模型訓練的效率和成本最優,智算訓練業務需要建立高度集中化的GPU集群。這是因為,基于GPU的分布式工作原理,如果需要在減少訓練時間的同時降低訓練的成本,那么,必須在更小的物理空間內部署更多的GPU服務器,從而突破分布式計算因帶寬和傳輸距離產生的運算瓶頸,提高集群算效,因此,智算訓練業
18、務需要建立高度集中化的GPU集群。100%80%60%40%20%0內容數量2020202120222023202420252026訓練推理內容制作模式專業制作PGC用戶制作UGCAI輔助用戶制作AIUGCAIGC 圖1:云端推理占比逐步提升 圖2:生成式人工智能AIGC引發范式革命數據來源:IDC,中信建投,騰訊研究院市場表現:根據PrecedenceResearch市場預測(見圖3),從2023年至2030年,全球人工智能(AI)市場有望實現 超過35%的復合增長率。圖3:人工智能(AI)全球市場規模及預測(單位:億元人民幣)+38.2%62678624118791637722598312
19、094314059686826511145542021 2022 20232024E2025E 2026E 2027E2028E2029E2030E數據來源:PrecedenceResearch智算中心國內外市場發展情況y中國:云計算、大數據以及物聯網等企業在智算中心逐步摸索和推廣應用階段y美國:憑借在云計算、大數據等先進技術上的優勢和研發能力,在智算中心技術的創新和應用方面取得顯著成就y歐洲:如英國、法國和德國,基于機器翻譯、自動駕駛等研發需求,為各類企業提供高效穩定的智算中心服務y新興市場:如馬來西亞、印度、巴西等國家在積極布局智算中心產業近年來,我國智算產業隨著算力產業的發展快速增長,政
20、府鼓勵企業進行智算中心技術研發與服務能力的提升,智算中心應用與產業化成果顯著。2024年政府工作報告中明確提出:適度超前建設數字基礎設施,加快形成全國一體化算力體系,培育算力產業生態。數據顯示:截至2023年底,我國算力總規模達到230EFLOPS,即每秒230百億億次浮點運算,智算中心基礎設施演進白皮書910圖5:不同規格服務器架構對應參數表風冷機柜y國產GPU,以華為910B為例,單機柜部署2臺風冷智算服務器,功耗約11.2kWy英偉達(NVIDIA)以HGX服務器為例,HGX是NVIDIA的高性能服務器,通常一臺機器包含8個或4個GPU,以8個H100為例,單臺服務器功耗約10.2kW,
21、若選用B200芯片,單臺服務器設計功耗14.3kW。在智算中心的 規劃中,通常會考慮到IB線纜等綜合成本,單機柜部署2臺HGX風冷智算服務器,含上IB交換機等,單機柜功耗高達24kW左右液冷機柜y國產GPU,單機柜8臺液冷智算服務器,總功耗約42.4kW。y英偉達(NVIDIA)GPU,從NVL32機柜到NVL72機柜,單機柜部署4臺服務器至9臺服務器,GPU數量從32顆到72顆,總功耗也從44kW(為推測的數據)增加到120kW。因此,單機柜功耗從通算中心(傳統數據中心)的46KW的逐漸增加至智算中心(AIDC)的2040kW,未來逐步 發展至40120kW甚至還要更高,智算中心機柜呈現高密
22、度化趨勢。這將導致智算中心在IT負載和市電引入規模上大大高于 通算中心,也意味著將消耗更多的能源,同時也對資源產生眾多新的需求,這些內容在接下來的章節中將會進行詳細描述。在功能方面,智算用戶更注重數據的智能處理和應用,提供個性化的服務;在硬件上,智算用戶注重更多地使用GPU專用芯片;在軟件上,智算用戶注重更加高效的分配計算任務;在管理和運維方面,智算用戶要求自動化程度更高,更加 注重資源的挖潛和最優利用?;谝陨现撬阒行挠脩粼诟叨燃谢腉PU集群、功能、硬件、軟件以及管理和運維方面的訴求,智算中心面臨 因此帶來的諸多變革和挑戰,這些挑戰和對應的解決方案,在接下來的章節中將會進行詳細描述。1.
23、4 機柜功耗高密度化演進如以上章節所述,智算訓練需要建立高度集中化的GPU集群,而智算中心GPU芯片的算力在不斷提升,目前H100/H200/H800等芯片TDP設計功耗已達700W(見圖4),2024年3月GTC大會最新發布的B200達1000W,GB200已達到2700kW功耗。伴隨著智算中心芯片功耗的提升,其自身的散熱功耗也在不斷攀升,智算中心中單機柜的熱密度大幅度的快速提升,因此,智算中心將面臨單機柜功耗高密化的挑戰。通常人工智能(AI)服務器(見圖5)由8卡GPU或NPU模組構成,基于上述芯片的功耗數值,可以確定每臺人工智能(AI)服務器的功耗在5kW10kW。進一步由服務器組成整體
24、機柜時,機柜的功率密度將達到40kW以上。以英偉達(NVIDIA)為例,DGX架構8卡GPU H100服務器額定功耗為10.2kW,安裝4臺服務器的風冷機柜功耗為42kW。新一代的GB200架構中,NVL36機柜功率密度為72kW,NVL72液冷機柜功率密度則為120kW。圖4:不同芯片架構對應參數表架構A100H100H200GH200B100B200Full B200GB200AmpereHopperBlackwell顯存大小80GB80GB141GB96/144GB180/192GB180/192GB192GB384GB顯存寬帶2TB/s3.35TB/s4.8TB/s4/4.9TB/s8
25、TB/s8TB/s8TB/s16TB/sFP16稠密算力(FLOPS)312T1P1P1P1.75P2.25P2.5P5PINT8稠密算力(OPS)624T2P2P2P3.5P4.5P5P10PFP8稠密算力(FLOPS)X2P2P2P3.5P4.5P5P10PFP6稠密算力(FLOPS)XXXX3.5P4.5P5P10PFP4稠密算力(FLOPS)XXXX7P9P10P20PNVLink寬帶600GB/s900GB/s900GB/s900GB/s1.8TB/s1.8TB/s1.8TB/s3.6TB/s功耗400W700W700W1000W700W1000W1200W2700W備注1個Die1
26、個Die1個Die1個Grace CPU1個H200 CPU2個Die2個Die2個Die1個Grace CPU2個Blackwell CPU架構HGX A100HGX H100HGX H200HGX B100HGX B2008 x A100 SXM8 x H100 SXM8 x H200 SXM8 x B100 SXM8 x B200 SXMAmpereHopperBlackwell顯存大小640GB1.1TB1.1TB1.44/1.5TB1.44/1.5TB顯存寬帶8 x 2TB/s8 x3.35TB/s8 x 4.8TB/s8 x 8TB/s8 x 8TB/sFP16稠密算力(FLOPS
27、)2.4P8P8P14P18PINT8稠密算力(OPS)4.8P16P16P28P36PFP8稠密算力(FLOPS)X16P16P28P36PFP6稠密算力(FLOPS)XXX28P36PFP4稠密算力(FLOPS)XXX56P72PGPU-to-GPU寬帶600GB/s900GB/s900GB/s1.8TB/s1.8TB/sNVLink寬帶4.8TB/s7.2TB/s7.2TB/s14.4TB/s14.4TB/s以太網網絡200Gb/s400Gb/s+200Gb/s400Gb/s+200Gb/s2 x 400Gb/s2 x 400Gb/sIB網絡8 x 200Gb/s8 x 400Gb/s8
28、 x 400Gb/s8 x 400Gb/s8 x 400Gb/sGPU功耗3.2kW5.6kW5.6kW5.6kW8kW總功耗6.5kW10.2kW10.2kW10.2kW14.3kW備注ConnectX-6 NICConnectX-7 NICConnectX-7 NICBlueField-3 DPUConnectX-7 NICBlueField-3 DPUConnectX-7 NIC智算中心基礎設施演進白皮書11121.5 靜態負載向動態負載演進通算中心(傳統數據中心)上線運行以后,負載相對比較平穩,很少有極端情況負載波峰或谷底出現,而智算中心的 負載運行特點是不斷進行訓練任務來進行高速運算
29、,當它開始訓練任務時,負載將會迅速上升到比較高的功耗值,甚至會達到負載的極限值,而等到這次訓練任務結束以后,它的負載又會迅速下降,降到最低值。由此可以得出結論,智算中心的負載波動情況非常大,呈現出新的動態負載特性(見圖6)。新的動態負載特性主要表現為周期性、大幅度、并發性、瞬時沖擊等,這種特性對于智算中心的配電和制冷都是一個很大的挑戰。y周期性:智算負載呈現周期性波動,波動頻率從分鐘級到小時級不等y大幅度:智算負載功耗波動幅度可能超過額定功耗的80%,即智算中心的負載功耗可能從10%快速突變至80%,甚至100%y并發性:人工智能(AI)大模型具有并發運算的特點,故整體集群性總功耗呈現出動態快
30、速變化y瞬時沖擊:某些算力模型可能出現400us50ms左右的負載沖擊,幅度可能達到額定負載功耗的150%,它取決于POD運算模型及軟件算法圖6:典型AI算力集群負載動態功耗曲線圖(kW)16001400120010008006004002000 t(s)Load profileStep to 150%load10%idle load100%base line load30 sec period綜上所述,智算中心的演進從芯片結構演進、用戶側訴求演進、高密度化演進以及負載特性演進,都將對通算中心(傳統數據中心)的基礎設施(電氣、制冷等)帶來顛覆性的變革,對智算中心的基礎設施(電氣、制冷等)解決方
31、案也 提出新的挑戰。接下來的章節,將分別從選址規劃、電氣架構和制冷系統架構等架構維度,探討如何應對智算中心的新挑戰以及演進趨勢。二.智算中心選址與規劃通算中心(傳統數據中心)的選址與規劃經過多年的發展已比較完善、成熟和標準化,智算中心選址與規劃和通算 中心相比有哪些特殊差異?本章節將從智算中心選址、建筑形式、建筑布局、房間功能、裝飾裝修以及已有建筑的改造 這幾個方面進行考量。2.1 智算中心選址通算中心(傳統數據中心)的選址通常選在經濟發達的城市及周邊區域,靠近終端客戶,可以有效降低網絡時延。近年來,在國內政策的不斷調節下,逐漸推動數據中心選址到氣候更加適宜、土地更加充沛且電價更加便宜的地區。
32、這是由于數據中心的選址與電力成本之間緊密相關,東部核心城市火電的發電和傳輸成本較高,導致總體能源成本 也相對較高,而西部偏遠地區由于發電量遠遠大于用電量,且可再生能源富集,電價相對較低,氣候條件自然冷源更豐富且土地更充足。智算中心的選址會趨向于靠近終端客戶的核心城市還是資源豐富的偏遠地區?近年來,人們發現電網傳輸電能的成本要比傳輸信息的成本還要高,運電不如運信息更高效,因此,大型數據中心 選址更趨向于在電能充沛且價低的內蒙、寧夏、甘肅等西部地區。目前一些經濟發達的核心城市由于產業密集、科技創新活躍,對智算中心的需求較為旺盛。然而,這些地區由于存在嚴格的能耗指標,導致算力部署面臨困難。因此,在智
33、算中心選址初期,考慮到交通便利、人才招聘、運維便捷性等因素,通常選擇靠近核心城市或其周邊的 區域更有利。然而,隨著智算中心電力需求的不斷增長,電力供應壓力逐漸加大,同時也為了逐步響應國家政策,智算中心的選址將會轉向偏遠但可再生能源富集的地區。這些偏遠地區在能源、電價、氣候和政策方面的優勢,可以降低智算中心的建設和運營成本,提高智算中心的市場競爭力。另外,智算中心選址的決策,并非只關注電價,還需全面考量整體資源設施(如水資源是否充沛)、政策環境、市場 需求等多重因素,以尋找經濟活動豐富與能源費用的平衡點。同時,還要關注人才資源、運維便捷性、團隊成熟度等關鍵因素,以確保智算中心能夠順利落地并發揮最
34、大效益。特別對于服務科研、教育、醫療等公共領域的智算中心,在選址時還需特別關注周邊環境要求和建造要求,以確保其能夠安全、穩定地服務于社會。對于分布式智算中心(通常用于推理),因其需要通過網絡進行緊密協同和數據傳輸,所以網絡資源也是其選址考量的主要因素之一。智算中心基礎設施演進白皮書1314綜上所述,智算中心的選址,首先優先考慮新能源資源豐富、能源利用條件良好、網絡資源良好,并接近核心城市或其周邊的區域的地區,其次綜合考量整體資源設施、政策環境、市場需求等多重因素,最后核算經濟與能源費用的平衡點。2.2 智算中心建筑形式近年來,相對于傳統的多層建筑,出現了一種大平層建筑形式,這種建筑方式可以通過
35、預制模塊化實現快速交付,并充分利用自然冷源提高制冷效率。典型的通算中心(傳統數據中心)為云廠商和互聯網公司規劃的云數據中心,這些通算中心重點關注交付周期、運營成本和可擴展性,因此大平層建筑方式在一些中大型數據中心園區中得以廣泛應用。智算中心的建筑形式優先選用大平層還是多層建筑呢?智算中心在規劃時需要更多的考慮網絡組網傳輸的要求,對于面向訓練業務的智算中心,對網絡方面有著更高的 要求,必須充分考慮支撐網絡。和通算中心(傳統數據中心)相比,智算中心的網絡帶寬收斂比低至1:1,存在大量的異構技術核心,東西向通信流量更大,對抖動、可用性、高吞吐、低時延數據訪問的要求更高。盡管通信的時延主要來自于轉發過
36、程,與物理距離的關聯度相對較低,但因為大平層建筑形式的容積率低,設備布置相對分散,可能導致不同區域內的設備間通信時延受到物理距離的影響,造成無法滿足智算中心對高速網絡的要求。同樣,基于智算中心網絡組網傳輸的要求,智算中心在集群規劃時,需要在智算服務器和交換機之間采用盡可能短的傳輸距離,此需求可在多層建筑中通過相鄰樓層間豎向打通的方式得以滿足,因此,多層建筑可以更好地滿足網絡帶寬、抖動、可用性、高吞吐、低時延數據訪問的高標準要求,更適合大規模智算中心集群的部署。2.3 智算中心建筑布局通算中心(傳統數據中心)一直追求通過盡可能的降低制冷用電的CLF(Cooling Load Factor),進而
37、提高能源效率PUE(Power Usage Effectiveness),從而提高可用的IT容量。通??赏ㄟ^改善房間布局來提升場地利用率和降低配電損耗,實現可以安裝更多的服務器。而智算中心則追求高算力和高算效,通過優化網絡架構和提升服務器ITUE(IT設備利用效率)和ITEE(IT設備能效)。如何通過優化建筑布局從而提高智算中心算力和算效?優化建筑布局對提高智算中心算力和算效有很大的作用。首先,集群組網及傳輸的布局需更加緊湊。如以上章節所述,智算中心對網絡組網和傳輸有很高的要求,因此智算 中心將打破通算中心(傳統數據中心)的建筑層高、承重、管線穿樓層等限制,從而做到服務器集群組網及傳輸的布局
38、更加緊湊。另外,當采取不同路由回路以保障網絡彈性時,需要注意不同路由的距離和物理隔離,比如穿越樓板實現垂直網絡規劃和部署,目前已成為智算中心應用的趨勢。當然,這樣做法的同時必須滿足當地消防要求,并采取相應的漏水 封堵措施。另外,在層高和承重方面,智算中心也提出了相應的提升要求。層高方面,采用風冷或風液混合制冷方案的智算中心,由于智算中心的功率密度更高,單位空間內需要部署更多的 管線,因此對層高提出更高要求,通常智算中心的層高普遍在5.06.5米。承重方面,TIA-942-C標準對Rated-3和Rated-4級對數據中心樓層活載荷的要求是不低于12KN/M,而對于智算 中心來說,對樓層活載荷的
39、要求可能會更高,例如為部署液冷,樓層活載荷的要求達到18KN/M甚至更高。2.4 智算中心房間功能需求通算中心(傳統數據中心)對房間功能需求,一般會設置主機房、輔助區、支持區、行政管理區等功能空間,并考慮 員工及客戶派駐人員的休息、餐飲住宿、辦公和會議室等需求。而對于智算中心,則更注重功率密度、制冷需求、配電支持、網絡配置、物理隔離和多功能需求等方面的功能規劃。智算中心在房間功能劃分上有哪些特殊需求?如以上章節所述,智算中心機柜呈現高密度化趨勢,因此智算中心的制冷和配電支持區域的需求也會相應增大,同樣,輔助區、支持區、行政管理區、運維操作和倉庫等區域的面積根據需求相應的增加。因此,智算中心,特
40、別是面向訓練型業務類型的智算中心,相同的服務器數量需要更多的網絡交換機和直連銅纜(DAC)以及有源光纜(AOC),因此,在規劃設備工藝時,應充分考慮機柜的寬度、配線架以及光纜、電纜走線架的要求,并以此為依據對房間功能進行劃分。另外,智算中心應預留合理儲存備品備件的房間,規劃出ICT設備的安裝和調試的空間,保證房間內環境滿足儲存和測試正常運行的要求。同時,房間規劃上可能會設置更多的功能區,以展示智算中心的技術先進性和創新成果,比如互動體驗區、展示區和休息區等。2.5 智算中心裝飾裝修需求智算中心在裝修的維護結構,節能措施,地板高度,裝修材料,防止水溢滲透等方面面臨新的挑戰。隨著通算中心 向著智算
41、中心的演進,智算中心的裝飾裝修風格也在不斷演變,并與其功能和特性更加緊密相關。智算中心基礎設施演進白皮書1516智算中心的裝飾裝修系統,除為滿足智算中心適當的通風、散熱和防塵而設計的功能需求外,更加注重強化結構安全性、選用防水耐腐蝕材料、優化安裝維護便利性,以及更加注重環保節能。以典型的智算中心風液混合方案為例,它在原有精密空調的基礎上,增加服務器內冷板、液體制冷劑、分液管、液冷 分配單元(CDU)、泵、過濾和凈化裝置、控制系統等,所以在風液混合方案內,為保障地板下液冷管路的維護,地板高度需根據管路和泵閥尺寸確定,建議不低于1m,并設置漏液檢測和壓力感應裝置。當然,管路和泵閥也可以放在機柜通道
42、 頂部,降低地板高度要求,也更有利于維護檢修,同時避免影響下送風系統的通風效果。另外,在智算中心裝修過程中,需要面對復雜的管線布局,做好安全防護措施,嚴格控制環境參數,以及采用節能 材料和系統,滿足綠色環保標準,減少對環境的負面影響,降低建造和裝修材料的碳足跡。2.6 已有建筑改造為智算中心通算中心(傳統數據中心)向智算中心的演進,除新建的方式外,還可通過對原有建筑進行改造的方式升級為智算 中心。如何改造已有的通算建筑以便適用于智算中心,是一個極具意義的課題,需根據業務系統的規模、現有土地、建筑條件、交付周期及商務條件等多種因素采取相應策略。首先,改造前要充分考慮,改造后投入運營可能因噪音、制
43、冷等影響因素帶來的挑戰。面向訓練型業務負載改造時,因智算服務器(風冷)風扇速度的提高,噪音將成為影響運維人員工作環境的因素之一。因為任務加載時噪音可能超過 90分貝,現場人員可能面臨長期在高噪因工況下的職業傷害風險,改造時宜考慮墻壁安裝吸音材料進行部分降噪,并在 運營后為運維人員配備耳塞等裝備。其次,對于面向推理業務負載的智算中心,由于其規模相對較小,則可以考慮對部署在已有的數據中心內改造,或對邊緣數據中心改造。另外,改造方案還需要考慮通過加固和擴建等方式以滿足智算中心承重的要求。在改造過程中,冷板液冷系統的改動比浸沒式液冷的改動較小。浸沒液冷系統的加固改造成本較高,加固成本甚至 可能會超過新
44、建成本??偟膩碚f,智算中心的選址和規劃是一個多方面考量的過程,需要精心設計策劃,以確保智算中心的高效交付使用。上述章節內容中,建筑形式和布局是否便于維護和擴展,房間功能是否按技術操作需求劃分明確,裝修是否兼顧安全和實用性,對現有建筑的改造是否可以提升結構和系統以滿足智算中心的特定要求,這些綜合考量確保智算中心能夠 適應技術更新,實現長期的穩定運行和可持續發展。三.智算中心電氣鏈路架構挑戰及演進趨勢接下來,本章節將從系統層面深入探討智算中心(AIDC)與通算中心(傳統數據中心)在電力系統架構方面的差異。隨著人工智能(AI)技術對計算資源和電力消耗的需求不斷增長,智算中心對電力系統的穩定性、可靠性
45、和效率提出了更高的要求。智算中心正顛覆性的改變通算中心的電力系統架構,這些影響使得智算中心很難再遵循通算中心之前總結的規律和標準,特別對于超前建設的人工智能(AI)數字基礎設施提出更高的挑戰。3.1 智算中心電氣鏈路的挑戰3.1.1 電力能源接入挑戰在通算中心時代(傳統數據中心),以某大廠 一棟數據機房樓為例,約2萬臺服務器,1020多臺機柜,單機柜功耗在12kW以上,組成IT總容量約12.9MW的一棟標準數據機房樓,其電力容量大概在20MVA左右,通常由市政公共變電站 引來四路10kV電源,多數情況下會分期建設,因此對區域電網的整體壓力不是很大。在智算中心時代,以英偉達(NVIDIA)H10
46、0的DGX架構8卡GPU服務器為例,部署一個1024臺服務器的萬卡算力 集群,單機柜同樣按12kW考慮,加上制冷等輔助用電,需要1520MVA的電力容量。那么一棟10萬卡的算力集群建筑,單棟建筑的用電規模則達到100兆瓦以上,因此,過去市政公共變電站的10kV電源輸出間隔很難滿足百兆瓦以上所需 線路的數量,并且多路10kV長距離輸電線路的經濟性不高,需要自建110kV或接入更高電壓等級的電網。隨著智算芯片密度的持續增加,園區的用電規??梢赃_到200MW,甚至攀升至300500MW的水平,因此需要接入220kV甚至更高電壓等級的電網,這對區域電網的壓力呈指數級上升。因此,相比于通算中心,智算中心
47、的拓展瓶頸已經從機柜數量的物理空間問題,轉變為能源供給問題,智算中心園區的算力容量上限不再是芯片算力的上限,而是發電廠和電網容量的上限。在滿足算力容量需求下,如何匹配電力能源接入,并實現綠色發展,成為智算中心面臨的重大挑戰。為解決這樣的 問題,與智算中心基礎設施需求配套的電力能源系統應運而生。3.1.2 配電與IT機房的面積比挑戰隨著智算中心機柜呈現高密度化趨勢,給數據機房的供配電整體占地空間帶來巨大挑戰。根據通算中心(傳統數據中心)的規劃建設經驗,單機柜功耗在2.5kW-5kW的情況下,供配電系統占地面積通常為IT智算中心基礎設施演進白皮書1718設備占地面積的1/4左右;當單機柜功耗提升到
48、8kW左右時,供配電系統占地面積將達到IT設備占地面積的1/2左右;當單機柜密度提升到16kW,供配電系統占地面積將與IT設備占地面積幾乎相同。因此,隨著智算中心的單機柜功率密度的快速提升,變配電室面積必然隨之大幅度增加,智算中心的建設方案需要 考慮供電系統更多的占地面積。3.1.3 電能利用率挑戰在通算中心(傳統數據中心)時代,為追求數據中心運營環境的極高可用性,2N配電架構是最常見的供電設計方案,這種架構以其建設簡單、維護便捷的優勢得到業內廣泛認可,占據中國數據中心整體規劃設計的主流。但隨著智算中心對算力需求的不斷提升,以及對成本效益和空間效率的追求,供電效率低成為傳統2N架構面臨的 主要
49、問題,因此,簡化配電架構設計以提升系統利用率、降低占地面積、最大程度地提升算力成為智算中心一大挑戰。3.1.4 能源利用效率(PUE)挑戰在智算中心運行著大量高效GPU服務器和存儲設備,這些IT設備自身需要大量的電力來支持其運行,此外,為保持 這些IT設備的穩定運行和數據處理的高效性,智算中心還需要匹配制冷系統,這些配套的制冷系統同樣需要增加智算中心的能源消耗。龐大的算力規模部署,意味著消耗更多的能源,智算中心也正在成為中國電力系統的最大變量之一。作為能源消耗 大戶,智算中心的能源利用效率(PUE)降低需求尤為迫切。能源利用效率(PUE)的降低意味著用更少的電力完成更多的任務,也意味著相同的規
50、模,可以用更少的能源實現,同時也滿足節能降碳需求。因此,隨著智算中心規模的不斷提升,對智算中心能源利用效率(PUE)將會提出更高的要求。3.1.5 服務器電源形式挑戰對數據中心行業而言,服務器電源是數據中心供電系統建設的核心。在通算中心(傳統數據中心)時代,通用CPU服務器電源功耗較小,通常在300700瓦之間,常見電源冗余技術為1+1冗余形式。隨著人工智能(AI)算力GPU芯片功耗的提升,先進人工智能(AI)服務器功耗持續升級。以英偉達(NVIDIA)服務器的電源結構為例,英偉達(NVIDIA)DGXH100服務器,8U機架安裝,輸入電壓:200-240V交流電,電源規格:最大10.2kW,
51、200-240V3300W,16A,50-60Hz。DGXH100服務器電源架構是N+2的電源冗余的架構(見圖7),正常需要配置6個IECC20接口的開關電源。如果采用傳統的末端配電架構,機柜內配置左右共兩個PDU電源,左右PDU電源分別接三個開關電源,當其中一路PDU電源中斷,服務器僅剩余三個電源工作,DGXH100服務器則會宕機。因此,末端配電需要配置三條PDU電源,全鏈路三路獨立電源是較為合理和推薦的方案。另外,不同廠家的算力服務器電源存在的兼容性問題,也是對智算中心基礎設施建設提出的挑戰。圖7:N+2電源配置示意圖3.1.6 智算負載分級供電的挑戰為確保通算中心(傳統數據中心)負載的連
52、續性供電,通算中心通常采用來自兩個不同變電站的兩路市電作為電源,采用柴油發電機作為本項目的備用電源。當某路市電故障,另一路市電能迅速接入,當兩路市電完全中斷時,柴油發電機自動啟動供電,同時配置不間斷電源UPS和電池,確保柴發啟動前的電力系統不會中斷。和通算中心不同,智算中心的供電連續性要求已發生變化,并不是所有負載都需要不間斷供電。智算中心的推理業務負載屬于關鍵型負載,如推理、存儲與云服務等仍需配置后備電源,而訓練業務則屬于可間斷負載。當發生故障或斷電,訓練業務負載將模型保存為“檢查點”,電源恢復后可以從中斷點繼續運行,因此,智算中心的訓練業務負載對業務連續性,容錯性和可用性的訴求也發生改變。
53、相較于昂貴的服務器成本,平衡不間斷電源供電的成本與服務器因斷電損壞的 潛在風險是智算中心面臨的新挑戰。3.1.7 末端配電方式挑戰隨著智算集群規模增長,單機柜容量已攀升至上百千瓦。2024年3月英偉達(NVIDIA)發布DGXNVL72機柜,由36塊GB200AI加速卡(由72塊GPU和32塊CPU)組成,使得單機柜功耗達到120kW。智算中心基礎設施演進白皮書1920更高的機柜功耗意味著更大容量的電力需求,末端配電設施如何支撐大容量機柜供電?這些變化將對末端配電的 物理基礎設施提出新的挑戰。3.1.8 負載動態沖擊挑戰如以上所述,智算中心負載特性呈現出周期性、大幅度、并發性、瞬時沖擊等動態負
54、載特性,智算中心負載的這些動態特性將對智算中心供配電鏈路,如油機、不間斷電源、服務電源等關鍵環節提出新的挑戰。智算中心負載特性分析詳見“1.5 靜態負載向動態負載演進”章節。3.1.9 環境溫度突變挑戰在通算時代(傳統數據中心),由于其服務器密度較低,散熱需求相對較小,因此制冷系統通??梢暂^為輕松地維持穩定的溫度環境,因此溫度變化速率相對較慢,電氣設備在這樣的環境溫度變化下能夠保持其性能穩定。在智算中心時代,由于服務器負載功率密度高,且呈現出新的動態負載特性,當智算服務器高負載運行且動態快速 增加時,會快速產生大量的熱量,因此其散熱需求更大,制冷系統需要快速響應,但是制冷系統需要一定的反應時間
55、,并且制冷系統很難在短時內達到其效率極限,這將導致周圍環境溫度快速上升。緊接著,制冷系統為維持溫度穩定,會 全功率送冷,這又會導致周圍環境溫度快速下降。這種環境溫度的快速變化會給電氣元器件帶來更大的熱應力,可能 導致電子元器件的性能發生明顯變化,影響設備的絕緣性能,降低電子元器件的可靠性,比如降低器件的靈敏度、需要 降容使用等,增加故障事件發生的概率。3.2 智算中心供配電系統的演進趨勢 “智算電能管理鏈”如以上章節所述,相對于通算中心(傳統數據中心),智算中心在電氣整體鏈路方面面臨著一系列挑戰,包括單機柜 功耗的顯著提升、電力能源的接入問題、配電與IT機房的面積比、架構電能利用率、能效、智算
56、負載分級、末端配電方式、負載動態沖擊以及環境溫度突變等挑戰。應對這些挑戰,僅在供配電系統單一環節進行局部優化難以解決,需要智算中心電氣系統在全鏈路進行協同演進,構筑“智算電能管理鏈”。3.2.1 電力能源系統向“算電協同”演進面對電力能源接入的挑戰,智算中心的演進趨勢是向“算電協同”演進。相較于傳統數據中心,智算中心在能源消耗方面呈現出顯著的量級差異,這使得其更加注重可持續發展。具體策略 比如,智算中心的選址優先考慮新能源資源豐富、能源利用條件良好的地區。統籌智算中心發展需求和新能源資源稟賦,科學整合源荷儲資源,開展算力、電力基礎設施協同規劃布局。探索新能源就近供電、聚合交易、就地消納的“綠電
57、聚合 供應”模式。整合調節資源,提升算力與電力協同運行,提高數據中心綠電占比,降低電網保障容量需求,探索光熱發電與風電、光伏發電聯營的綠電穩定供應模式。智算中心有較為明顯的極限算力工況和平時算力工況,此運行特點可以保證智算中心充分利用綠電儲能技術。當智算中心處在極限算力工況時,市電系統與綠電系統可以并行為其提供電力資源。當智算中心處在平時算力工況時,可以優選綠電儲能系統為計算節點設備提供電力資源。但是對于新能源發電占比較高的電網,其穩定性易受新能源波動性的影響,市電的不穩定成為潛在風險點。因此,擁有自有可控的本地電源對于園區來說更為可靠。除依賴傳統的發電機和不間斷電源UPS、電池,還應有效利用
58、局部區域內的各類可控能源,如小型水力發電、小型核反應堆(SMR)、氫燃料電池等,形成綜合能源供應的資源池,不僅可提升 備用電源容量的利用效率,更能確保電能足質足量供應。新能源接入條件不佳的區域,在政策允許的情況下,智算中心可以與其他能源用戶或能源供應商進行綠電交易、綠證交易、碳交易等能源交易和共享,既能以市場化手段支撐自身低碳轉型,又能實現能源的互利共贏和最大化利用。3.2.2 簡化供電系統架構演進如以上章節所述,隨著智算中心功率密度的快速提升,配電室面積的占比也將顯著增加。因此可以想象,在一個多層建筑中,智算中心將會形成類似金字塔的結構,底層配置大量配電設備,上層相對稀疏地擺放少量高性能服務
59、器機柜。供電設備占地面積大,供電效率低是通算中心(傳統數據中心)2N架構面臨的問題,因此智算中心需要簡化配電架構設計以提升系統利用率,降低配電設備的占地面積,DR(DistributedRedundancy)/RR(ReserveRedundancy)/N+1 簡化架構將得到進一步的推廣和應用。簡化架構的本質,是在算力一定的前提下減少市電容量需求,或者在市電容量一定的前提下,最大程度地提升算力。與傳統2N架構相比,DR架構(見圖8)和RR架構(見圖9),在簡化架構供電系統的利用率明顯提升,DR/RR架構的建設成本和運行成本也比2N架構降低10%,配電設備數量和占地空間明顯減少。智算中心基礎設施
60、演進白皮書2122 圖8:DR供電系統架構示意圖 圖9:RR供電系統架構示意圖DR架構:屬于“手拉手”結構,每臺變壓器10kV進線均采用雙電源系統切換,組成三套獨立的系統,每套系統都可以作為備份的冗余,末端的負載,由不間斷電源UPS交叉供電,變壓器負載率在66%以下,任何一套系統的故障都不影響 系統的運行,可用性能99.998%。DR架構在海外數據中心使用較多,國內較少使用。DR架構中配電設備使用減少接近25%,電源設備成本低。但由于設備和電纜路由難以實現物理隔離,發生故障時負載分別轉移到其他電源,故障定位時間較長。RR架構:有一套固定的設備作為冗余備用系統,這套系統正常是不工作的。主用系統長
61、期滿載,備用系統處于長期 空載,當任何一套主用系統斷電或維修時,它所承擔的負載由備用系統帶載。RR架構屬于N+1配置,建設成本低,可用性99.995%,可靠性滿足基本要求。設備和電纜路由可以實現物理隔離,但系統架構復雜、運維難度偏高。RR架構在三大通信運營商的通信機房較多使用,而數據中心使用較少。RR架構可以使智算中心的供電系統的利用率從50%提升到N/(N+1),同時將占地面積減少(N-1)/2N。實際上,只要在規劃設計階段做好負載分配,無論DR架構還是RR架構,其可維護性和可用性都是比較高的,其可用性均在99.99%以上。以傳統2N架構為基準,單位面積下,DR架構算力提升33%,RR架構算
62、力提升50%。如果選用一些非存儲和通信的算力設備可能會進一步降低冗余度,這種情況下,采用備電模塊級的N+1架構來替代DR/RR(雙路冗余或完全冗余)架構,甚至取消冗余的組件和電池,這樣簡化配電架構將助力智算中心在有限的空間內 實現更大的算力。例如,如果采用英偉達(NVIDIA)DGXH100服務器,其電源架構是N+2的電源冗余的架構,基于服務器這樣的 架構,DR架構更適用于DGXH100這樣的服務器電源結構。自建項目:則采用DR/RR/N+1簡化架構成本更低、效率更高,占用空間更小,并且通過減少冗余組件的數量和優化 電力分配,減少非必要組件宕機風險。第三方租賃項目:簡化配電架構可能影響對潛在租
63、戶的吸引力,需要在簡化配電架構的成本效益與吸引更多租戶的 商業模式之間進行權衡。此外,鋰電池替代鉛酸電池和一體化電源方案也是智算中心集成度提升的一個明顯趨勢,以應對智算中心供配電面積占比過大的挑戰。綜上所述,智算中心的供電架構將由2N向混合簡化架構演進,針對不同負載、不同場景和不同客戶選擇不同架構進行適配(見圖10)。10kV ATS變壓器UPSIT負載10kV ATS變壓器UPSIT負載10kV ATS變壓器UPSIT負載市電電源10kV配電備用電源市電電源10kV配電IT負載10kV ATS變壓器UPSIT負載10kV ATS變壓器UPSIT負載10kV ATS變壓器UPSIT負載市電電源
64、10kV配電備用電源市電電源10kV配電智算中心基礎設施演進白皮書23241200mm600mm10kV ATS變壓器變壓器UPSUPSIT負載IT負載IT負載市電電源A3市電電源A3市電電源A2市電電源A2市電電源A1市電電源A110kV配電10kV配電10kV配電10kV配電10kV配電10kV配電動力輔助負載變壓器UPS變壓器UPS變壓器UPS智算中心 包間1圖10:智算中心2N+3DR混合供電架構示意圖3.2.3 智算負載分級供電演進如以上章節所述,智算中心的訓練業務負載屬于可間斷負載,因此,智算中心的訓練業務負載對業務連續性、容錯性和可用性的訴求發生改變,并不是所有負載都需要不間斷和
65、柴發后備電源。相較于昂貴的服務器成本,智算中心需要平衡后備電源供電的成本與服務器因斷電損壞的潛在風險。智算中心在選擇備電模型時,需要根據自身的風險承受能力進行決策,尤其是第三方租賃的智算中心,提供菜單式的分級供電可用性的服務等級協議(SLA)可能是一個可以平衡成本和風險的途徑。3.2.4 預制電力模組演進采用預制電力模組將中壓柜、變壓器、不間斷電源UPS、高壓直流(HVDC)(見附錄名詞解釋)、饋電等預制集成 交付,可減少電力室面積高達40%,交付周期縮短70%,實現更高的利用率、可擴展性和更快的部署,是智算中心電氣鏈路演進的重要趨勢之一。詳見“5.2 電氣預制模塊化趨勢”。3.2.5 UPS
66、向MW級,超高效及高密化演進近年來,國家陸續發布UPS相關政策,引導UPS技術發展,2022年工信部發布的國家工業和信息化領域節能 技術裝備推薦目錄(2022年版)便將大功率模塊化UPS作為數據中心機房整體模塊化解決方案的重要產品之一。2024年5月,工信部發布國家工業和信息化領域節能降碳技術裝備推薦目錄(2024年版),其中數據中心節能降碳 技術提到重點發展高頻、大功率、模塊化UPS技術。目前通算中心(傳統數據中心)主流UPS容量為400kVA/500kVA/600kVA,智算中心向MW級,超高效及高密化演進。由于智算數據中心IT系統功率快速提升,現有2500kVA變壓器在占地及系統容量上不
67、具備優勢,變壓器容量出現 向3150kVA及更大容量變化趨勢,考慮到UPS并機臺數限制,現有600kVA UPS主機在適配更大并機系統容量上面臨 挑戰。UPS單機容量由600kVA提升至1MVA及1.2MVA,減少并機臺數,同時可進一步節省系統占地及后期運維成本,成為演進的趨勢。同時,UPS需要持續提升功率密度,減小設備占地,以改善供配電設備輔助占比。以600kVA UPS為例,業界常規占地寬度一邊為1200mm,但業界已有頭部廠商通過架構及器件創新,將寬度縮減至600mm,功率密度提升100%,占地面積下降50%。(見圖11)圖11:600kVA UPS功率密度提升UPS高密化的基礎是提升U
68、PS能效,通過能效提升減小UPS發熱量來應對UPS高密化帶來的發熱挑戰,隨著大 功率SIC器件的不斷成熟及成本下降,UPS將采用SIC器件替代傳統開關器件(見圖12),運行效率可提升至97.5%以上,相對于傳統96%效率UPS,UPS單臺主機發熱量可降低37.5%以上。智算中心基礎設施演進白皮書2526圖12:采用SIC器件的超高效UPS典型效率曲線(效率)98.00%97.50%97.00%96.50%96.00%95.50%95.84%97.30%96.67%97.24%0%20%40%60%80%100%120%(負載率)3.2.6 不間斷電源系統儲備一體演進.鋰進鉛退目前通算中心(傳統
69、數據中心)中鉛酸電池仍然是主流,但隨著智算中心電力的面積占比不斷增加,與不間斷電源 配套的電池室面積也在相應同步增加,有必要對電池選型進一步研判。2023年12月,中國建筑節能協會正式發布數據中心鋰離子電池室設計標準,為鋰電池在數據中心行業的規范化和規?;瘧玫於ɑA。鋰電池作為一種節能環保的電池技術,憑借占地面積小、能量密度高、承重要求低、循環壽命長、維護成本低等顯著 優勢,將逐步取代鉛酸電池,成為智算中心的首選。行業內UPS頭部廠商已全面兼容鋰電池儲能技術,利用數據中心UPS滿載15分鐘備電時間,以及UPS備電容量的 實際冗余進行相應的削峰填谷,無需改變供電結構,也不會額外增加制冷系統和E
70、MS系統,在節能模式下效率高達99%,進一步降低能耗,顯著提升了運營效率。.儲備一體對于智算負載動態特性的調優適配UPS主機與鋰電的儲備融合,對于功率流的精準管理,將大幅降低GPU集群負載動態波動對于油機及電網的影響。在海外某大型智算中心的實際測試中,可以看到當UPS前端轉為油機供電時,由于負載的大幅持續波動,油機的 輸出端出現了明顯的電壓幅值及頻率波動。(見圖13)圖13:市電與油機兩種模式下UPS帶智算負載的測試波形 市電模式 油機模式借助鋰電池的高循環壽命,并結合UPS儲備功能,通過精確的控制市電與電池的功率配比,實現UPS輸入功率的 緩升緩降,減小智算負載動態特性對于油機的沖擊,提升系
71、統運行可靠性。3.2.7 末端電壓等級提升及全直流系統演進隨著智算中心單機柜功率密度的提升,供電系統優化的關注點將轉向更高電壓等級,以解決導體截面積過大,更多的材料和更大的體積的問題。同時,電壓等級的升高也會帶來遠距離輸電的優勢,這將會引發數據中心設計架構上顛覆性的變革。通算中心(傳統數據中心)在供電系統選擇上,常見兩種方案:AC400V不間斷電源(UPS)和DC240V高壓直流(HVDC)。這兩項技術經過多年的市場考驗,已證明其技術可行性,市場接受度較高,產業鏈較為成熟。但對于高密度、高效率的智算中心而言,由于智算服務器之間連接的光纜已經占用過多機柜的走線空間,探索更高電壓的應用可以減少電源
72、線占用的空間,帶來潛在的性能提升和成本節約,這也更符合可持續發展的要求。再考慮到未來智算中心中直流設備(光伏、儲能、電池、IT服務器、直流充電樁、直流照明和空調設備等)的比重將 越來越大,有必要建立一套兼容的全直流供電架構,這將有助于數據中心及周邊新能源、儲能的廣泛接入,并支持負載側的智能化調控。97.52%智算中心基礎設施演進白皮書2728電壓的提升確實是一個趨勢,但同時也應該看到電壓提升帶來的一些風險,如單體產品的可靠性降低、短路和弧閃的風險增加,以及人身操作安全等問題。在選擇供電方案時要綜合考慮這些因素,并確保產業鏈整合、標準制定以及市場 接受度等方面的完善。此外,未來可能會向10kV交
73、流轉低壓直流的全直流供電模式演進。全直流的供電模式是一種全新的供電架構,是 供電系統將來發展的一個方向,可以減少交直流變換的環節,因此供電效率將會更高。這種全直流供電架構將10kV交流輸入轉換為750V、400V、240V直流,750V直流用于接入分布式電源和儲能以及 直流空調室外機組用電,400V直流為空調室內機組等直流設備供電,240V直流為照明、IT服務器等直流負載供電,實現全直流供電架構(見圖14)。這種全直流供電模式可以很好地適配新能源供電,光伏、儲能、充電樁等可以快速接入全直流系統,減少交直流變換的環節,提升供電效率。圖14:全直流供電架構示意圖MV GridSSTPower sh
74、elfEnergy StorageSolar PowerWind PowerMV Generators10kVac48Vdc800VdcATSGridMV400800VdcBatteryDC CoolingAC load1000/Vdc350900VdcSolarFuel cell99%380Vac750VdcHVDC 97%10kVacDC/DC(MPPT)DC/DCDC/DCDC/ACDC/DCH20248VdcPSU shelf0.8Vdc98%97%BUSServer3.2.8 SST的前沿應用探索隨著數據中心節能減碳力度的加大,尤其是“零碳”、“近零排放”等發展趨勢下,新能源將成為數
75、據中心未來電力 能源的基礎。新能源是直流供電系統,其具有控制快速靈活、系統效率高、供電容量大、線路損耗小、電能質量高、具有 無功補償能力等優點,更適合于分布式電源、儲能裝置和直流負載的靈活接入,是數據中心電源系統發展的重要方向。為解決智算中心的新能源供給問題,提升空間利用效率,經過多年技術發展,高壓直流(HVDC)、巴拿馬電源以及 固態變壓器(SST)(見附錄名詞解釋)等10kV中壓直流電源解決方案不斷涌現固態變壓器(SST)也稱為“能源路由器”,在基于直流電網區域架構中,適用于微電網的直流用電場景。固態變壓器(SST)不僅在中壓之間具有高頻隔離的直流或交流接口,可實現局部自治的單向或雙向潮流
76、,還具有電能管理、能源 管理以及故障管理的能力,支持不同直流發電單元、儲能系統和用電單元之間、不同用電電壓之間的電力交互。直流環節的固態變壓器(SST)結構(見圖15),不僅可以在原方接入直流設備,如儲能電池、光伏電站等,還能同時在副方為直流、交流設備提供穩定的電能供給。利用這一特性,可解決新能源引入后智算中心供電架構面臨的諸多問題。圖15:直流環節固態變壓器(SST)圖需要特別說明的是,固態變壓器(SST)由于存在電壓制式及拓撲器件成熟度問題,在可靠性,可維護性及使用規范 方面面臨著挑戰,現在仍以試點為主,需要業界產品生態的進一步完善。3.2.9 包間白地板交付方式的演進在智算中心建設時,經
77、常遇到沒有明確GPU芯片型號的情況,但同時又需要兼容未來發展,避免后續改造性資金 浪費,采用包間白地板交付的方式,以不變應萬變是一種可行的策略。智算中心從明確采購某型號的GPU芯片,至GPU芯片交付,中間的時間間隔較長,白地板交付方式可利用此時間差 進行基礎設施的部署,從而保障項目的整體交付進度。3.2.10 融合末端配電方式的演進隨著智算集群規模的增長,智算中心的單機柜功耗已迅速攀升至上百千瓦,導致智算中心單機柜功耗并非都是固定的,在10130kW之間都有分布,采用單一的末端配電架構已無法適配智算中心彈性較大的機柜功耗,需要采用融合的 末端配電方式。傳統的列頭柜方式需要占用一個IT機柜的位置
78、,而智能母線(見圖16)系統采用沿機柜排布,不占用機柜面積,可顯著提升空間利用率。同時,其模塊化結構和即插即用的特性可簡化安裝和維護流程,降低長期運維成本,并且智能 母線的銅排使用壽命要高于導線壽命。因此,傳統列頭柜+電纜敷設的方式難以適應智算中心需求快速變化的需求,為靈活適應未來服務器應用的變化,低壓輸出側將逐漸轉變為大母線與小母線相結合的方式。智能母線這種方案具有 高彈性、節省占地、快速部署、高可靠性及易維護等優點,特別適用于智算中心高密度、需求不明確的場景。智算中心基礎設施演進白皮書29303.3 新能源、儲能在智算中心的應用分析相較于通算中心(傳統數據中心),智算中心和在能源消耗方面呈
79、現出顯著的量級差異,這使得智算中心更加注重 可持續發展問題。同時,智算中心的供電容量不足問題也愈發凸顯,因此新能源的利用變得至關重要。本章節將重點分析智算中心采用新能源與儲能的必然性、面臨的挑戰以及潛在的收益。關于新能源、可再生能源、儲能的概念(見附錄名詞解釋)。3.3.1 新能源在智算中心應用是必然趨勢光伏和儲能具有更短的開發周期,可以更好的滿足智算應用井噴的電力需求,同時也有助于對能源的高效利用,實現智算中心的綠色發展。以下是新能源在智算中心應用的一些具體的方法和手段:y智算中心的選址優先考慮新能源資源豐富、能源利用條件良好的地區。這不僅有助于智算中心降低運營過程中的碳排放,符合可持續發展
80、理念,也符合政府對綠色發展的政策導向,有助于智算中心在未來獲得更多政策支持和市場機遇y由于現場部署光伏板的方式無法滿足智算中心大規模用電的需求,因此,集成度更高的源端 新能源發電場站(以下簡稱“能源站場”),成為滿足智算中心電力需求的重要選擇。通過對局部區域內的各類可控能源場站進行全面的評估,包括能源的種類、規模、穩定性、可持續性等因素。根據評估結果,將不同能源進行有效整合,形成局部區域內綜合能源供應的資源池,保障能源供應的穩定和高效y在局部區域內建設分布式能源系統,如分布式光伏、儲能等,與智算中心的能源管理系統進行對接,構建能源 微電網。但由于新能源多為直流電,因此需要特定的方式將其接入電網
81、??梢詫⒅绷麟娹D換為交流電后接入交流電網,也可通過直流耦合接入直流電網。在選擇微電網新能源接入方式時,需要綜合考慮應用場景、技術條件和經濟成本等因素y在政策允許的情況下,智算中心可以與區域內的其它能源用戶或供應商進行能源交易和共享。例如將本地的光伏電量優先存在儲能系統中,通過需求側響應、電力輔助服務、電力現貨交易、補貼等形式,參與能源平臺交易,實現能源的互利共贏和最大化利用。通過綜合運用上述策略和方法,智算中心能夠充分挖掘區域內各類可控能源的潛力,建立負載預測模型,依據用能 行為和用能狀態進行能源錯峰管理,構建一個綜合能源供應的資源池,實現能源利用的最大化。這樣不僅有助于實現能源的高效利用,降
82、低智算中心的運營成本,還能提升環境效益,同時推動可持續發展,為企業的競爭力提升提供有力保障。智算中心對末端配電需求的不斷提升,傳統單相rPDU已難以勝任更高功率的應用場景。相比之下,三相rPDU可提供更高的功率支持,但也使服務器的電源分配變得更加復雜,特別是三相負載平衡問題需要重點關注,因此配備監控功能顯得尤為重要。監控型三相rPDU通過實時監控電流、電壓等關鍵參數,優化電源分配,確保三相負載平衡,從而提升供電的穩定性和安全性。同時,監控功能為運維人員提供詳盡的數據分析與故障預警,有效提升管理效率和系統可靠性。還需注意的是,三相rPDU的尺寸較傳統單相rPDU更大,加之智算服務器深度和液冷分液
83、器的安裝,進一步壓縮了 機柜背面的安裝空間。因此,選購rPDU時需考慮rPDU的安裝空間和安裝方式。如空間不足,建議選擇橫裝水平PDU,以適應有限空間,確保合理布局和安裝便捷。對于智算中心不同的單機柜功耗,建議的解決策略:y單機柜1020kW:采用列頭柜+電纜+2條/4條單相PDU電源的配電方式即可滿足需求y單機柜2040kW:若采用8條單相PDU電源的配電方式,需要著重解決電源線數量眾多導致的服務器檢修不便及檢修時造成二次故障的問題,而采用列頭柜+電纜/智能中功率母線+橫裝近端三相PDU電源的配電方式更為 適配此功耗段的機柜 y單機柜功耗120140kW:此功耗段機柜為前瞻性、探索性的人工智
84、能(AI)整機柜交付方式,目前有兩個比較 主流的解決方案,其一是采用大母線/智能中功率母線+銅排/工業連接器+預制大容量模塊RACKBUSWAY的 方案,單條RACKBUSWAY可以達到120200A三相電流,服務器和RACKBUSWAY采用常規C13和C19插頭 電源線直接連接。另外一種是采用集中式PSU(見圖17)的Powershelf+BUSBAR方案,將服務器電源與服務器解耦,BUSBAR與電源采用銅排連接,與服務器采用盲插連接 圖17:集中式PSU圖16:智能電母線智算中心基礎設施演進白皮書31323.3.2 新能源發電在智算中心消納仍面臨諸多挑戰新能源發電在智算中心消納面臨諸多挑戰
85、,其隨機性、波動性和低能量密度的特性限制其穩定供電能力,與智算中心 穩定供電的需求相悖,因此,新能源難以單獨承擔起智算中心電源供應的責任,必須與其它穩定的能源形式相結合。例如氫能,雖然它能效高、供電穩定,但在技術、安全、運輸等方面的實施標準更高,在高度重視安全性的智算中心,廣泛應用還欠缺相應條件。另外,新能源的并網、儲能、智能調度技術,政府補貼、電價和能源政策尚待進一步完善。新能源發電在智算中心的消納中,如何克服上述多方面的難題,以下是一些建議:y在建筑物和園區擁有豐富空間資源的智算中心,適宜發展本地能源發電設施1.辦公和基礎設施的用電由園區光伏發電系統供應,多余電量在園區內儲存以備后用,當儲
86、電能力達到極限后,可向城市電網輸送2.在天燃氣供應網絡完善區域的智算中心,通過冷、熱、電三聯供等方式,分布式燃氣供能系統可以實現能源的梯級利用,進一步提高能源的綜合利用效率3.在一些小型的智算中心,模塊化氫燃料電池、小型模塊化核反應堆等技術也是實現能源供給優化的有效手段y在新能源接入時,必須重新設計配電架構,以避免多種新能源發電的混合系統中,由于配置很多電力電子設備而導致的電能質量問題。例如:在新能源接入點與智算中心配電系統之間使用隔離變壓器或電力電子裝置,將新能源產生的諧波與系統隔離;通過合理設置電纜長度、截面和連接方式,減少諧波電流的傳輸,確保系統 關鍵節點的電壓、頻率、畸變率等參數處于穩
87、定狀態y使用仿真分析軟件來輔助電力系統設計,將新能源發電功耗預測按照不同尺度精細化設計,例如:按照時間尺度進行短、中、長期預測,按照空間尺度分為單區域預測、單場站預測,以消除分布式光伏、風電等能源波動對電能穩定性的影響,實現高效利用y采用多種能耗管理策略,有效降低碳排放并減少電價成本。例如:通過優化調度和需求響應策略,作為可調載荷參與電力需求側響應,提高能源利用效率并優化新型電力系統的資源配置;利用市場手段促進本地發電資源優化配置,作為電力調度機構、電力市場之間的中介,參與主能量市場、輔助服務市場,參與多種電力市場的運營模式及其調度框架,從被動的消費者逐步轉變為主動的產銷者y面對新能源發電的不
88、穩定性,需要運維團隊更強的系統監控和調節能力,綜合考慮不同新能源的發電特性、儲能設備的充放電狀態以及智算中心的用電需求,制定合理的能源調度策略,確保能源的高效利用和系統的穩定運行y另外,新能源和儲能技術能否在智算中心中得到廣泛應用,還取決于技術和產業的成熟度和適用的場景。只有 經過全面評估,并確保技術與場景相匹配,新能源和儲能技術才能為智算中心帶來實際效益3.3.3 儲能系統在智算中心應用的多重價值由于受到空間限制的影響,在智算中心部署儲能系統的規模很難做大。但是,由于儲能系統有能力根據時間變化 提供額外能源,這與智算中心用電負載隨氣候變化的特點相匹配,因此,可以與智算中心的基礎架構融合,提高
89、智算中心的IT和外電轉化率,替代一部分不間斷電源UPS備電設備,發揮額外的經濟收益,收益甚至遠大于常規本地光儲一體本身帶來的經濟收益。配置儲能為智算中心帶來的關鍵收益:y配置儲能系統可以獲得額外的備用電源。獨立于傳統供電系統運行的儲能系統,在電力不足或其他緊急情況下,仍可持續提供額外的電力供應。例如,在改造的智算中心中,當配電容量不足且用電功耗大于變壓器容量時,短期內可通過額外的儲能設施快速放電來“增峰”,滿足負載電能高峰值的需量要求,進而在短期內延緩輸電 設備的擴容周期和降低資金投入;在面對智算負載的波動性時,通過對儲能系統進行精準控制,可以最大化地 利用儲能系統的調峰能力,從而避免電網或油
90、機的過載沖擊,以及因電力不足而導致的運算中斷的風險y減少對柴油發電機的依賴。智算中心作為能源消耗大戶,其環境影響和碳排放問題也日益受到關注。柴油發電機在運行過程中對環境造成一定的污染,而儲能系統大多基于可再生能源(如太陽能、風能等)進行充電,能量 轉換效率更高,更加有助于減少溫室氣體排放。儲能系統可以儲存多余的電能,并在電力需求高峰或電網故障 時進行可靠釋放,從而減少對柴油發電機等備用電源的依賴和需求y參與儲備電網服務。儲能還可以為智算中心運營提供節能和創收的機會。未來隨著越來越多的激勵措施,支持 儲能參與電網活動,例如減稅和退稅等,智算中心將更積極地參與能源市場的交易和競爭,以尋找最優的電力
91、 供應方案。隨著鋰電池價格的持續下降,這種趨勢將更加明顯。結合分布式能源、儲能、不間斷電源UPS、發電機和自有變電站,未來的智算中心將可能成為能源站。這些能源站將積極參與儲備電網服務,為電網提供調峰、調頻等輔助服務,從而降低運營成本并有可能創造額外的收入y增加可再生能源的使用。智算中心由于耗電更多,對電價也更加敏感。而從2024年4月1日起,電網將不再“全額收購”新能源發電,更多的新能源發電需要通過市場化交易來消納,這可能會導致電價波動變得更加頻繁,進而影響能源成本。如果智算中心能夠有效地利用儲能設施來平衡這種供需差異,不僅可以提高其能源自給自足的能力,降低能源成本,同時也能夠優化和增加可再生
92、能源的使用效率以上是配置儲能系統給智算中心帶來的好處,包括提供彈性、環境可持續性以及降低能源成本,這也使得儲能系統 成為眾多智算中心值得考慮的技術。然而,部署儲能的投資回報率(ROI)在很大程度上取決于具體用例、負載曲線、當地市場條件和其他因素。因此,儲能系統需要根據特定的輸入場景和運行模型,從而準確預測財務回報或投資回報率。智算中心基礎設施演進白皮書3334智算電能管理鏈電力能源接入 及油機供電 架構中低壓配電柜+不間斷電源后備 電池列頭 末端機柜 服務器 供電演進方案算電協調,新能源 接入DR、PR 供電架構預制 電力模組SST 全直流 架構MW級 大功率UPSUPS 超高效 及高密化UP
93、S 儲備一體,功率流 管理高倍率 磷酸鐵鋰 電池智能 中功率 母線PSU 集中式 機柜供電三相 智能型 rPDU客戶價值提升點降低初投資提升電能 利用率提升能效節省占地快速交付降低TCO機柜功率 彈性適配AI動態負載特性適應綠色低碳H202電網新能源油機中壓柜預制式電力模組&高密UPS&鋰電柔性 智能母線PSU供電 整體柜3.4 智算電能管理鏈如以上章節所述,智算中心對電氣鏈路的挑戰及演變趨勢,根據與IT電氣環節距離的從近到遠,主要包含列頭 配電、UPS輸出配電、不間斷電源UPS,UPS輸入配電,10kV變壓器,油機(低壓),中壓柜,油機(高壓),各個環節對于智算中心的客戶價值分析及演進方案如
94、下表所示:四.智算中心制冷系統架構4.1 制冷技術發展趨勢如以上章節所述,智算中心的單機柜功耗已經有大幅提升。從單機柜2030KW,到單機柜4050kW,到單機柜 70132kW,以及未來可能達到的的200kW超高功率密度單機柜,智算中心呈現加速高密化的趨勢。(見圖18)圖18:OMDIA咨詢公司預測值(2023年)傳統機柜功率密度1OMDIA Data Center Capacity Report 20231代AI訓練模型2020-202312代AI訓練模型2022-202513代AI訓練模型2022-20251房間級風冷空調遠端送風型式的散熱能力上限為單機柜25kW,當單機柜功耗超過25k
95、W時,房間級風冷空調 很難滿足服務器的散熱需求。對于單機柜功耗在2580kW的高密度散熱需求,可采用列間空調、背板式風冷、薄板風墻等近端送風或冷板液冷 技術,其中液冷技術因具有高效散熱、低能耗、低噪聲、占地面積小等突出的優勢,成為智算中心制冷系統的優先選擇?,F階段風冷高密和液冷高密方案并存,液冷采用冷板式液冷的型式居多,至于選擇風液混合還是全風冷則取決于不同的需求及項目條件。本白皮書將會針對不同技術的應用特性來分析其適合的應用場景(見圖19)?;蛑撬阒行幕A設施演進白皮書3536冷鏈類別技術方案應用特性系統描述芯片側風冷芯片(TDP1000W)風冷服務器(風扇)風冷芯片 解熱上限處理過的冷空氣
96、通過并對服務器制冷液冷芯片(TDP1000W)單相冷板+制冷水/冷凍水風冷與液冷的應用 過渡區采 用 泵 驅 動 制 冷 液 流 過 芯片 背 部 的 冷 板 通道,制冷液在通道內通過板壁與芯片進行換熱,帶走芯片的熱量。換熱后的制冷液在換熱模塊中散熱制冷液冷芯片(1000WTDP2000W)單相冷板+冷凍水/制冷水單相冷板液冷芯片 解熱上限采 用 泵 驅 動 制 冷 液 流 過 芯片 背 部 的 冷 板 通道,制冷液在通道內通過板壁與芯片進行換熱,帶走芯片的熱量。換熱后的制冷液在換熱模塊中散熱制冷液冷芯片(TDP2000W)兩相冷板/耦合液冷相變 冷板液冷相變冷板:利用液泵驅動液態冷媒進入芯片
97、 背部的冷板,吸熱后蒸發成氣態,再利用水冷 冷 凝 器 制 冷 成 液 態 并 將 熱 量 排 入 制 冷 水 系統。一次側可以采用冷凍水耦合液冷:芯片部分采用相變冷板帶走熱量,服務器內剩余部分元器件通過浸沒液冷帶走 熱量圖19:制冷技術演進路示意圖IT側散熱技術機房側散熱技術4060kW左右開始考慮液冷,但根據服務器或芯片的不同,液冷可能會更早開始使用極高密度80kW低密度 10kW中密度10 25kW高密度25 80kW房間級風冷直膨冷凍水背板冷板液冷 單相 浸沒液冷 單相 相變 相變 4.2 制冷系統架構的分類及方案本白皮書對制冷系統架構的建議是:宜遵循從芯片(服務器)側機柜側末端空調側
98、冷源側的整條冷鏈的系統化 解決方案(見圖20)。同時,對不同種類的技術方案進行對比,分析其應用特性,建議合適的應用場景,最終選擇出最合理的空調制冷方案。圖20:冷鏈系統化解決方示意圖服務器芯片數據中心設施服務器/機架集熱列間/房間集熱設施/戶外散熱4.2.1芯片側風冷芯片解熱上限為TDP1000W,單相冷板液冷芯片解熱上限為TDP2000W,TDP超過2000W需采用相變 液冷。列間級風液混合將成為大多數高密設計的標準,因為1030%熱量仍然需要 風冷進行散熱智算中心基礎設施演進白皮書3738冷鏈類別技術方案應用特性系統描述機柜側空調側風冷低密度(單機柜10kW)風冷房間空調適用多層建筑。水資
99、源緊缺地區采用氟泵風墻或 下送 風;水資 源 豐富 地區 采 用 水冷雙冷源風墻或下送風。超大 規模采用冷凍水風墻或下送風低 功 率 密度 項目,多為 傳 統 低 功耗段服務器,多采用風冷房間級空調部署,包括氟泵變頻房間級空調、水冷雙冷源房間級空調、冷凍 水房間 級 空 調 等。以 封 閉 冷通道下送風和封閉熱通道水平送風為主風冷低密度(單機柜10kW)風冷列間空調適用于微模塊產品配套,常見于 多機房分散布局項目或機房高度受限類項目或分期使用類項目常 規 方 案 為:一 拖 一風 冷列 間 單獨部署和一拖多多聯方案部署多聯 方案可有效減少室內外機 連管的初投資單個 包 間 模 塊 數 量 少
100、時,多聯 方案通常為水氟主機或全變頻 氟泵渦旋壓縮機多聯部署方案;單個包間模塊數量較多時,可采用大顆粒度磁懸浮相變多聯方案部署風冷低密度(單機柜10kW)預制化空調適用于1層或2層大平層建筑條件的項目主要為一 體化氟泵空調和風側 間接蒸發制冷空調兩種產品技術方案,在 水資源 緊 缺 地區 推 薦 采 用 一 體化 氟 泵 方 案,水資 源 豐富的地區兩種方案均可部署4.2.2機柜側/末端空調側(風冷技術)y風冷低密度(單機柜10kW)1.1-2層大平層建筑,可采用預制化空調2.3層及以上建筑,可采用遠端水平送風或下送風形式的房間級精密空調3.微模塊內配套列間空調冷鏈類別技術方案應用特性系統描述
101、機柜側空調側風冷中密度(單機柜1025kW)風冷房間級精密空調(遠端送風方式)可解決25kW單機柜功率密度散熱冷熱通道寬度根據機柜功率密度靈活變化??刹捎秒p冷源風墻、冷凍水風墻、風冷氟泵 風墻等形式,采用預冷+補冷形式的風墻,能有效助力機房實現低PUE值風冷中密度(單機柜1025kW)風冷型列間空調適用于微 模塊 產品配套,常見于多機房分 散 布 局 項 目 或 機 房 高 度 受 限 類 項目或分期使 用類項目常規方案為:一拖一風冷列間單獨部署、一拖多風冷列間多聯方案部署多聯方案可有效減少室內外機連管的初投資。單個包間模塊數量少時,多聯方案為水氟主機或全變頻氟泵渦旋壓縮機多聯部署方案;單個包
102、間模塊數量較多時,可采用大顆粒度磁懸浮相變多聯方案部署風冷中密度(單機柜1025kW)預制化一體式空調預制化一體式空調,通 常 為 遠 端 風 墻 送 風 形 式,可 解 決 單 機 柜2 5 k W 散 熱 場景需求適用于1-2層大平層建筑主要為一體化氟泵、間接蒸發冷、預制化雙冷源等方案水資源緊缺地區優先采用一體化氟泵方案,水資源豐富地區三種方案均可部署預 制 化 空 調 通 常 為 遠 端 風 墻 送 風 形 式,可解決單機柜25kW散熱場景需求風冷中密度(單機柜1025kW)風冷背板式空調適 用于有局部熱 點特 性的機 柜場景,以 及低密度 風冷機柜改造擴容的場景背板空調可采用冷凍水背板
103、空調或氟冷背板空調背板空調方案將整個機房規劃為大冷池,背板和服務器之間自密封形成熱通道冷凍水背板通常采用環管供水進行備份,前端配置CDU進行水溫調節氟背板采用模塊之間交叉備份方式進行備份,降低主機宕機的影響范圍y風冷中密度(單機柜1025kW)1.遠端水平送風方式可解決風冷25kW單機柜功率密度散熱2.1-2層大平層建筑,可采用預制化空調3.3層及以上建筑,推薦采用房間級空調(遠端水平送風方式)4.微模塊內配套列間空調5.改造項目或為實現高出柜率,可采用背板空調形式智算中心基礎設施演進白皮書3940單機柜功率密度模型場景冷備份下,機組最高送風溫度CFD仿真圖(仿真結果均滿足GB 50174-2
104、017中冷通道1827要求)23kW房間級精密空調(遠端水平送風)18kW預制化一體式空調(遠端水平送風)35kW列間空調(近端送風)40kW薄板風墻精密空調(近端送風)y風冷極高密度(單機柜80kW)1.80kW及以上的極高密風冷場景,可采用冷凍水背板形式,但需增加背板門寬度和高度尺寸,因而需增加機柜尺寸y風冷高密度(單機柜2580kW)1.45kW高密度機柜可采用近端風墻精密空調2.列間空調在一對一模式時可解決風冷60kW單機柜功率密度散熱3.更高功率密或更高出柜率度則需采用冷凍水背板空調冷鏈類別技術方案應用特性系統描述機柜側空調側風冷高密度(單機柜2580kW)風冷房間級精密空調(近端風
105、墻送風)近端風 墻空調最大滿足45kW的高密度機柜散熱需求冷凍水型 近端薄板 風 墻可解決最大45kW 單機柜功率密度散熱,模塊化產品技術易于部署,同時該方案的氣流組織相對更好。風冷高密度(單機柜2580kW)風冷列間空調風冷列間空調可解決60kW以內的高功率密度散熱需求風冷列間空調,更高 功率密度散熱可采用 多對一的列間空調方案,但出柜率會大大降低風冷高密度(單機柜2580kW)風冷背板空調大冷量背板空調多為冷凍水背板,常規機 柜背 板門尺寸的背 板 空 調 可 解 決 5070kW高功率密度散熱需求背板傳熱量隨著進風溫度升高而增加,隨著 冷凍水流量增加而增加,背板換熱量基本不會受到機柜內部
106、服務器布置均勻性的影響冷鏈類別技術方案應用特性系統描述空調側風冷極高密度(單機柜80kW)風冷背板空調為風冷技術 散熱能力的上限,最大支持8 0 k W 高 功 率 密度 散熱極高密風冷散熱,機柜尺寸更大,采用冷凍水背板,需增加背板門寬度和高度尺寸下表為部分風冷高密度場景下房間級精密空調(遠端水平送風)、預制化一體式空調(遠端水平送風)、列間空調(近端送風)、薄板風墻精密空調(近端送風)的仿真模擬圖對比:智算中心基礎設施演進白皮書4142冷鏈類別技術方案應用特性系統描述機柜側空調側液冷低密度(單機柜10kW)冷板液冷CDU為冷板液冷和浸沒式液冷的制冷液提供熱交換器,調節制冷液溫度和流量。在復雜
107、環境中部署間接或直接液冷設備時,CDU可為局部制冷液輸送和排熱提供完整的解決方案。在全液冷環境中支持直接液冷方案時,CDU需搭配散熱系統使用。CDU與熱管背板一起使用時,通常會采用冷水機組提供的低溫冷水來對熱管背板進行制冷y在規模小的應用場景,可采用風 液 C D U 或 者 分布 式 C D U 方案y在數據中心擴容改造場景,宜采用風液混合式CDU方案y在新建的中大型智算中心的 空調系統,更宜采用液-液熱 交換CDU方案低密度液冷通常為多節點CPU液冷或單節點GPU液冷,推薦采用風液CDU方案,簡化部署方案,減少初投資浸沒液冷低功率密度浸沒通常為一體機浸沒液冷方案,簡化部署,減少初投資液冷中
108、密度(單機柜1025kW)冷板液冷邊緣機房和算力試點項目,多采用分布式CDU或風液型集中式CDU。大規模液冷部署多采用集中式中顆粒度液液CDU浸沒液冷多采用單相浸沒液冷方案液冷高密度(單機柜2580kW)冷板液冷邊緣機房和算力試點項目,多采用分布式CDU或風液型集中式CDU。大規模液冷部署多采用集中式大顆粒度液液CDU浸沒液冷可采用單相浸沒液冷或相變浸沒液冷解決方案液冷極高密度(單機柜80kW)冷板液冷邊緣機房或算力試點項目,多采用分布式CDU或風液型集中式CDU大規模液冷部署多采用集中式大顆粒度液-液CDU??刹捎脝蜗嗬浒逡豪浠蛳嘧兝浒逡豪?,當前單相冷板液冷可解決單機柜132kW散熱,相變冷
109、板液冷可解決單機柜160kW散 熱,而耦合 液 冷可解 決單 機 柜200kW散熱浸沒液冷可采用相變 浸 沒 液 冷,此 方法可 最大化制冷液的熱傳導特性,也是最高效節能的液冷方式4.2.3機柜側/末端空調側(液冷技術)部署密度極高的機柜時采用液冷是大勢所趨,但在選擇液冷技術方案時,由于10-30%熱量仍然需要風冷進行散熱,因此風液混合將成為大多數高密設計的標準。y液冷全密度應用場景1.邊緣計算場景,宜采用風液CDU或者分布式CDU2.企業級應用場景,宜采用中顆粒度集中式液液CDU3.人工智能(AI)大規模集群場景,宜采用大顆粒度集中式的CDU4.改造場景時,宜采用風液CDU對現有風冷機房進行
110、風改液改造,并充分利用原有風冷空調設備4.2.4冷源側芯片供液溫度在ASHRAE標準的W17/W27/W32類別時,液冷CDU建議采用冷凍水冷源模式;芯片供液溫度在ASHRAE標準的W40/W45/W+類別時,液冷CDU可采用閉式系統的冷卻水作為冷源。是否采用冷凍水作為冷源,取決于服務器供液溫度,以及一次側與二次側系統的逼近度ATD。冷鏈類別技術方案應用特性系統描述機柜側空調側風冷冷源風冷冷凝器風冷系統:常規系統選用風冷冷凝器,追求系統高效則宜采用蒸發式冷凝器液 冷系 統:適 用于改 造 場 景下,分 體 式 室 內冷 機 的冷 源 方案風冷冷凝器是一種用于制冷和冷凝蒸汽的熱交換器,不需要水源
111、,環保且高效,是常規室外方案蒸發式冷凝器多用于磁懸浮多聯系統室外冷源冷凍水冷源(出水溫度圍525)風冷螺桿風冷系統:全場景適配各種冷凍水末端液 冷系 統:芯片 供 液 溫 度 在ASHRAE標準的W17/W27/W32類 別時的應 用場景,可 同時作為風冷及液冷系統冷源多用于冷凍水末端冷源,或冷板液冷進水溫度要求較低時的冷源方案風冷系統:系統簡單,適用于水資源匱乏的地區水冷系統:系統能效高,適合于大型數據中心,可采用模塊化集成式冷水機房產品方案,方便運輸及部署水冷螺桿風冷磁懸浮水冷普通離心水冷磁懸浮水冷冷源(出水溫度圍3228)干冷器風冷系統:主要適配水冷空調和雙冷源空調的冷源設備液 冷系 統
112、:芯片 供 液 溫 度 在ASHRAE標準的W40/W45/W+類 別 時 的 應 用 場 景,可 同時作為風冷及液冷系統冷源多用冷凍水末端冷源(如水冷雙冷源、水冷變頻空調等),或冷板液冷進水溫度要求較高的冷源方案開式制冷塔閉式制冷塔智算中心基礎設施演進白皮書4344冷鏈類別技術方案客戶關注因素高可 靠性高能效低初 投資高出 柜率低屋頂占用率低噪音調節 范圍廣建筑兼容性優芯片側風冷(TDP1000W)風冷芯片/液冷芯片(TDP1000W)單相冷板+冷卻水/冷凍水/液冷芯片(1000TDP2000W)相變冷板/耦合液冷/機柜側空調側風冷低密度(10kW)風冷房間空調/風冷列間空調/預制化空調/風
113、冷中密度(1025kW)風冷房間空調 遠端水平送風/風冷列間空調/預制化空調/風冷背板空調/風冷高密度(2580kW)風冷列間空調/風冷背板空調/風冷近端 風墻空調/風冷極高密度(80kW)風冷背板空調/4.3 制冷技術應用評估以上總結的制冷技術均有著不同的應用特點及應用場景,下面將從用戶關注的要素點出發,從技術可靠性、運行 能效、初投資、出柜率、占地空間、噪聲程度、柔性調節以及對建筑條件要求等方面對各類技術進行對比評估(見圖21)。圖21:用戶關注要素技術路線對比圖冷鏈類別技術方案客戶關注因素高可 靠性高能效低初 投資高出 柜率低屋頂占用率低噪音調節 范圍廣建筑兼容性優機柜側空調側液冷低密度
114、(10kW)冷板液冷/浸沒液冷/液冷中密度(1025kW)冷板液冷/浸沒液冷/液冷高密度(2580kW)冷板液冷/浸沒液冷/冷源側風冷冷源風冷冷凝器/蒸發式冷凝器/冷凍水冷源風冷螺桿/水冷螺桿/風冷磁懸浮/水冷普通離心/水冷磁懸浮/水冷冷源干冷器/開式冷卻塔/閉式冷卻塔/續表智算中心基礎設施演進白皮書45464.4 智算中心制冷應對策略如以上章節所述,智算中心負載特性呈現出周期性、大幅度、并發性、瞬時沖擊等動態負載特性,那么針對智算中心 動態負載特性的制冷解決方案,建議從兩方面考慮:y提高制冷系統的響應速度1.硬件方面,可以選用高精度傳感器2.軟件方面以PID(Proportional Int
115、egral Derivative)控制為例,可以適當增大P、D并減小I,這樣系統的響應 速度會加快。但需要注意的是,調節速度變快后,容易引起制冷系統的震蕩和超調,因此需根據實際情況合理設置并反復調試驗證后再投入應用3.可以通過功耗變化控制制冷設備輸出,提前適應負載變化y采用人工智能(AI)預測性控制技術基于人工智能(AI)負載預測算法,可以根據智算的任務計劃來預測數據中心未來的負載趨勢變化。通過對比負載預測結果和負載實時數據,指導空調提前進行預調,確保在負載高峰或低谷到來之前已經調整到最佳 運行狀態,從而實現快速響應y連續制冷對于有條件的智算中心,建議采用在線式蓄冷系統,并對關鍵設備配備足夠容
116、量的不間斷電源UPS來實現 連續制冷,最大限度保證連續制冷。與風冷系統不同的是,液冷系統CDU,必須配備UPS實現不間斷供冷。風冷 系統的大冷池具有熱緩沖能力,液冷芯片內的流體幾乎沒有熱緩沖能力,突發的供電故障會使得液冷服務器芯片瞬間升溫而宕機y定制化制冷解決方案智算時代的制冷系統面臨著芯片及服務器多樣性、通算與智算相結合以及快速迭代更新的各種應用挑戰,因此 既有的制冷技術應用經驗并不一定繼續有效,對制冷產品的選擇也不應是單一維度的評估及考慮綜上所述,針對芯片(服務器)側、機柜側、末端空調側、冷源側的整條冷鏈,結合不同種類的技術方案、不同的應用 場景進行對比,從而制定出最合理的空調制冷方案。因
117、此,在智算中心建設初期,建議選擇在數據中心熱管理方面擁有深厚專業知識,且具有全鏈條專業技術能力的服務型制造商來參與項目的規劃設計,形成項目最適宜的定制化解決方案。隨著技術的進步,未來可能會出現更多創新性的解決方案,進一步提升供配電模塊與制冷系統的集成度及系統 效能。五.智算中心預制模塊化技術的應用分析人工智能(AI)技術加速驅動智算中心的建設與發展,同時也對智算中心的建造模式提出更多要求。通算中心(傳統數據中心)具有較高的通用性特點,其項目規劃設計的考慮要素為用地指標、電力容量、資金預算等 因素,在建設過程中多數采用標準化的基礎設施產品。而智算中心的建設模式面臨著人工智能(AI)芯片/服務器多
118、樣性 所帶來的定制化需求,在建設初期需要提供更加針對性的整體解決方案,以及更快速、更完整的服務體系。但傳統工程化的建造模式較難全面適應新興的建設需要。預制模塊化技術在實現數據中心的“去工程化”的同時,可以滿足數據中心的 快速部署、性能的可預測性,以及降低數據中心現場施工所帶來的人為失誤。因此,預制模塊化技術目前已成為智算中心行業發展的核心趨勢之一。5.1 智算中心預制模塊化技術發展趨勢從智算中心的業務啟動開始,如何對其近期和長期成本曲線做到更多的掌控,以便能選擇最適合其業務需求的運營 成本模型,并在新的算力上線時提供可預測和透明的成本結構,是智算中心重點考慮的問題。因此,成本確定性及靈活 可擴
119、容性將是衡量智算中心業務可行性及可持續發展的的重要標準之一。選擇基于整體解決方案的預制模塊化技術,因其支持模塊化系統設計和定制化生產交付,使得智算中心項目可以 根據需求進行靈活擴展和升級,并更容易實現可定制化。通過添加、替換或升級預制化組件,可以快速調整系統規模和 性能,適應不斷變化的智算業務需求。另外,模塊化產品的多樣性,可以根據智算中心項目的能源條件及智算負載特性,針對性的選配或開發適合的功能 模塊(例如,水/地源熱泵模塊、余熱回收模塊、儲能模塊等),通過優化組合實現初期投資、分期建設以及運營成本的最佳平衡組合。同時也可以根據定性、定量的功能模塊配置,推算出智算中心項目能支持的最大算力上限
120、,對項目初期的決策具有重要指導意義。相較于通算中心(傳統數據中心)12-15個月的建設周期,智算中心的交付需求時間在3-9個月,未來甚至會變得更短。因此項目建設需簡化流程,并行開展不同階段的任務,以便能加快建設進度。預制模塊化技術在智算中心項目中大范圍的使用,可有效加快建設進度。預制模塊化技術將建造過程從現場搭建 轉移到工廠生產線進行,因其不受場地空間及設備現場安裝工序的限制,可實現多模塊的并行生產和流水線式的撬裝 總成,以批量化和標準化的方式生產數據中心模塊、功能設備模塊(例如,電力模塊、空調模塊等)、軟件環境等組件,通過標準化生產和工程化管理,大幅縮短智算中心的建設周期。預制模塊化技術在項
121、目啟動之初,在項目完成規劃及方案設計時,便可啟動生產流程,并與施工現場工作并行進行,加快項目實施進度。智算中心基礎設施演進白皮書4748中壓柜10/0.4kV低壓配電柜UPS 輸入UPSUPS 輸出精密配電IT 負載電網油機電網油機另外,在工廠環境下進行生產可以嚴格控制質量標準,減少施工缺陷和人為錯誤,提升建造質量和可靠性。如結合 基于制造業的物聯網技術應用,使得模塊產品的各部件可以實現從生產到運維的全生命周期可追溯,有助于減少后期 維護成本及維修更換時間,延長智算中心的整體使用壽命。另外,由于土地成本上升、勞動力短缺以及能源電力限制等因素的影響,智算中心的建設成本與落地難度持續增加。傳統以高
122、可靠性為核心的建設標準,已不能繼續適應快速迭代的智算中心項目對投資回報周期的要求。因此,一方面需 考慮采用更加適合的建設標準以及成本更優的建造方式,另一方面需考慮初期項目投資,除服務器設備以外的設備復用性及可回收性,以應對智算中心業務的挑戰。預制模塊化技術通過規?;a和優化供應鏈管理實現建造成本的降低,減少在傳統工程模式中的人力成本、材料浪費等的額外開支,相比于傳統現場建造,模塊化產品的可移動性以及二十年的設備艙使用壽命,例如電源模塊、柴發模塊及冷源模塊等設備,為項目升級、遷移及改造等創造了可行性,因此,預制 模塊化技術可以實現模塊產品的回收改造及再利用,降低項目全生命周期的綜合成本。同時,
123、預制模塊化技術也為融資 租賃等新型業務模式創造可行性,一定程度上可以減少項目建設初期的投資壓力。人工智能(AI)的需求是全球化的,這使得智算中心基礎設施業務也是國際化的。根據出海企業的分享經驗,海外項目的交付,往往需要雇用較多的本地員工,人才多元化的情況下呈現出不同的文化背景和習俗差異,比如不同的語言表達、工作和管理習慣,以及對商業的理解,最終導致項目上溝通和管理上的困難。在短期內無法有效克服上述困難的情況下,可考慮將更多的生產作業量選擇在國內提前完成。采用預制模塊化技術,一方面采用集裝箱型式的預制模塊化產品有著天然的運輸便利性;另一方面,工廠高度預制化集成能夠大幅減少現場工作量及作業時間,降
124、低施工現場的不確定性與 風險。在項目實施現場,預制模塊產品按照標準化作業規程進行模塊拼裝,逐個泊位,以便能夠應對天氣變化、人員流動等不確定因素,更好的實現對項目風險管控。值得一提的是,根據AFCOM(計算機操作管理協會)2024年度研究報告顯示,在對新建數據中心的受訪者調研中 發現,其認為最有可能采用預制化的部分是電氣預制模塊化(78%)和制冷預制模塊化(72%)。接下來,將分別對電氣 預制模塊化和制冷預制模塊化這兩部分展開分析。5.2 電氣預制模塊化趨勢預制化供配電電力模組是電氣預制模塊化的重要應用之一,也是一種應對智算中心變配電室、IT包間面積比激增的 有利措施。通算中心(傳統數據中心)的
125、供配電系統普遍采用傳統分散式供配電結構(見圖22)。電力室分為高壓室、變配電室、低壓室、不間斷電源UPS、高壓直流(HVDC)室等,類型多且布局分散,占用面積大。電源設備由不同的廠家生產,高壓柜、低壓柜、交/直流不間斷電源系統分散部署在不同的機房。供配電系統的一次和二次線纜都需要現場連接,即使是相鄰的配電柜進出線也 需要上下翻折,線纜線路長、損耗大,后續的線纜檢修和系統擴容難度高。智算中心的供配電系統更多的采用預制化供配電電力模組結構(見圖23),預制化供配電電力模組將中壓柜、變壓器、UPS、高壓直流(HVDC)、制冷、饋電等預制集成交付(見圖24),減少電力室面積高達30%,交付周期可 縮短
126、50%,實現更高的利用率、可擴展性和更快的部署。另外,針對智算中心擴容需求,項目在前期規劃預留出設備的部署空間,針對擴容所增加的用電設備,將其相關的配電柜、動力柜、控制柜等設置于室外型電力方艙(見圖25),做到精準 匹配。預制供配電模組在工廠進行預裝,采用標準化設計和專業測試,這也意味著組件設備更少、維護人員要求也低,同時也降低施工過程中的碳排放。圖22:傳統分散式供配電結構圖圖23:預制化供配電模組結構圖 圖24:預制化供配電電力模組示意圖 圖25:室外型電力方艙方案示意圖中壓柜預制化供配電電力模組智能中功率母線智算中心基礎設施演進白皮書4950機柜級行級&房間級預制模塊化數據中心5.3 制
127、冷預制模塊化趨勢數據中心的制冷系統按照制冷方法分為機械制冷和自然制冷。機械制冷液體汽化制冷、氣體膨脹制冷、溫差制冷。自然制冷包括蒸發冷卻技術、熱管冷卻技術、直接新風冷卻技術、氟泵冷卻技術等?;谝陨戏诸?,空調系統可根據功能段被劃分為不同的獨立模塊,如制冷模塊、通風模塊、預制管組、換熱模塊、水力模塊、控制模塊等。這些模塊可在 工廠內進行預制,實現快速組裝和拆卸,便于安裝、維護和升級。智算中心的制冷預制模塊化仍要滿足高負載、高可靠性的要求,因此預制模塊化設計需要綜合考慮多種因素,如制冷量、氣流組織、散熱效率等,并且考慮到大型的制冷預制模塊在運輸過程中可能受到的道路條件、運輸工具等限制,需要擬定特殊
128、設備的運輸方案。同樣,在安裝現場,也需要精確的定位和吊裝設備,確保模塊的準確安裝。因此,制冷預制模塊化需要通過建筑空間設計、空調系統設計、電氣設計等多專業的協同工作,優化系統布局和模塊設計,提高設計的合理性和可行性,并利用先進的模擬軟件進行性能仿真分析,提前發現和解決潛在問題,同時采用特殊的運輸工裝和吊裝設備,提高運輸和安裝的效率和安全性,例如采用可拆卸式的模塊結構,在運輸時進行拆分,到現場后再進行組裝。具有代表性的有預制模塊化高效機房(見圖26)和模塊化液冷外部冷源模塊(見圖27)。預制模塊化高效機房是將冷凍水系統中的冷水機組、冷凍機制冷水泵、制冷塔、板換、配電機控制柜等主要設備在 工廠內成
129、套集成,布置在定制模塊化設備艙中,在工廠內完成FAT(工廠驗收測試)測試后,運往現場與管道連接,實現 快速部署。模塊化液冷外部冷源系統模塊是將液冷系統的一次側系統中的制冷塔、循環水泵、軟水系統、定壓補水、管路輔件、控制系統在工廠內模組化,在工廠內完成FAT(工廠驗收測試)測試后,運往現場與管道及電纜連接,實現快速部署。圖26:某代表性模塊化高效機房示意圖 圖27:某代表性模塊化液冷外部冷源模塊示意圖5.4 智算中心預制模塊化趨勢智算中心預制模塊化技術的發展演進,根本目的是為能夠全面滿足人工智能(AI)工作負載的電能和熱管理需求,搭建安全穩定的負載運行環境,并快速部署要求。因此,需要智算中心預制
130、模塊化解決方案是一個結合基礎設施、服務和軟件的解決方案組合,通過優化電氣系統與制冷系統之間的協同工作來達到以上目的。這種組合不僅有助于提高數據中心的整體效率,降低運營成本,而且還符合綠色節能降耗的發展趨勢。這種多系統融合的預制模塊化解決方案(見圖28),按規??煞譃椋簓機柜級推理與邊緣人工智能(AI)(70kW/柜),適用于需要快速設置且空間有限的場景,例如遠程辦公室、分支 機構、邊緣計算站點等y行級&房間級企業和數據中心(40100kW/柜),適用于人工智能(AI)實驗室、推理及模型訓練以及既有數據 中心的空白間y基礎設施&數據中心級(132kW/柜),為整體預制模塊化數據中心,適用于人工智
131、能(AI)大模型訓練及人工智能(AI)數據中心圖28:預制模塊化解決方案分類智算中心基礎設施演進白皮書51525.5 預制模塊化技術的應用與挑戰智算中心快速擴張及迭代帶來的能耗、環境等問題,勢必會迎來相比通算中心(傳統數據中心)更為嚴格的行業監管及地區限制,因此,未來智算中心的建設需要從多維度支持其可持續發展。y采用預制模塊化技術有助于減少施工現場的噪音、污染和能耗,同時在工廠環境下進行精確的計劃和確的資源利用,可最大程度地減少浪費和損耗y模塊化產品亦具有升級、轉移及回收等特性,有助于提高資源利用效率,降低對環境的影響根據預測,模塊化產品最多可降低智算中心項目三分之二的碳足跡,支持可持續發展的
132、建造模式,助力項目的 立項與審批當下預制模塊化技術發展的最大挑戰是缺乏統一的行業標準。各個制造商在進行裝配式建筑時采用不同的構件尺寸和連接方式,導致采用的模塊無法互通、組合和替換。在項目建設初期,考慮到構件生產、運輸和安裝等諸多因素,要求在確認相關產品設計時投入更多的時間和精力。另外在面對不同的技術路線及制造體系的預制化技術產品時,智算中心需要更多的標準及規則把品牌多、種類多、數量多的設備進行標準化和定制化,并探索自動化及智慧運維場景,以便更好的 評估預制模塊化技術,選擇出適合其項目特性的預制模塊化產品。需要強調的是,預制模塊化技術的核心并非模塊化產品的生產制造本身,而在于多專業融合的技術服務
133、,即對項目 需求的掌控,以及在項目全過程的深度參與。建議在項目籌劃階段,可以更多的考慮選擇擁有全面技術體系的服務型 制造商,共同探討項目的既定目標及實施計劃,以便在相應的決策后可以快速優質的完成交鑰匙項目。另外需特別注意,在不同國家地區應用預制化技術時應提前了解項目地的法律、政策及規范等,例如當地是否 對進口設備的種類及金額有管制要求、是否涉及有強制性認證要求的產品等等。另外在東南亞等國家,對室外集裝箱放置超過2年的要求需按建筑物報批及報建,要做好提前的溝通及應對。六.總結與展望人工智能(AI)的快速發展,使得智算中心(主要是訓練業務)的機柜功率密度和集群規模迅速增加,這些變化 呈指數級增長,
134、正在顛覆性的改變通算中心(傳統數據中心)在選址和空間規劃、機電系統方面的設計方法和理念。為設計相對前瞻性的智算中心以滿足未來的業務需求,從業者需要密切關注IT技術(芯片、服務器、集群)的發展和采用本白皮書所推薦的設計方法。本章節將展望一下未來的技術和設計方法,從而應對由于人工智能(AI)發展所帶來的挑戰。y智算中心需要更適合的標準來指導產業健康有序發展 即使是智算中心以追求極致算力為核心業務目標而非 連續性,但因為智算服務器昂貴的造價和水進入服務器內部(冷板式液冷),使得智算中心對暖通系統可靠性的要求開始超過供電系統。國際上通行的數據中心可靠性標準中,目前主流是Uptime的Tier分級和TI
135、A-942的Rated等級,均是由低到高分為1級-4級可靠性等級。但與Uptime不同,TIA-942可以分別針對暖通系統(例如 液冷或風墻)和電氣系統(例如電力模塊)單獨定義其Rated可靠性等級。這樣在不同的智算場景下,電氣系統和暖通系統可以根據業務要求、市電質量,靈活的對暖通和電氣系統提出不同的等級要求。隨著液冷的普及,特別是冷板式液冷的可靠性要求將成為智算中心的核心安全要求,或許將出現新的R3+提法,即液冷R4而電氣R3,與通算年代(傳統數據中心)的T3+(電氣T4而暖通T3)有一定的相似性y供電深入負載中心 由于集群規模越來越大,對供電的容量需求也越來越大,傳統的供配電鏈路設計存在占
136、地面積大、距離長、損耗大等缺點,未來配電鏈路的設計將深入負載中心,即配電室與IT機房靠近部署,將中壓 通過大母線接到IT機房,然后通過小母線進行末端配電。這可以減少線纜的使用和縮短安裝時間,同時減少 開關柜的數量y核能等新能源廣泛應用 在智算中心大規模集群的用電需求爆發式增長背景下,以及“碳中和、碳達峰”的 目標下,核能可以提供持續、低碳的電力供應解決方案,未來具有廣闊的發展前景yDR/RR/N+1配電架構上升 智算中心的業務需求不再需要極端的2N冗余,可以容忍一定程度服務中斷。智算中心的智能化管理、高可靠性的硬件和軟件組件,不采用2N架構,采用DR/RR/N+1配電架構滿足也能達到 所需的系
137、統可靠性水平。因此,在此基礎上,從經濟性考慮,DR/RR/N+1配電架構呈現上升趨勢y算電協同:綠電聚合 智算中心對算力和電力的需求急劇增加,同時,提高能源效率和降低能耗,構建全國 統一的算力網絡,實現算力資源的優化配置和調度,而且,智算中心的運營成本中電力費用占有很大比例,算電 協同可以有效降低運營成本。因此,算電協同發展已成為必然趨勢y母線(Busbar)作為末端配電的首選 當機柜功率密度超過120千瓦時,傳統的機柜配電條形插座在末端配電方面變得不切實際(供電容量和安裝空間的限制)。這時,整機柜服務器所采用的48V母線Busbar+電源框(PSU)或者獨立的電源柜將成為末端配電的首選智算中
138、心基礎設施演進白皮書5354y全液冷方式 風液混合是目前解決高功耗芯片和機柜制冷的主要手段,但是,隨著機柜功率密度的進一步 增加,以及機柜背部空間更多地用于網絡連接,采用風冷對其它器件(除GPU等加速器)進行制冷將變的不可行,這時需要考慮采用全液冷的方式,可以是全冷板,全浸沒,或者冷板+浸沒的方式y液冷新型制冷劑 液冷技術已逐漸成為智算中心高密度散熱的最佳解決方案之一,但是目前對液冷制冷劑 要求較高,導致液冷制冷劑成本居高不下,液冷新型制冷劑的革新將是液冷技術革新的主要方向之一,比如 用普通水作為液冷制冷劑的解決方案y固態技術的進步 傳統變壓器體積大,占用空間也大,不利于智算中心IT與配電空間
139、的匹配和規劃。同時,傳統變壓器只能采用交流供電,不利于對可再生能源的集成和使用。固態變壓器(SST)小巧輕便,同時可以 在交直流之間進行轉換,可以解決傳統變壓器面臨的挑戰。相較于通算中心(傳統數據中心),智算中心的電流 要大的多,所以及時切斷故障電流來控制弧閃的能量密度和保障人員安全變得尤為重要,固態斷路器通過使用 半導體來接通或切斷電流,速度更快,可以有效地控制故障電流y更多分布式能源與可再生能源 隨著人工智能(AI)集群的不斷增大增多,智算中心無論在市電引入的容量 方面,還是在可再生能源使用的占比方面,都會有更高的要求。氫燃料電池和小型模塊化核反應堆(SMR)在 補充能源供給與提高可再生能
140、源使用比例方面是非常好的選擇,將具有越來越好的前景附:名詞解釋1.人工智能(Artificial Intelligence,簡稱AI):研究和開發使機器模擬人類認知功能,如學習、推理、感知、交流和解決問題的技術領域2.通算中心:即傳統數據中心,是指以通用計算任務為主的數據中心,沒有特定的指向,是進行各種計算任務的基礎3.智算中心(Artificial Intelligence Data Center,簡稱AIDC):人工智能(AI)算力中心的簡稱,是一種專門為人工智能(AI)的大規模數據訓練、推理模型典型應用場景提供高性能計算資源的數據中心4.生成式人工智能(Artificial Intell
141、igence Generated Content,簡稱AIGC):是一種利用AI人工智能技術自動生成文本、圖像、視頻、音頻等多種形式的技術形態,它涵蓋自然語言處理(NLP)、計算機視覺(CV)、音頻處理等多個領域5.范式革命:是指在科學領域中,當現有的理論體系(范式)無法解釋新的觀測結果或存在嚴重矛盾時,科學界經歷的一次根本性的理論變革過程。這一過程最終導致新的理論體系取代舊有范式,推動科學知識的進步和發展6.通用算力(General-Purpose Computing Power):指的是可以執行各種計算任務的計算能力,不特定于某一種 類 型的計算或應 用。通常由CPU(中央 處 理單元)提
142、 供,適 用于廣泛的應 用,包括日常辦公軟件、網頁 瀏覽、視頻播放等7.智能算力(Intelligent Computing Power):指的是專門設計用于處理人工智能(AI)和機器學習(ML)任的 計算能力。通常由GPU(圖形處理單元)、TPU(張量處理單元)或FPGA(現場可編程門陣列)等專用硬件 提供,適合進行大量的數學運算,如矩陣乘法等8.超算算力(Super Computing Power):指的是由超級計算機提供的極其強大的計算能力,通常由成千上萬的CPU和/或GPU核心組成,提供極高的計算速度和數據處理能力,通常用于氣候模擬、天體物理學模擬、基因 組學研究、密碼學、藥物發現等領
143、域9.訓練(Training):是指通過一定的算法模型,建立一個復雜的神經網絡模型并通過特定參數和海量數量的 訓練,讓算法形成一種智能的識別體系10.推理(Inferencing/Reasoning):是指利用訓練好的模型與實際的應用建立一個閉環系統,通過與用戶的交互交付模型識別的結果,推理需要大量的邊緣算力部署,確保應用的廣泛性和大數據的多樣化11.CPU(Central Processing Unit):中央處理器,是計算機的主要處理單元,負責執行程序指令、處理數據和 控制計算機的其他硬件部件智算中心基礎設施演進白皮書555612.GPU(Graphics Processing Unit)
144、:圖形處理單元,用于大規模并行計算,如圖形渲染、科學計算、深度學習等13.NPU(Neural Processing Unit):神經網絡處理單元,專門設計用于加速機器學習任務,尤其是深度學習算法14.TPU(Tensor Processing Unit):張量處理單元,由Google開發,專門用于加速TensorFlow框架下的機器 學習工作負載,執行TensorFlow模型的訓練和推理15.英偉達(NVIDIA):是全球領先的圖形處理器(GPU)制造商,因其在GPU技術、市場領導地位、性能優勢、軟件和硬件的緊密結合以及行業合作與支持等方面的綜合優勢,在算力需求中占據重要地位16.新能源(N
145、ewenergy):通常指的是相對于傳統能源(如煤炭、石油和天然氣)而言,那些技術較新、開發利用時間較短的能源形式。包括太陽能、風能、生物質能、地熱能、海洋能等,具有較低的污染排放17.可再生能源(Renewableenergy):是新能源的重要組成部分,可再生能源指那些來源于自然界,可以不斷再生的能源,其特點是取之不盡、用之不竭,主要包括太陽能、風能、水能(包括潮汐能)、生物質能、地熱能等18.儲能(Energystorage):是指通過某種方式將能量存儲起來,在需要時釋放19.高壓直流(High Voltage Direct Current,簡稱HVDC):是一種電力傳輸技術,它通過整流器
146、將交流電變換 為直流電形式,再通過逆變器將直流電變換為交流電,從而實現電能傳輸和電網互聯。HVDC系統通常由兩個 換流站和直流輸電線組成,換流站與兩端的交流系統相連接,能夠實現電能等級和方向的快速精確控制,提高 電網性能和效率20.固態變壓器(Solid State Transformer,簡稱SST):是一種集成電力電子變換技術和高頻變壓器的先進電力 設備,它能夠實現電壓變換、電氣隔離和無功功率補償,與傳統變壓器相比,SST體積更小、效率更高,并且能夠適應智能電網的需求主要作者介紹董衛衛,深知社聯合創始人、高級運營總監,畢業于北京大學。長期從事數據中心規劃、設計和售前工作,主導規劃、設計、建
147、設多個大型數據中心以及液冷數據 中心,致力于推動數據中心行業綠色、創新技術的應用。在數據中心規劃、設計、售前、全過程咨詢、液冷技術等領域有著豐富的項目經驗。陳淼,深知社首席研究員,畢業于英國謝菲爾德大學,系統工程工學碩士。長期從事控制系統工程、機電工程全過程咨詢顧問及模塊化機電產品開發。在模塊化高效制冷 機房、余熱回收系統及液冷外部冷源系統等領域有著豐富的項目實施經驗。王謀銳,深知社高級研究員,高級電氣工程師。長期從事于數據中心機房規劃、建設、交付及機房咨詢規劃、售前等工作。對主流互聯網數據中心 定制化設計交付、數據中心全生命服務有著豐富的項目經驗。智算中心基礎設施演進白皮書57深知社深知社官網:D意見反饋感謝您閱讀智算中心基礎設施演進白皮書!我們衷心地希望您能夠在百忙之中對我們的工作和報告提出寶貴的意見和建議。維諦技術有限公司售前熱線:400-887-6526維諦官網:V版權聲明本白皮書