《清華大學&火山引擎:2025算力電力協同:思考與探索白皮書(25頁).pdf》由會員分享,可在線閱讀,更多相關《清華大學&火山引擎:2025算力電力協同:思考與探索白皮書(25頁).pdf(25頁珍藏版)》請在三個皮匠報告上搜索。
1、 算力電力協同:思路與探索算力電力協同:思路與探索 白皮書白皮書(2025 年)清華大學 北京火山引擎科技有限公司 2025 年 01 月 算力電力協同:思路與探索白皮書(2025 年)清華大學、北京火山引擎科技有限公司 報告研究團隊報告研究團隊 清華大學:郭慶來、陳敏、王奕 北京火山引擎科技有限公司:井湯博、潘宇、翟思成、李子豪 算力電力協同:思路與探索白皮書(2025 年)清華大學、北京火山引擎科技有限公司 I 目錄 前言.1 一、算力電力為什么要協同?.2(一)伴隨 AI 的迅猛發展,算力中心負荷持續攀升.2(二)算力中心負荷具有特殊性,對電力系統是挑戰,也是機遇.5(三)挖掘算力中心靈
2、活性,優化算力中心供能結構與用能成本.6 二、算電協同,具體協同什么?.8(一)基本供用能結構中的算電耦合點,是算電協同的物理基礎.8(二)相關主體的不同利益訴求,是算電協同的核心驅動力.11 三、如何協同?.13(一)列頭柜層面:預測算力需求及算力功耗,并挖掘其靈活性.13(二)算力中心層面:從業務邏輯弱耦合到強耦合,發掘靈活性.14(三)局部電網層面:高比例可再生能源局部電網本地自治.20(四)大規?!八懔W+電力網”層面:跨區優化調度.21 四、結語.22 算力電力協同:思路與探索白皮書(2025 年)清華大學、北京火山引擎科技有限公司 1 前言前言 “實施一批算力與電力協同項目”作為代
3、表性方向列入我國加快構建新型電力系統行動方案(20242027 年)。本報告針對算力負荷區別于其他常規負荷的特征,按照“為什么要做算力電力協同”、“協同什么”、“如何協同”的順序展開,介紹了我們在算力電力協同方向的思路與探索,目標是充分挖掘算力中心與算力系統中蘊含的靈活性,優化算力負荷用能成本與供能技術,并提升新能源消納能力,為加快構建新型電力系統提供支撐。編寫組 2025 年 1 月 算力電力協同:思路與探索白皮書(2025 年)清華大學、北京火山引擎科技有限公司 2 一、一、算力電力為什么要協同?算力電力為什么要協同?(一)(一)伴隨伴隨 AI 的迅猛發展,算力中心負荷持續攀升的迅猛發展,
4、算力中心負荷持續攀升 1.AI 領域的“領域的“Scaling Law”,帶來能源消耗指數級增加”,帶來能源消耗指數級增加 在人工智能(artificial intelligence,AI)領域,“Scaling Law”揭示了隨著模型規模、計算能力和數據量的增加,AI 系統的性能會指數級提升。然而,這一法則也伴隨著能源消耗的指數級上升。原圖來源:Yuzhuo Li,Mariam Mughees,Yize Chen,Yunwei Ryan Li,“The Unseen AI Disruptions for Power Grids:LLM-Induced Transients”,2024.圖 1
5、 不同大型語言模型訓練過程中,能耗與模型參數數量的關系 2.全球視角:全球視角:AI 應用快速發展,帶來全球算力中心耗電量大幅增長應用快速發展,帶來全球算力中心耗電量大幅增長 伴隨 AI 應用快速發展,全球用于 AI 的 IT 設備用電需求激增。根據花旗集團研究部門 Citi Research 的預測,從 2023 年到 2030 年,服務于 AI 的 IT 設備用電需求年均增長率將達到 43%,遠高于服務于其他業務的 IT 設備用電需求的年均增長率 8%。預計到 2030 年,服務于 AI 的 IT 設備用電需求將達到 52GW,占全球 IT 設備用電需求的 50%以上。與之對應,全球算力中
6、心用電量也大幅增長。根據國際能源署數據,從 2022算力電力協同:思路與探索白皮書(2025 年)清華大學、北京火山引擎科技有限公司 3 年到2026年,全球算力中心和加密貨幣的總用電量將翻一番,增加160590TWh,相當于一個瑞典或德國的年總用電量。與 AI 需求爆發前,即 2022 年前的過去10 年相比,其總用電量增長幅度僅為 3389%。原圖來源:datacenterHawk(DCH),FactSet,Cogent Communications,Citi Research;中國信息通信研究院、內蒙古和林格爾新區,中國綠色算力發展研究報告(2024 年)圖 2 全球 IT 設備的用電需
7、求趨勢(單位:GW)原圖來源:IEA(2024),Electricity 2024,IEA,Paris,Licence:CC BY 4.0;中國信息通信研究院、內蒙古和林格爾新區,中國綠色算力發展研究報告(2024 年)圖 3 全球算力中心和加密貨幣的用電量趨勢(單位:TWh)算力電力協同:思路與探索白皮書(2025 年)清華大學、北京火山引擎科技有限公司 4 3.國外視角:國外已有算力中心電力供應短缺的報道國外視角:國外已有算力中心電力供應短缺的報道 在 2024 年,AI 領域的能源挑戰成為了全球關注的焦點,以下是三則具有代表性的國外報道概述:(1)OpenAI 首席執行官承認 AI 能源
8、危機:2024 年 2 月,Nature雜志報道1,OpenAI 公司的首席執行官在 2024 年 1 月公開承認“AI 行業正在走向能源危機”,并警告“下一波生成型 AI 系統消耗的電力將遠遠超出預期,能源系統將難以應對”。(2)世邦魏理仕發布2024 年全球數據中心趨勢:2024 年 6 月,世邦魏理仕公司發布的2024 年全球數據中心趨勢指出2,全球數據中心市場因電力供應短缺而受到顯著制約,北美、歐洲、拉丁美洲和亞太地區的運營商都將獲取電力作為首要任務。(3)孟菲斯超級集群被迫由天然氣發電機供電:2024 年 7 月,根據 IDC 圈報道顯示3“,由于當地無法提供充足的電力供應,馬斯克被
9、迫為孟菲斯超級集群(號稱是“世界上最強大的 AI 訓練集群”)提供了 14 臺天然氣發電機。這些發電機提供最高 35MW,當地電力系統提供 8MW。4.國內視角:加快發展國內視角:加快發展 AI 戰略下,我國算力中心耗電量持續攀升戰略下,我國算力中心耗電量持續攀升 在加快發展 AI 的國家戰略下,我國算力中心耗電量持續攀升。根據中國信通院中國綠色算力發展研究報告“(2024 年)和中國算力中心服務商分析報告(2024 年)中的數據,截至 2023 年底,全國算力總規模達 230 EFLOPS,位居全球第二,在用算力中心機架總規模超過 810 萬標準機架,在用機架數量三年復合增長率約 30%,總
10、耗電量達到 1500 億 kWh,占全社會用電 1.6%。其中,智能算力已經超過基礎算力成為我國算力規模增長的主要驅動力。截 1 來源:CRAWFORD K.Generative AI is guzzling water and energyJ.Nature,2024,626:693.2 來源:https:/ 3 來源:https:/ 算力電力協同:思路與探索白皮書(2025 年)清華大學、北京火山引擎科技有限公司 5 至 2023 年 6 月底,我國智能算力規模占整體算力規模的比例提高到 25.4%,同比增長 45%,比算力規模整體增速高 15 個百分點。預計到 2025 年,智能算力占比將
11、達到 35%。(二)(二)算力中心負荷具有特殊性,對電力系統是挑戰,也是機遇算力中心負荷具有特殊性,對電力系統是挑戰,也是機遇 1.挑戰:新型電力系統仍在建設,如何用綠電支撐算力發展?挑戰:新型電力系統仍在建設,如何用綠電支撐算力發展?算力中心負荷具有功率密度高、周期性強等與鋼鐵等傳統工業負荷相似的特征,但又具有可靠性要求高、綠色性要求高、以及潛在的波動性強等顯著不同的特征。然而新型電力系統仍在建設,如何用綠電支撐算力發展,成為電力側面臨的重要挑戰。以下是算力中心負荷功率密度高、周期性強、可靠性要求高、綠色性要求高、以及潛在的波動性強的案例說明:(1)功率密度高:2024 年 3 月,AI 初
12、創企業 OpenPipe 的聯合創始人 Kyle Corbitt 在社交平臺上透露4,與微軟工程師的交流中提到,在 GPT-6 訓練集群項目中,若在單一州部署超過 10 萬個 H100 GPU(約 150 兆瓦),可能引發電網崩潰的風險。(2)周期性強:2024 年 7 月,國網冀北電力有限公司在 中能傳媒研究院公眾號發表文章指出5“,算力中心的用電負荷具有明顯的節性性周期波動,與地區夏節用電高峰時段相吻合。以張家口算力中心集群為例,夏節和冬節的負荷峰谷差分別達到 17%和 7%。(3)可靠性要求高:2023 年 12 月,“券日報報報道了中國電信京冀冀智算中心的情況6,該中心向客戶承諾 99
13、.999%的電力不間斷性,是全國范圍內供電保障最高標準。4 來源:https:/ 5 來源:https:/ 6 來源:https:/ 算力電力協同:思路與探索白皮書(2025 年)清華大學、北京火山引擎科技有限公司 6 (4)綠色性要求高:2024 年 7 月,國家發改委等部門聯合印發的數據中心綠色低碳發展專項行動計劃中明確提出,到 2025 年底,要求國家樞紐性點新建數據中心綠電占比超過 80%。(5)潛在的波動性強:2024 年 5 月,硅谷 101性目對微軟的采訪報道中提到7,AI 算力中心“(又稱智算中心)的用電特征存在顯著的波動性在訓練或者推理時會出現非常大的擺幅。比如:它的用電可能
14、瞬間從滿載降至 10%,隨后又迅速回升至滿載。2.機遇:協同算力中心時空靈活性,助力新型電力系統建設機遇:協同算力中心時空靈活性,助力新型電力系統建設 同時,算力中心負荷具有時空靈活性,且算力中心運營商具有成本敏感性、算力中心增長呈現階段性發展特征,意味著可以通過激勵措施前瞻性地引導算力中心的規劃與運行。因此,可以通過充分挖掘算力中心與算力系統中蘊含的負荷靈活性,以算力電力協同規劃與運行的方式,提升新能源消納能力,為加快構建新型電力系統提供支撐。以下是算力中心負荷時空靈活性的具體說明:(1)一方面,算力中心供能結構具有較高的冗余度,蘊含以業務邏輯為核心的體量可觀的新型負荷靈活性。(2)另一方面
15、,區別于空調等傳統柔性負荷,可以通過在算力網中轉移算力需求實現電力的轉移,是目前已知的唯一一種可以不依賴電網而實現電力負荷瞬時轉移的新型負荷。其中,主要對象涉及:算力需求、算力中心、局部算力網、局部電力網、大算力網、以及大電力網。(三)(三)挖掘算力中心靈活性,優化算力中心供能結構與用能成本挖掘算力中心靈活性,優化算力中心供能結構與用能成本 在算力中心基礎設施(不包含算力)建設和運營成本中,電力占比顯著。根據IBM公司的數據8,在算力中心基礎設施建設成本中,電力設備占比超過50%,7 來源:https:/ 8 來源:https:/ 算力電力協同:思路與探索白皮書(2025 年)清華大學、北京火
16、山引擎科技有限公司 7 在算力中心基礎設施運營成本中,電力設備的固定資產折舊、運行維護和人工、以及電費占比 28%以上。因此,充分挖掘算力中心與算力系統中蘊含的負荷靈活性,一方面,能夠通過優化算力中心內部基本供能結構,實現高效低碳用能,并降低綜合用能成本;另一方面,還可以通過為電網提供負荷側靈活性,進一步降低算力的用能成本。算力電力協同:思路與探索白皮書(2025 年)清華大學、北京火山引擎科技有限公司 8 二、二、算電協同,具體協同什么?算電協同,具體協同什么?(一)(一)基本供用能結構中的算電耦合點,是算電協同的物理基礎基本供用能結構中的算電耦合點,是算電協同的物理基礎 算力中心及算力系統
17、的基本供用能結構(以 A 級算力中心某常用配電架構為例)如圖 4 所示。具體來說,一方面,在某算力中心園區,基本供能結構采用以列頭柜為核心的串聯結構,主要包括以下幾個部分:A.列頭柜(內置 IT 設備)、B.制冷設備、C.通信電源側蓄電池、D.備電系統、E.園區內常見的輔助能源設備,以及 F.外電。另一方面,在算力系統中,某算力中心是局部算力網中的性點之一,算力需求在互聯的算力網中流轉。同時,某算力中心園區是局部電力網的性點之一,電力流在 G.電力網中流轉。算力需求的流轉帶來電力負荷的遷移。各部分原圖來源:算力需求:https:/ 算力網:國家發展改革委高技術司、人民報報,一圖讀懂|“東數西算
18、”工程解讀 A:https:/ B:https:/ C:http:/ D:https:/ E:https:/chuneng.in- F:https:/ G:中華人民共和國國民經濟和社會發展第十四個五年規劃和 2035 年遠景目標綱要 圖 4 算力中心及算力系統的基本供用能結構(其中,以 A 級算力中心某常用配電架構為例)算力電力協同:思路與探索白皮書(2025 年)清華大學、北京火山引擎科技有限公司 9 以下具體闡述算力中心園區基本供用能結構中各部分的功能、配電特征、以及算電耦合點。A.列頭柜(內置 IT 設備):在功能層面,算力需求由 IT 設備處理,IT 設備放置于列頭柜內。因此,列頭柜的
19、功能是為 IT 設備直接供電。在配電特征層面,根據 A 級算力中心某常用配電架構中的“IT 配電”圖9,列頭柜由兩路通信電源供電,常見的通信電源包括 UPS 和 HVDC。在算電耦合層面,一方面,列頭柜的額定容量限制了其內置 IT 設備的容量,進而制約了算力能力和算力需求承載量10;另一方面,列頭柜的能耗特征由算力需求及算力功耗塑造。B.制冷設備:在功能層面,IT 設備等由制冷設備維持在適宜的溫度區間。在配電特征層面,根據 A 級算力中心某常用配電架構中的“動力配電”圖11,關鍵制冷設備由兩路通信電源供電,其他制冷設備直接由低壓總配電柜供電。在算電耦合點層面,一方面,受制冷設備的制冷能力限制,
20、列頭柜(內置 IT 設備)的容量不能無限增加。因此,當 AI 發展正在推動高功率密度機柜的同時,也促進了各種新型制冷技術的發展。另一方面,列頭柜(內置 IT 設備)的能耗特征也決定了制冷設備的能耗特征。C.通信電源側蓄電池:在功能和配電特征層面,通信電源系統配備蓄電池,在主電源中斷時,維持 IT 設備和部分制冷設備等關鍵設備無間斷運行至少 15 分鐘。這種配置提供了從主電源平穩切換到備電的寶貴時間,確保了算力中心的供電可靠性。在算電耦合點層面,一方面,IT 設備和部分制冷設備等關鍵設備要求在通信電源側蓄電池供電情況下能保持無間斷運行 15 分鐘以上,因此蓄電池的容量配置也間接影響算力需求承載量
21、。另一方面,列頭柜(內置 IT 設備)與關 9 http:/ 8-13.10 算力需求承載量定義為:在給定的區域范圍和時間范圍內,列頭柜最多可以承載的固定類型或特定組合的算力需求量,以算力需求功耗曲線關于時間的積分表征。11 http:/ 6-7.算力電力協同:思路與探索白皮書(2025 年)清華大學、北京火山引擎科技有限公司 10 鍵制冷設備的能耗特征決定蓄電池的最小備用容量要求,進而影響蓄電池的規劃建設、維修安排、閑置靈活性利用策略等。D.備電系統:在功能層面,備電是用于保障算力中心在主電源供應發生故障或中斷時,能夠繼續運行若干小時或幾個月等較長時間的關鍵基礎設施。柴油發電機是算力中心當前
22、的主流備電之一。在配電特征層面,根據 A 級算力中心某常用配電架構中的“2N 系統”圖12,柴發發電機組通過并機饋線柜接入 10kV 電源切換柜。在算電耦合點層面,一方面,算力中心要求在備電供電情況下能繼續運行若干小時或幾個月等較長時間,因此,備電系統的容量配置也會間接影響算力需求承載量。另一方面,包括列頭柜(內置 IT 設備)在內的算力中心主體能耗特征決定備電的最小備用容量要求,進而影響備電系統的規劃建設、維修安排、閑置靈活性利用策略等。E.園區內常見的輔助能源設備:在功能層面,園區內的其他輔助能源設備主要包括光伏、用戶側獨立儲能、充電樁等,主要用于探索智慧低碳園區、小規模源網荷儲等。在配電
23、特征層面,園區內輔助能源設備可以通過算力中心園區內的高壓或低壓配電柜接入。在算電耦合點層面,園區內輔助能源設備作為算力中心園區整體的一部分,園區內輔助能源設備與包括列頭柜(內置 IT 設備)在內的算力中心主體共用變壓器容量,并共同塑造算力中心園區的整體能耗特征。因此,園區內輔助能源設備與包括列頭柜(內置 IT 設備)在內的算力中心主體之間存在關聯,比如,可以通過園區內輔助能源設備減少用能或者增加出力,在不調整包括列頭柜(內置 IT 設備)在內的算力中心主體能耗的同時,改變算力中心園區的能耗特征。F.外電:在功能層面,外電是算力中心的主電源。市電是算力中心當前的主流外電。在配電特征層面,根據 A
24、 級算力中心某常用配電架構中的“2N 系統”圖,市電通過 35kV 市政電力進線接入算力中心園區。在算電耦合點層面,包括列頭柜(內置 IT 設備)在內的算力中心園區整體與電網之間存在耦合。一方面,12 http:/ 1-5.算力電力協同:思路與探索白皮書(2025 年)清華大學、北京火山引擎科技有限公司 11 算力中心園區作為局部電網一個性點,會對電網的潮流產生影響。另一方面,算力中心園區與電網的交互也受到整體電網負荷的影響,在規劃層面,影響體現在額定進線容量的配置上,在運行層面,比如,在每年的迎峰度夏期間,電力緊張時,電網希望算力中心開展需求響應和負荷調整。(二)(二)相關主體的相關主體的不
25、同利益訴求,是算電協同的核心驅動力不同利益訴求,是算電協同的核心驅動力 算力中心用能的相關主體(以某常用運營結構為例)如圖 5 所示,主要包括算力用戶、算力中心運營商13、以及電網公司三方主體。以下具體闡述各方主體的需求。圖 5 算力中心用能的相關主體(以某常用運營結構為例).算力用戶:算力用戶包括 Google、字性跳動、騰訊、阿里、Microsoft 等頭部互聯網公司,可從第一性原理、成本效益、以及企業責任三個角度對其用能層面的需求進行分析。從第一性原理而言,算力用戶的核心需求是確保業務的可靠性,包括時延和正確率等關鍵性能指標。因此,一方面,需要保券 IT 設備的用能可靠性;另一方面,在挖
26、掘算力需求及算力功耗的靈活性時,必須以保障業務的可靠性為前提。從成本效益而言,主要包括兩方面的需求:一是提升列頭柜的算力需求承載量,從而減少基礎設施投資,技術手段包括超電管理中的業務主 13 在自建算力中心中,算力中心運營商指的是算力用戶的基礎設施部門。在 Colo(主機托管)算力中心中,算力中心運營商為 Colo 自己;在某些商務合作模式下,算力用戶的基礎設施部門會共同參與運營。算力電力協同:思路與探索白皮書(2025 年)清華大學、北京火山引擎科技有限公司 12 動在線遷移;二是減少用能成本,技術手段包括電費需量管理等。從企業責任而言,主要需求是減少碳排放。目前,Google、字性跳動、騰
27、訊、阿里、Microsoft等公司已發布減排承諾14。.算力中心運營商:算力中心運營商包括世紀互聯、中國聯通、中國電信、中國移動、Google、字性跳動、騰訊、阿里、Microsoft 等,其在用能層面的需求可從第一性原理、行業要求、成本效益等三個角度分析。在第一性原理角度,算力中心運營商的核心訴求是滿足列頭柜(內置 IT 設備)供電的可靠性要求,包括持續性、電能質量等關鍵性能指標。在行業要求角度,主要包括三方面訴求:一是降低 PUE 值,二是提高綠電使用占比,三是減少碳排放,以符合行業發展趨勢和政策導向15。在成本效益角度,訴求是減少綜合用能成本,包括電力基礎設施建設和運營兩個階段。.電網公
28、司:電網公司包括國家電網有限公司、中國南方電網、以及內蒙古電力有限責任公司等。首先,從第一性原理角度來看,電網公司的核心訴求包括:一是安全高效供電,包括供電的可靠性和電能質量;二是清潔低碳供電,意味著需要消納更多的綠色電力。其次,從成本效益角度來看,電網公司需要利用算力中心等電力用戶側的靈活性,發掘新型調性能力,以提高整體效率和經濟性16“。14 算力用戶的減排承諾:字性:https:/ 騰訊:https:/ 阿里:http:/ Google:https:/ 要求算力中心運營商降低 PUE 值、提高綠電使用占比、減少碳排的相關政策包括:國家發展改革委等五部門,關于深入實施“東數西算”工程 加快
29、構建全國一體化算力網的實施意見,2023.工業和信息化部等六部門,算力基礎設施高質量發展行動計劃,2023.16 要求利用算力中心負荷靈活性的相關政策包括:國家發展改革委、國家能源局、國家數據局,加快構建新型電力系統行動方案(2024-2027 年),2024.算力電力協同:思路與探索白皮書(2025 年)清華大學、北京火山引擎科技有限公司 13 三、三、如何協同?如何協同?(一)(一)列頭柜列頭柜層面:預測算力需求及算力功耗,并挖掘其靈活性層面:預測算力需求及算力功耗,并挖掘其靈活性 1.涉及的主體:算力用戶、算力中心運營商涉及的主體:算力用戶、算力中心運營商 列頭柜是算力中心供用能架構中的
30、最小單元,也是算力用戶和算力中心運營商的最小交互單元。2.主要涉及的主體需求:提高算力需求承載量、挖掘潛在靈活性主要涉及的主體需求:提高算力需求承載量、挖掘潛在靈活性 算力用戶:提高算力需求承載量。算力中心運營商:充分利用資源,挖掘潛在靈活性。3.主要協同內容:預測算力需求及算力用能,并挖掘其靈活性主要協同內容:預測算力需求及算力用能,并挖掘其靈活性 預測算力需求及算力用能,并挖掘其靈活性,可以塑造列頭柜用能特征。一方面,可以提高算力需求承載量;另一方面,可以為電網提供算力用能部分的靈活性,同時是挖掘算力中心中其他供能單元靈活性的基礎。圖 6 算力需求的靈活性示意圖 算力電力協同:思路與探索白
31、皮書(2025 年)清華大學、北京火山引擎科技有限公司 14 4.難點:算力難點:算力-電力當量表征關系不明電力當量表征關系不明 5.例子例子 1:挖掘:挖掘 AI 模型訓練階段的用能靈活性模型訓練階段的用能靈活性 背景:一方面,智算負荷存在波動性,對通信電源以及電網帶來運行風險。另一方面,AI 模型訓練可容忍對單位時間計算量的波動17,且在未來,隨著 GPU資源逐漸下降的稀缺性,GPU 集群單位時間計算量不會保持峰值。技術路徑:通過動態調性 GPU 不同時段的工作頻率等,在不影響總計算量和總計算時間的前提下,實現動態調性 AI 模型在訓練階段的功率,從而可以使其用能匹配電力側信號(包括:電碳
32、信號、可再生能源出力信號)。技術難點:難以準確量化各調性手段(頻率、電壓、數量)對 GPU 功耗和計算性能的影響。6.例子例子 2:挖掘算力需求的靈活性,進行超電管理:挖掘算力需求的靈活性,進行超電管理 火山引擎系統部團隊開發了一系列基礎組件、并且在實驗環境下進行了測試鏈路和集成測試。通過低優驅逐、Intel rapl/AMD hsmp、任務遷移+關機等方法對電力管控方法效果進行了驗券。經過努力,2024 年底中國區僅有個位數的包間出現超電現象,超電現象控制在 101%以內。(二)(二)算力中心層面:從算力中心層面:從業務邏輯弱耦合到強耦合,發掘靈活性業務邏輯弱耦合到強耦合,發掘靈活性 1.涉
33、及的主體:算力中心運營商、電網公司涉及的主體:算力中心運營商、電網公司 算力中心層面是電網中的最小電力用戶單元,也是算力中心運營商和電網公司的最小交互單元。2.主要涉及的主體需求:降低用能成本與碳排、發掘新型靈活性主要涉及的主體需求:降低用能成本與碳排、發掘新型靈活性 算力中心運營商:減少用能成本、減少碳排。電網公司:利用算力中心等電力用戶側的靈活性,發掘新調性能力。17 支撐文獻:D.Gu,X.Xie,G.Huang,X.Jin,and X.Liu,“Energy-Efficient GPU Clusters Scheduling for Deep Learning,”May 14,2023
34、,arXiv:arXiv:2304.06381.Accessed:Jul.02,2024.Online.Available:http:/arxiv.org/abs/2304.06381.算力電力協同:思路與探索白皮書(2025 年)清華大學、北京火山引擎科技有限公司 15 3.主要協同內容:挖掘算力中心園區中的潛在靈活性主要協同內容:挖掘算力中心園區中的潛在靈活性 算力中心運營商充分利用資源,挖掘算力中心園區中的潛在靈活性。一方面,可以構建算力中心內部高效、低碳的綜合供能體系,降低用能成本和碳排;另一方面,算力中心運營商發掘靈活調性能力,可以為電網提供新型靈活性。4.與業務邏輯耦合性較弱的靈活
35、性發掘與業務邏輯耦合性較弱的靈活性發掘 思路 與業務邏輯耦合性較弱的靈活性資源:包括園區內常見輔助能源、以及部分備電、部分蓄電池、部分制冷設備。這些資源的總用能曲線可自行調控,且不影響算力中心用能可靠性。目標:通過協同調控與業務邏輯耦合性較弱的靈活性資源,在不影響業務邏輯的前提下,其用能自動匹配電力側信號(包括:電碳信號、可再生能源出力信號),實現降低用能成本,提高綠電使用占比,減少碳排。難點:算力中心園區內各類設備運行一體,如何準確地將與業務邏輯耦合性較弱的部分靈活性資源實時識別并獨立控制?這是不影響算力中心用能可靠性的前提。例子 1:園區綜合能量管理 算力中心園區是典型的綜合能源系統(冷-
36、熱-電),包含太陽能光伏發電、電儲能、充電樁等設備。綜合能量管理系統(簡稱 IEMS)18支持電-熱-光-儲-車等多種能流的高效協同和互動,可以通過優化控制儲能、光伏等園區內常見輔助能源提高綜合能源利用效率,減少園區總體碳排放。18 綜合能量管理系統的相關介紹:https:/ https:/ 算力電力協同:思路與探索白皮書(2025 年)清華大學、北京火山引擎科技有限公司 16 圖 7 園區綜合能量管理系統示意圖 例子 2:柴油發電機組的靈活性挖掘 火山引擎某華東基地,設計了專門的電力讓渡方案,從實操層面,基于經濟分析結算流程,準備了專門的響應方案和應急保障措施。例如,參與響應的現場報常配置儲
37、油量原則上不低于 12 小時,并有柴發巡檢、供電鏈路巡檢、監控系統安排和應急演練等安排。針對不同場景,如一臺柴發故障、兩臺柴發故障、市電停電等,提出了相應的措施和操作步驟,在 2024 年夏節根據電網要求,實際運行并獲取經濟性收益。5.與業務邏輯耦合性較強的靈活性發掘與業務邏輯耦合性較強的靈活性發掘 思路 業務邏輯耦合性較強的靈活性資源:與列頭柜(內置 IT 設備)供能密切的部分備電、部分蓄電池、部分制冷設備。這些資源的用能曲線可以基于業務邏輯進行調控。目標:通過協同調控算力需求和算力資源、以及與業務邏輯耦合性較強的靈活性,在不影響業務處理性能的前提下,其用能自動匹配電力側信號(包括:電碳信號
38、、可再生能源出力信號)。難點:依賴于列頭柜(內置 IT 設備)層面的功耗預測技術。算力電力協同:思路與探索白皮書(2025 年)清華大學、北京火山引擎科技有限公司 17 例子:HVDC 側儲備一體電池的閑置靈活性挖掘19 背景 1:HVDC 側掛儲備一體電池是列頭柜的供電方式之一。與僅具備用功能的蓄電池相比,儲備一體電池具備靈活性,但綜合配置成本較高。有必要挖掘HVDC 側儲備一體電池在備用需求之外的閑置靈活性,以獲得額外收益。背景 2:算力需求及算力功耗通常存在高峰(尤其是智算)。在沒有額外電力供應列頭柜的常規供電方式下,一方面,為避免供電列頭柜的通信電源帶載率超出約定閾值,列頭柜的算力需求
39、承載量通常低于通信電源的帶載能力,供電設備利用率較低;另一方面,當負荷波動過大時,存在通信電源來不及轉換、并迫使運行在備電模式的風險,影響供電可靠性。有必要探索一種新型供電方式,以提升列頭柜的算力需求承載量,并應對由負荷波動引發的潛在供電風險。技術路徑:聚焦于算力中心內部 HVDC 側儲備一體電池的閑置靈活性,提出了一種高溢價應用場景:一方面,提出一種新型供電方式,實現提高列頭柜的算力需求承載量,并應對由負荷波動引發的潛在供電風險,獲得高溢價應用;另一方面,同時考慮向電網提供負荷側靈活性,以獲得電力輔助服務市場補償并降低電費。技術難點:策略效果與算力需求功耗緊密耦合,因此,依賴于對列頭柜(內置
40、 IT 設備)層面的功耗預測技術。19 支撐文獻(團隊研究成果):陳敏,郭慶來,井湯博,等.算電協同探索:HVDC 側儲備一體電池靈活性挖掘J.電力建設,2025,46(2):1-12.https:/ 算力電力協同:思路與探索白皮書(2025 年)清華大學、北京火山引擎科技有限公司 18 a.提高算力需求承載量的實現思路 b.向電網提供負荷側靈活性的實現思路 圖 8 HVDC 側儲備一體電池的閑置靈活性應用思路 相關支撐技術:火山引擎某數據中心在室外獨立部署了一套 BBS 供電單元,其基本架構包括整流模塊、鋰離子電池、監控模塊,控制設備、供電模塊(PDU)等器件,支持本地運行邏輯部署以及遠程調
41、優。從物理形態上,這種架構的優點算力電力協同:思路與探索白皮書(2025 年)清華大學、北京火山引擎科技有限公司 19 時可以實現 BBS 供電單元和服務器機柜物理上的隔離,對于前期各種性能和壓力測試的安全性更好,本質上擺脫了原先機柜式 BBS 分布式部署一旦出現安全事故,影響服務器運行的風險。同時,室外獨立 BBS 系統具備內部消防和空調系統,進一步加強了其熱安全管控能力。BBS 電池系統采用磷酸鐵鋰電芯,進一步提高了安全性和可靠性。整套方案預計通過峰谷電價差套利,預計可以性省 10-15%左右的電力成本。設備將采集電池電流,電壓,SOC 狀態,結合電池電壓設置、峰谷套利時段設置、充放電功率
42、限制等約束條件,判斷 IDC 運行場景,進而進行峰谷價差套利工作。此外,針對可能數據中心可能出現的多種場景,方案通過預制控制邏輯,對 N 種潛在場景可能出現的突發情況進行了方案預制,規避了多種潛在風險。圖 9 火山引擎某數據中心在室外獨立部署的 BBS 供電單元的基本架構 算力電力協同:思路與探索白皮書(2025 年)清華大學、北京火山引擎科技有限公司 20 (三)(三)局部電網層面:高比例可再生能源局部電網本地自治局部電網層面:高比例可再生能源局部電網本地自治 1.涉及的主體:算力中心運營商、電網公司涉及的主體:算力中心運營商、電網公司 2.主要涉及的主體需求:綠電供應、綠電消納主要涉及的主
43、體需求:綠電供應、綠電消納 算力中心運營商:綠電供應,實現提高綠電使用占比。電網公司:綠電消納,實現清潔低碳供電。3.主要協同內容:圍繞算力中心的高比例可再生能源局部電網自治主要協同內容:圍繞算力中心的高比例可再生能源局部電網自治 以新能源為供電主體的供電體系,靈活性本就匱乏。在此基礎上,圍繞算力中心的高比例可再生能源局部電網(甚至孤立電網),疊加了供電可靠性要求高、高能耗、波動性和周期性并存的算力集群外用電特征,這使得靈活性問題更加突出。因此,需要充分挖掘算力集群自身的靈活性,助力圍繞算力中心的高比例可再生能源局部電網安全可靠運行。圖 10 圍繞算力中心的高比例可再生能源局部電網結構示意圖
44、4.例子:基于氫儲能的算力集群備電替代例子:基于氫儲能的算力集群備電替代 背景 1:備電是保障算力中心用電可靠性的關鍵設施。柴油發電系統是算力中心當前的主流備電之一。但柴油發電機組綜合成本較高(包括:投資成本和運維成本,基本處于閑置狀態),且對減碳不友好。背景 2:氫儲能具有中長時存儲成本低、儲量放大能力強等特點,氫儲能與電化學短時儲能技術配合,有望解決波動性風光可再生能源大規模接入帶來的新型電力系統多時間尺度電力電量平衡問題,實現電力能源的清潔可靠供應。然而,氫儲能的安全管理要求較高,適合由專業人員集中進行管理。算力電力協同:思路與探索白皮書(2025 年)清華大學、北京火山引擎科技有限公司
45、 21 技術路徑:以算力集群為對象,研究不同算力比選下的算力集群用電(包括:可靠性要求和負荷曲線)和靈活性特征差異,在此基礎上,構建基于氫儲能的綠色備電替代技術路線:“柴發+氫儲能+電化學儲能”的算力集群備電體系。一方面,對于算力集群來說,實現降低備電綜合成本,同時減少碳排;另一方面,可以支撐新型電力系統供電體系建設中對綠色長時儲能的需求。關鍵技術:包括氫儲能系統的工藝優化與配置技術、氫儲能系統的并離網接入與控制技術、考慮算力集群備電需求保障的經濟低碳調度技術。(四)(四)大規?!八懔W大規?!八懔W+電力網”層面:跨區優化調度電力網”層面:跨區優化調度 1.涉及的主體:算力用戶、算力中心運營
46、商、電網公司涉及的主體:算力用戶、算力中心運營商、電網公司 2.涉及的主體需求:降低用能成本與碳排、綠電消納涉及的主體需求:降低用能成本與碳排、綠電消納 算力用戶:降低用能成本與碳排。算力中心運營商:降低用能成本與碳排。電網公司:利用算力中心等電力用戶側的靈活性,發掘新調性能力,提升新能源消納能力。3.主要協同內容:在大規?!八懔W主要協同內容:在大規?!八懔W+電力網”中的負荷遷移與優化調度電力網”中的負荷遷移與優化調度 目標:通過算力網絡中的業務遷移,讓業務耗能自動匹配電碳信號、可再生能源出力等電力側信號的時空特性,實現降低算力網層面的用電成本和碳排,提升電力網層面的新能源消納。問題本質:
47、多主體下,考慮復雜數據流約束的多算力需求、供給中心和考慮復雜潮流約束的多電力送端、受端性點間的協同優化。關鍵技術:長距離算力遷移的通信保障和數據安全保障、算力負荷(比特)與電力負荷(瓦特)的當量模型、跨行業聯合優化的隱私計算等。算力電力協同:思路與探索白皮書(2025 年)清華大學、北京火山引擎科技有限公司 22 四、四、結語結語 伴隨 AI 的迅猛發展,算力中心發展迅速,能源需求增長不容忽視。與常見負荷相比,算力中心負荷存在特殊性,其同時具備功耗密度高、潛在波動性強、可靠性要求高、綠色性要求高、以及時空靈活性可觀、階段性發展等特征。通過充分挖掘算力中心與算力系統中的負荷靈活性,可以利用算力和
48、電力的協同性來提升新能源系統友好性能、并優化算力負荷用能結構與成本。在此背景下,可以從不同層次展開技術攻關,包括列頭柜層面、算力中心層面、局部電網層面、大規?!八懔W+電力網”層面??傮w而言,從技術可行性角度而言,核心技術是算力需求功耗的預測與調控,關鍵技術是基于算力需求功耗預測與調控技術的算力中心與算力系統中各部分靈活性的實時識別、獨立調控、以及協同調控。核心難點在于:算力中心中各類供能保障設備運行一體,并與算力需求功耗緊密耦合,需要嚴格論券并保障算力需求供能的高可靠性。從經濟可行性角度而言,首先需要根據第一性原理滿足相關主體的不同利益訴求,其次是行業要求、成本效益、社會責任等的考量。希望在多種技術與機制推動下,盡早實現高比例新能源驅動算力中心低碳、可靠、經濟運行,助力“能源與 AI 這對美妙的雙螺旋”的融合與發展。