ODCC:2023數據中心自適應AI節能白皮書(78頁).pdf

編號:142638 PDF  DOCX 78頁 3.90MB 下載積分:VIP專享
下載報告請您先登錄!

ODCC:2023數據中心自適應AI節能白皮書(78頁).pdf

1、1數據中心自適應 AI 節能技術白皮書ODCC-2023-02009編號 ODCC-2023-02009數據中心自適應 AI 節能技術白皮書開放數據中心委員會2023-09 發布I數據中心自適應 AI 節能技術白皮書ODCC-2023-02009版權聲明版權聲明ODCC(開放數據中心委員會)發布的各項成果,受著作權法保護,編制單位共同享有著作權。轉載、摘編或利用其它方式使用 ODCC 成果中的文字或者觀點的,應注明來源:“開放數據中心委員會 ODCC”。對于未經著作權人書面同意而實施的剽竊、復制、修改、銷售、改編、匯編和翻譯出版等侵權行為,ODCC 及有關單位將追究其法律責任,感謝各單位的配合

2、與支持。II數據中心自適應 AI 節能技術白皮書ODCC-2023-02009編寫組編寫組項目經理:項目經理:查帥榮維諦技術有限公司工作組長:工作組長:李代程百度在線網絡技術(北京)有限公司貢獻專家:貢獻專家:田軍維諦技術有限公司吳健維諦技術有限公司趙玉山維諦技術有限公司傅耀瑋維諦技術有限公司吳華勇維諦技術有限公司汪涵維諦技術有限公司曾瑩維諦技術有限公司雷愛民維諦技術有限公司周薛繼維諦技術有限公司劉敬民維諦技術有限公司韓會先維諦技術有限公司曲鑫維諦技術有限公司阮迪中國信息通信研究院III數據中心自適應 AI 節能技術白皮書ODCC-2023-02009前前 言言“新基建”政策的頒布實施,使云計

3、算和大數據得到了快速的發展,數據中心建設迎來了前所未有的增長。新建數據中心的建設規模越來越大,對數據中心的可靠性、設備性能和能源效率的要求逐步提高;而在存量數據中心中,能效和老化問題日益凸顯,改造需求激增?!半p碳”等一系列政策的出臺,更加推動了數據中心的節能減排,降低 PUE 已成當務之急;同時,由此帶來的數據中心的管理成本也越來越高,降低數據中心運營管理成本逐漸成為人們關注的焦點。人工智能技術發展突飛猛進,使得其在數據中心基礎設施領域中也得到了初步的應用。一方面,人工智能技術在數據中心中可以提高數據中心的效率,降低運營成本,優化決策。例如,智能算法能源管理、智能機器人巡檢設備、自動化程序故障

4、排查等技術可智能化地管理數據中心,為數據中心運營帶來社會和經濟的雙重收益。另一方面,智能化的安全監控和風險評估可防止故障和宕機事件,提高數據中心可用性。本白皮書將對數據中心人工智能技術的發展現狀、應用情況、未來趨勢進行討論和梳理,聚焦利用 AI 技術自適應地進行不同場景下的空調群控節能方案,從數據、算力、算法等幾個方面進行展開分析。由于時間倉促,水平所限,錯誤和不足之處在所難免,歡迎各位讀者批評指正。如有意見或建議請聯系編寫組。IV數據中心自適應 AI 節能技術白皮書ODCC-2023-02009目目 錄錄版權聲明.I編寫組.II前言.III一、概述.1二、術語.1三、AI 技術發展路徑及在數

5、據中心的應用現狀.5(一)AI 技術的發展現狀.51.AI 技術的起源及發展歷程.52.AI 技術的主要應用場景.7(二)AI 技術在數據中心領域的發展情況.101.能耗優化.102.故障診斷.123.算力調度.134.安全監測.135.輔助運維.15(三)小結.16四、主要技術路線對比.18(一)AI 節能技術評估維度.18(二)AI 節能技術突破方向.20(三)數據采集方式對比.21(四)主要算法模型對比.231.主要算法模型概述.23V數據中心自適應 AI 節能技術白皮書ODCC-2023-020092.常見優化算法概述.313.黑白盒算法概述.34(五)算法部署架構對比.361.邊緣部

6、署.372.中心部署.383.互聯網云部署.39五、主要場景方案及案例分析.41(一)基站級場景案例.411.場景概況.412.AI 應用方案.423.AI 性能綜合評估.44(二)微模塊 MDC 場景案例.451.場景概況.452.AI 應用方案.483.AI 性能綜合評估.52(三)房間級場景案例.551.場景概況.552.AI 應用方案.563.AI 性能綜合評估.59(四)樓宇級場景案例.611.場景概況.612.AI 應用方案.62六、未來發展技術洞察.64(一)智能供配電系統.64VI數據中心自適應 AI 節能技術白皮書ODCC-2023-02009(二)智能電能路由器.65(三)

7、智能大模型輔助運維.66(四)智能碳交易及調度系統.67(五)黑燈及無人駕駛數據中心.68(六)風險及挑戰.701數據中心自適應 AI 節能技術白皮書ODCC-2023-02009數據中心自適應數據中心自適應 AIAI 節能技術白皮書節能技術白皮書一、一、概述概述本白皮書對數據中心人工智能技術的發展現狀、應用情況、未來趨勢進行了詳細的梳理,探索如何使用人工智能技術來優化數據中心的管理和運行,主要聚焦在利用 AI 技術自適應地進行不同場景下的空調群控節能,以期推動人工智能技術在數據中心領域的發展。二、二、術語術語算法(算法(AlgorithmsAlgorithms)一組用于人工智能、神經網絡或其

8、他機器的規則或指令,以幫助它們自主學習;包括分類、聚類、推薦和回歸等類型。人人工工智智能(能(ArtiArtificialicial IntelligenceIntelligence)機器模擬人類智力和行為做出決策、執行任務的能力。人人工工神經神經網絡(網絡(ANNANN)模擬人腦運作的學習模型,用于解決傳統計算機系統難以解決的任務。聊天聊天機器機器人人(ChatbotsChatbots)通過文本對話或語音命令模擬與人類用戶進行對話的計算機程序,具有 AI 功能。數據數據挖掘挖掘(DataData MiningMining)2數據中心自適應 AI 節能技術白皮書ODCC-2023-02009從

9、大量數據中發現隱藏的模式和關聯性的過程。決決策樹策樹(DecisionDecision TreeTree)基于分支的樹模型,繪制決策及其可能后果的模型圖,與流程圖類似。深度深度學習學習(DeepDeep LearningLearning)機器通過由層疊信息層組成的人工神經網絡自主模仿人類思維模式的能力。認知計算(認知計算(CognitiCognitive e ComputingComputing)模仿人類大腦思維方式的計算模型,通過使用數據挖掘、自然語言處理和模式識別進行自學習。機器機器智智能(能(MachineMachine IntelligenceIntelligence)涵蓋機器學習、深

10、度學習和古典學習算法在內的總括術語。機器感知(機器感知(MachineMachine PerceptionPerception)系統接收和解釋來自外部世界數據的能力,類似于人類使用感官??赡苄枰饨佑布蛙浖С?。自自然然語言處理(語言處理(NaturalNatural LanguageLanguage ProcessingProcessing,NLPNLP)利用計算機算法和統計模型,讓計算機能夠理解和生成人類語言。強化強化學習學習(ReinReinforcementorcement LearningLearning)一種機器學習技術,通過試錯過程中不斷調整行為,讓計算機自動3數據中心自適應

11、AI 節能技術白皮書ODCC-2023-02009學習最優解決方案。監監督學習督學習(SuperSupervisedised LearningLearning)機器學習的一種,其輸出數據集訓練機器產生所需的算法,如老師監督學生;比無監督學習更常見。無監無監督學習督學習(UnsuperUnsupervisedised LearningLearning)一種機器學習算法,通過不帶標簽響應的輸入數據組成的數據集進行推理。最常見的無監督學習方法是聚類分析。計算機計算機視覺視覺(ComputerComputer VisionVision)利用計算機算法和模型來識別和理解圖像和視頻。預測分預測分析析(Pr

12、edictiPredictive e AnalyticsAnalytics)利用統計模型和數據挖掘技術,預測未來事件的可能性和趨勢。模式模式識識別(別(PatternPattern RecognitionRecognition)通過機器學習技術,讓計算機識別和分類數據中的模式。聚聚類分類分析析(ClusterCluster AnalysisAnalysis)利用統計模型和機器學習技術,將數據分為相似的組,從而識別數據中的結構和關系。人人工工智智能優化(能優化(AIAI OptimizationOptimization)通過利用機器學習和優化算法,自動化數據中心的資源管理和調度,提高性能和效率。

13、4數據中心自適應 AI 節能技術白皮書ODCC-2023-02009卷積神經卷積神經網絡(網絡(CNNCNN)一種識別和處理圖像的神經網絡。循環循環神經神經網絡(網絡(RNNRNN)一種理解順序信息、識別模式、并根據這些計算產生輸出的神經網絡。5數據中心自適應 AI 節能技術白皮書ODCC-2023-02009三、三、AIAI 技術發展路技術發展路徑徑及在數據中心的應用現狀及在數據中心的應用現狀(一)(一)AIAI 技術的發展現狀技術的發展現狀1.1.AIAI 技術的起源及發展歷程技術的起源及發展歷程人工智能(AI)是計算機科學的一個分支,致力于研究和開發能夠模擬人類智能的計算機系統。AI 技

14、術的發展歷程可以追溯到 20世紀 50 年代。起源起源階階段(段(1943-19551943-1955):):1943 年,Warren McCulloch 和 Walter Pitts 提出了人工神經網絡的概念,這是 AI 研究的起點。1950 年,Alan Turing 發表了著名的計算機器與智能論文,提出了“圖靈測試”概念,成為 AI發展的重要奠基石,在這個階段,AI 的基本概念和理論逐漸形成。初初創階創階段(段(1956-19691956-1969):):1956 年,約翰麥卡錫、馬文明斯基、納撒尼爾羅切斯特和克勞德香農等人在達特茅斯會議上共同發起了人工智能領域的研究。此后,研究者們開

15、始廣泛探討 AI 的潛力,開發出許多早期的AI 程序,如邏輯理論家、通用問題求解器等。這一時期的 AI 研究主要集中在基于規則和邏輯的方法上。知知識識表示與專表示與專家家系統系統階階段(段(1970-19851970-1985):):AI 研究重心轉向了知識表示和推理。研究者們開始開發基于知識的專家系統,如 MYCIN、DENDRAL 等,這些系統能夠在特定領域內6數據中心自適應 AI 節能技術白皮書ODCC-2023-02009解決復雜問題。在這一階段,AI 得到了廣泛關注,并在醫學、化學等領域取得了實際應用。連接主義與連接主義與神經神經網絡復網絡復興階興階段(段(1986-19991986

16、-1999):):在 1980 年代,基于連接主義的研究逐漸興起,人工神經網絡技術得到了重新關注。1986 年,Rumelhart 和 Hinton 等人提出了反向傳播算法,使得多層神經網絡的訓練成為可能。同時,遺傳算法、模糊邏輯等智能優化技術也在這一時期得到了發展。機器機器學習學習與大數據與大數據階階段(段(2000-20102000-2010):):隨著計算能力的提高和大數據的興起,機器學習技術得到了飛速發展。支持向量機、隨機森林、AdaBoost 等機器學習算法應運而生,廣泛應用于各種領域。在這一階段,研究者們開始關注數據驅動的方法,通過從大量數據中學習模式和特征來實現智能。同時,AI

17、領域的核心技術逐步拓展至自然語言處理、計算機視覺、語音識別等多個方向。深度深度學習學習與與 AIAI 革革命命階階段(段(2011-2011-至至今今):):2012 年,Alex Krizhevsky 等人提出了 AlexNet,一種基于卷積神經網絡的深度學習模型,成功贏得了 ImageNet 大規模視覺識別挑戰賽。自此,深度學習技術在 AI 領域掀起了一場革命。隨后,LSTM、Transformer 等網絡結構不斷涌現,深度學習在自然語言處理、語音識別、強化學習等領域取得了突破性進展。7數據中心自適應 AI 節能技術白皮書ODCC-2023-02009近年來,AI 領域的發展進入了一個高速

18、發展階段,諸如 OpenAI、DeepMind 等研究團隊取得了重大成果。例如,OpenAI 的大模型大語言系列模型在自然語言處理領域創造了諸多紀錄。同時,AlphaGo等程序成功擊敗了圍棋世界冠軍,展示了 AI 在復雜決策領域的潛力。綜上所述,人工智能技術經歷了多個階段的發展,從起源到現在的深度學習革命,AI 不斷拓展其在各個領域的應用,并取得了顯著的突破。未來,隨著技術的進一步發展,AI 有望在更多領域發揮重要作用,為人類帶來更多福祉。出于對數據中心安全性的考慮,本白皮書主要聚焦于當前已成熟穩定應用算法在節能控制方面的測試及研究。2.2.AIAI 技術的主要應用場景技術的主要應用場景計算機

19、計算機視覺視覺(ComputerComputer VisionVision)計算機視覺是一種利用計算機和數字圖像處理技術來模擬和自動識別人類視覺的過程,它主要研究如何讓計算機“看懂”圖像和視頻內容。主要任務包括圖像分類、目標檢測、目標跟蹤、語義分割、三維重建等。深度學習技術在計算機視覺領域取得了重要突破,尤其是卷積神經網絡(CNN)在圖像處理任務上表現優異,例如AlexNet、VGG、ResNet 等。在醫療影像、安防監控、自動駕駛等領域都有廣泛的應用。語音語音識識別(別(SpeechSpeech RecognitionRecognition)8數據中心自適應 AI 節能技術白皮書ODCC-2

20、023-02009語音識別是將人類的語音信號轉換成可理解的文本信息的技術。它涉及到聲學模型、語言模型等多個方面。近年來,深度學習技術在語音識別領域取得了顯著成果。長短時記憶網絡(LSTM)和循環神經網絡(RNN)在處理時序信息方面有優勢,因此在語音識別領域應用廣泛。自自然然語言處理(語言處理(NaturalNatural LanguageLanguage ProcessingProcessing,NLPNLP)自然語言處理是一種研究如何讓計算機理解、生成和處理人類自然語言的方法。它能夠進行自然語言合成理解、詞性標注、命名實體識別、句法分析、情感分析、機器翻譯等。近年來,Tranform-er

21、網絡結構的出現和 BERT、大模型等預訓練模型的發展,使得自然語言處理領域取得了突破性進展。專專家推薦家推薦系統(系統(E Expertpert RecommendationRecommendation SystemSystem)推薦系統是一種利用機器學習和人工智能技術,通過分析用戶的行為和興趣,為用戶提供個性化的信息、產品或服務推薦。主要技術包括基于內容的推薦、協同過濾、矩陣分解、深度學習等。近年來,深度學習技術在推薦系統中的應用逐漸增多,如利用深度神經網絡學習用戶和物品的高維表示,提高推薦效果。推薦系統已經廣泛應用于電商、社交媒體、音樂視頻等領域。工業控制(工業控制(IndustrialI

22、ndustrial ControlControl)工業控制技術主要關注如何在實際生產過程中實現對設備和系統的有效控制。在工業控制領域,人工智能技術可以應用于優化算9數據中心自適應 AI 節能技術白皮書ODCC-2023-02009法、故障診斷、預測性維護等方面。目前,人工智能技術已經在工業控制領域取得了實質性進展,逐步成為各個環節的關鍵支持,尤其是在工業自動化和工業互聯網領域,利用 AI 技術,如計算機視覺、深度學習和模型預測控制等,實現了自動化質量檢測、故障預測和能源優化,提高生產效率和降低成本。工業機器人在人工智能的支持下取得了顯著發展,實現了更高水平的人機協作和生產自動化。同時,人工智能

23、技術在供應鏈管理中的應用,也提高了供應鏈透明度和效率。例如:西門子在其 Amberg 工廠使用 AI 來優化其生產流程。利用 AI 和其他數字技術自動化了大約 75%的生產過程,從而大大提高了生產效率和質量。阿里巴巴的菜鳥網絡使用 AI 和機器人來自動化倉庫操作,大大提高了倉庫的運作效率并降低了人工錯誤。BMW 使用 AI 進行質量控制。在其生產線上,機器視覺系統可以檢測車輛的漆面是否存在任何缺陷或不規則性,從而自動檢測可能的生產缺陷。海爾運用工業物聯網和 AI 技術,對自己的生產線進行數字化改造,在其 COSMOPlat 工業互聯網平臺,運用 AI 技術實現了供需匹配、生產計劃、生產執行等一

24、系列環節的優化,從而實現了靈活生產和個性化定制。盡管 AI 在多個領域表現出卓越的能力,其在工業控制領域的應10數據中心自適應 AI 節能技術白皮書ODCC-2023-02009用相較而言卻顯得較少。此種現象主要由一些固有難題所致,首要的問題在于數據采集的精準度、數據標準化以及控制系統的安全性。數據的準確度對 AI 模型的預測和決策至關重要,任何誤差都可能影響效率和質量。標準化的數據可以促進數據交換,為 AI 應用奠定基礎。而安全性則關乎重要設施和設備,一旦出現問題,后果嚴重。因此,雖然 AI 的潛力巨大,仍需在更廣泛的應用前解決上述挑戰,以推動工業控制領域 AI 的進一步發展。(二)(二)A

25、IAI 技術在數據中心領域的發展情況技術在數據中心領域的發展情況隨著全球數據量的爆炸式增長,數據中心的能耗問題日益凸顯,其中,制冷系統是數據中心能耗的主要部分。如何提高數據中心制冷系統的能效,是行業面臨的重要挑戰。越來越多的數據中心開始尋求創新解決方案,而人工智能(AI)技術的崛起,為這個問題帶來了新的可能性。AI 能夠實時收集并處理大量數據,預測和控制制冷系統的工作狀態,從而實現能源的優化利用。在本白皮書中,我們將深入探討 AI 技術在數據中心制冷系統中的具體應用和潛力,展示如何利用 AI 幫助數據中心實現更高效、環保的運行模式。目前,AI 技術在數據中心領域的應用主要在能耗管理、故障診斷、

26、安全監測、輔助運維等幾個方面,下面將結合在這幾個方面的應用進行介紹。1.1.能耗優化能耗優化在能耗管理方面,人工智能技術已在數據中心能耗分析和預測11數據中心自適應 AI 節能技術白皮書ODCC-2023-02009領域取得進展。通過收集歷史能耗數據、機房溫濕度和氣象數據等多種因素,構建預測模型。利用預測模型對未來能耗進行預測,并依據預測結果對能耗進行調整與優化,實現有效的能耗管理,從而降低能耗并提高整體效率。盡管目前這些模型在應對數據種類缺失、缺乏豐富算法模型和算法組合靈活性不足,人工智能技術在數據中心能耗管理及優化方面仍開始逐步發揮著關鍵作用。以利用機器學習技術優化數據中心能耗管理為例。在

27、數據中心能耗管理的場景中,可以將歷史能耗數據、天氣數據以及其他可能影響能耗的因素作為輸入,來訓練一個機器學習模型。這個模型可能使用監督學習的方式,即根據已知的輸入(比如氣溫、濕度、負載量等)和輸出(實際能耗)進行學習。訓練完成后,模型將能根據輸入的天氣數據和預期負載量等信息,預測未來某一時間點的數據中心能耗。依據這一預測結果,數據中心可以更加精確地調整其能源策略,例如優化設備的運行狀態、調度任務的執行順序,甚至調整冷卻系統的運行方式,從而實現更高效的能源管理。因此,機器學習在數據中心能源管理和資源調度中提供了強大的支持。Google 利用其 TensorFlow 機器學習框架,通過分析數據中心

28、的負載模式和服務器資源利用率,對任務的分配和調度策略進行自動調整,從而優化了能源管理并實現了能源利用的最大化,通過使用機器學習技術,Google 成功地將其數據中心的冷卻能耗降低了12數據中心自適應 AI 節能技術白皮書ODCC-2023-0200940%。但這種方法在冷凍水系統的應用中經常要進行針對性的調整,需要專業的人員參與和現場調試,這是對新技術普適性應用的常見挑戰。在算力需求方面,系統可能需要一些特定的場景才能發揮最大效能,但隨著硬件技術的不斷進步,這也讓我們看到了 AI 技術在不斷適應和學習的過程中,其潛力和靈活性不斷提高。2.2.故障故障診診斷斷在故障分析方面,數據中心設備故障是數

29、據中心運營中常見的問題,AI 技術可以分析設備運行數據,通過機器學習和深度學習算法對數據進行分析處理,提前預測硬件故障,進而可以提前進行預測性維護,避免數據中心的服務中斷和數據丟失,從而提高數據中心設備的可靠性和可用性。然而,目前這些技術普遍存在處理數據不完整、模型泛化能力有限和對實時故障診斷響應速度較慢等問題。以深度學習技術對數據中心進行故障檢測為例,深度學習技術能夠通過訓練模型實現自動化設備故障識別。該模型通過學習設備在正常運行狀態與異常狀態下的特征,從而判斷設備是否出現故障。進一步地,根據識別結果,可以提供相應的維修措施以確保數據中心的穩定運行。但是,深度學習方法在處理大量實時數據時可能

30、面臨計算資源和實時性的挑戰。此外,當數據缺失或存在噪聲時,模型的預測準確性可能受到影響。雖然 AI 技術在數據中心故障檢測方面具有巨大潛力,但仍需針對現有不足進行改進。13數據中心自適應 AI 節能技術白皮書ODCC-2023-020093.3.算力調度算力調度AI 技術可以通過分析數據中心中的負載、資源使用情況等數據,對數據中心的資源進行智能調度,實現資源的最優利用和分配,提高資源利用率和效率。例如,可以使用強化學習算法對服務器的資源分配和管理進行優化,提高資源利用效率和數據中心的服務質量。以服務器負載均衡為例,數據中心中的不同服務器可能承載不同數量和類型的工作負載,從而導致負載不均衡現象。

31、應用強化學習技術,可以通過觀察服務器的性能和工作負載情況,實現自動調整服務器的負載均衡。在某些場景下,現有的算法模型可能不夠豐富,無法滿足不同場景下的資源調度需求,導致算法組合靈活性不足。4.4.安全監測安全監測信息安全方面,數據中心正逐漸采用人工智能技術實現安全監測和威脅防范,通過 AI 技術對數據中心的網絡流量進行深度學習分析,以及對數據中心的安全事件數據的結合,利用機器學習算法和深度學習算法對數據進行處理,自動檢測安全事件,實現對數據中心的安全監測和威脅防范,從而提高數據中心的安全性。例如,可以使用深度學習算法對網絡流量進行分類和分析,檢測出潛在的安全威脅,并及時進行預警和處理。盡管 A

32、I 技術在數據中心安全監測方面具有很大潛力,其應用仍面臨一些挑戰。例如,對抗性攻擊可能誤導 AI 系統,導致誤報或漏14數據中心自適應 AI 節能技術白皮書ODCC-2023-02009報,而新型或未知的攻擊方式可能無法被現有算法檢測到。此外,AI 系統的訓練和部署需要大量的計算資源和數據,可能導致較高的成本和難以滿足實時監測的需求。阿里云是最早采用了人工智能技術以提升數據中心的安全性的廠家之一。其 AI 驅動的安全系統結合了深度學習和機器學習算法,對大規模的網絡流量進行實時監測和分析,成功地自動檢測出潛在的安全事件。在實際應用中,當系統檢測到異常行為或安全事件時,會立即發出預警并啟動防護措施

33、。這種自動化的響應機制顯著提升了阿里云數據中心的安全性和穩定性,確保了業務的連續性和數據的安全性。但對抗性攻擊可能會誤導 AI 系統,導致誤報或漏報。同時,訓練和部署這種復雜的 AI 系統需要大量的計算資源和數據,可能帶來較高的成本,影響實時監測的效果。微軟的 Azure 數據中心同樣采用了深度學習算法,對網絡流量進行實時監測,發現并阻止了一些潛在的網絡攻擊行為。但目前這些算法可能對一些復雜、隱蔽或新型的攻擊手段表現出不足,需要不斷更新和優化以應對日益嚴峻的網絡安全威脅。Facebook 的深度學習故障診斷系統可以通過監測服務器運行狀況和異常行為,識別故障和潛在的風險,并及時進行修復。該系統使

34、用了基于深度學習的異常檢測算法和預測模型,以提高數據中心的可靠性和穩定性。然而,同樣的,在實際應用中,這些模型可能需要大量的訓練數據和計算資源,同時,它們可能在面對一些特殊15數據中心自適應 AI 節能技術白皮書ODCC-2023-02009情況或少見的異常行為時出現誤判或漏報。5.5.輔助輔助運維運維綜合運維方面,數據中心正嘗試采用人工智能技術實現自動化輔助運維,以提高運維效率和質量。用戶能夠通過自然語言與數據中心交互,實現自動化理解用戶需求并執行相應操作,但自然語言處理技術在理解復雜、模糊或不規范的語言表述時可能出現誤解或無法準確執行的問題。以自然語言理解技術為例,該技術能將用戶的自然語言

35、需求轉化為相應命令,實現自動化執行。在數據中心運維過程中,自然語言處理技術可協助運維人員迅速獲取和分析系統狀態信息,執行故障排查和修復任務,但可能受限于當前技術水平,難以應對一些復雜或特殊的問題。此外,借助自然語言處理技術,數據中心還可實現與其他智能系統的無縫對接,但技術之間的兼容性和集成仍需要進一步優化,以確保實現更高程度的自動化和運維效率。騰訊云的“智能運維助手”是一個典型的 AI 在數據中心輔助運維的案例。其利用自然語言處理技術,能夠準確地理解用戶的需求,進而轉化為相應的命令進行自動化執行。當運維人員與“智能運維助手”交互,請求系統狀態報告或執行某項維護任務時,比如重啟服務器,智能運維助

36、手能快速執行并提供反饋,這大大提高了運維效率和質量。除了基礎的運維任務,智能運維助手還具備與其他智能系統的無縫對接能力,這進一步推動了數據中心的自動化運16數據中心自適應 AI 節能技術白皮書ODCC-2023-02009維進程。目前,AI 在進行輔助運維方面的工作時,理解復雜、模糊或非標準的語言輸入時仍存在挑戰,有時可能無法準確執行命令。IBM 的 Watson 平臺是另一個典型的應用案例,它基于人工智能和自然語言處理技術,能夠分析和理解大量結構化和非結構化數據,為數據中心提供智能化的推理和決策支持。當 Watson 應用于數據中心日志管理時,它可以對大量日志信息進行分析和處理,協助運維人員

37、迅速發現和解決問題,從而降低數據中心的停機時間。(三)(三)小結小結經過對人工智能的歷史發展以及現狀的探討,無論是在能效優化、故障預測,還是在安全監測、輔助運維方面,不難看出 AI 技術已深入到數據中心的各個領域,AI 的影響力都日益顯現?,F代數據中心,也正充分利用 AI 技術,將運維自動化推向了前所未有的高度,大大提升了數據中心的安全性和運營效率。其中,就本白皮書重點關注的能效方面而言,人工智能技術正在廣泛應用于提升數據中心的能源效率。通過對數據中心 PUE 的組成進行分析,其中制冷系統能耗約占數據中心總能耗的 40%,因此,將 AI 節能技術聚焦應用在制冷系統上,無疑是一種極具成效的降低數

38、據中心能耗的節能途徑。然而,必須認識到,任何 AI 技術的實施都離不開強大的算法、穩定的算力和合理的數據結構的支持。因此,接下來的內容將聚焦于 AI 技術的算法、算力和數據結構的深度探討。通過這一過程,我17數據中心自適應 AI 節能技術白皮書ODCC-2023-02009們期待進一步理解 AI 的內在工作機制,以利用 AI 技術更好地提升數據中心的運維水平。18數據中心自適應 AI 節能技術白皮書ODCC-2023-02009四、四、主要技術路線對比主要技術路線對比(一)(一)AIAI 節能技術評節能技術評估估維度維度節能性節能性反映 AI 節能技術在降低數據中心總能源消耗方面的表現。通常用

39、 PLF 或者整體 PUE 來衡量,也可用空調能耗或整體能耗節省百分比來評估。經濟經濟性性反映 AI 節能技術在投資回報方面的表現。通常用投資回報率(ROI)來衡量,全面考慮初投資、維護成本、電費節省及相關的風險成本等??煽啃钥煽啃苑从?AI 節能技術在保證數據中心正常運行和系統穩定性方面的表現。通常用故障恢復時間、服務中斷次數等指標來衡量。適應性適應性反映 AI 節能技術在應對數據中心規模變化和應用場景多樣性方面的表現差異,通常用不同測試場景下節能效果百分比的標準離差(用來衡量數據分布的離散程度的一種指標)率來衡量。擴展性擴展性反映 AI 節能系統可隨數據中心基礎設施建設周期的規模和結構19

40、數據中心自適應 AI 節能技術白皮書ODCC-2023-02009變化而靈活擴展的能力。拓展性強的 AI 節能系統可在數據中心全生命周期進行平滑投入和擴容。數據安全性數據安全性反映 AI 節能技術對于所使用的基礎設施關鍵數據的保護能力。包括本地數據如何免受黑客攻擊、數據泄露、系統故障等各種威脅,以及合適的云端數據加密及脫敏傳輸方案設計。預測準確性預測準確性反映 AI 節能技術在預測設備參數變化趨勢、預防設備故障、提高基礎設施可用性的能力。通常用預測的準確性、預測提前時間和故障處理效率等指標來衡量??山饪山忉屷屝孕苑从骋粋€算法或模型產生的預測或決策可以被人類理解和解釋的程度,主要體現在如何讓算法

41、的工作原理通過特征值展示以及圖形可視化等方式讓人類用戶更加透明和容易理解。表 1AI 節能技術評估維度重要性排序重重要性要性維度維度描描述述1節能性降低數據中心能源消耗2適應性應對數據中心規模變化和應用場景多樣性3經濟性投資回報率、成本節省4可靠性數據中心正常運行、系統穩定性20數據中心自適應 AI 節能技術白皮書ODCC-2023-020095數據安全性數據和系統免受各種威脅6預測準確性設備故障預測、預防性維護7擴展性系統可隨數據中心建設規模和結構變化而靈活擴展8可解釋性算法工作原理透明度、易于理解(二)(二)AIAI 節能技術突節能技術突破破方向方向通過對數據中心存在問題及發展趨勢的分析,

42、結合 AI 在數據中心領域的應用情況,不難發現當前節能性、經濟性、安全性 3 個維度是目前 AI 在數據中心領域應用亟待提升和突破的研究方向。更普適的節能性更普適的節能性現在數據中心的能源消耗主要集中在設備運行和冷卻系統。傳統數據中心的能源管理方式存在采集數據單一、收斂速度慢、場景適應性差等問題,可能無法充分發揮節能潛力,存在能源浪費。例如,傳統的冷卻系統往往采用固定的冷卻策略,無法根據設備的實時負載和環境溫度進行動態調整,導致冷卻效率低下。更合理的更合理的經濟經濟性性在采用 AI 節能技術時,可能會面臨一定程度的初期的投資成本上升,投資回報可能不會立即顯現。例如,AI 技術的引入需要購買新的

43、硬件設備,進行系統升級,以及對員工進行培訓,這些都會增加初期的投資成本。為確保長期收益,需要充分評估投資回報率(ROI)。21數據中心自適應 AI 節能技術白皮書ODCC-2023-02009更全面的安全性更全面的安全性由于 AI 的不可解釋性,給 AI 的安全措施設計和實現帶來了很大困難。因此,在算法本身不可解釋的前提下,通過 AI 相關層級的控制實現全方位,多層次的保護是非常重要的議題。目前解決此問題的思路主要有控制邏輯隔離,底層保底邏輯和減緩控制步長幾種主要思路,通過綜合利用幾種技術思路,通過綜合運用這些技術組合,可以大大增強方案的安全性。綜上,針對這些問題和改進方法,可以根據具體數據中

44、心的環境和需求進行調整和優化,來實現數據中心 AI 節能技術的高效應用。而為了實現數據中心 AI 節能技術在節能性、經濟性、安全性 3 個方向的突破,還需要在具體的技術路徑上進行擇優,通常實現 AI 技術的運行,需要確定其數據采集方式、算法模型以及部署架構三部分內容,因此,本文將主要從采集方式、算法模型以及部署架構來進行對比。(三)(三)數據采集方式對比數據采集方式對比數據采集方式的設計將直接影響到傳感器數量、算法部署思路及系統硬件成本,是整個 AI 節能系統設計的基礎。數據中心的數據采集主要可通過兩種方式實現:直接采集,間接采集。直接采集:直接采集:22數據中心自適應 AI 節能技術白皮書O

45、DCC-2023-02009這種方式通常涉及到在數據中心設備上安裝傳感器,例如溫度傳感器或濕度傳感器,這些傳感器可以直接從設備中收集數據。此外,還可以使用網絡設備,如交換機和路由器,通過 SNMP 協議直接獲取設備的運行狀態和性能數據。直接采集具備數據準確性高的優點,可以直接獲取設備的實際運行狀態,如溫度、濕度、功率消耗等,對于及時發現和處理問題很有幫助。但其安裝和維護成本較高,可能需要額外的硬件設備和安裝工作。另外,如果設備數量眾多,直接采集可能會產生大量的數據,處理和存儲這些數據可能是一個挑戰。間接采集:間接采集:數據中心分系統眾多,在數據獲取時可以充分考慮利用其他子系統已有的傳感器信號通

46、道和歷史數據,進行模型訓練和實時推理。許多數據中心設備,包括存儲設備、網絡設備和電源設備,都提供了可以查詢和管理設備狀態和配置的系統或網絡接口。這些接口通常支持標準的網絡協議,如 HTTP,SNMP 或者 RESTful API,我們可以通過這些接口定期查詢設備的運行狀態和性能數據。許多現代數據中心設備都支持標準的接口和協議,可以方便地集成到數據采集系統中。但是需要額外的網絡資源和計算資源來處理接口查詢和數據傳輸。另外,不同設備的接口和協議可能有所不同,需要對各種接口和協議進行管理和維護。由于機房現場實際數據采集環境的復雜性,在實際應用中,可23數據中心自適應 AI 節能技術白皮書ODCC-2

47、023-02009能需要結合使用多種數據采集方式,以滿足數據中心的監控和管理需求。(四)(四)主要算法模型對比主要算法模型對比基于機器學習的自動控制算法趨于成熟,并逐漸多樣化。其中認可度較高,效果較為出眾的算法主要包括:神經網絡預測模型、MPC 模型、老虎機、強化學習等等。近年來,諸如維諦、谷歌、華為等等越來越多的企業,將這些優秀的機器學習控制技術引進數據中心進行能效優化。但不同企業的數據中心規模、配置及其歷史數據擁有量各不相同,從而對算法的需求不同,針對于此,這里對不同的算法進行說明、對比。1.1.主要算法模型主要算法模型概述概述PIDPID 控制控制PID 是一種經典控制算法,PID 控制

48、包括三部分:比例調節、積分調節和微分調節。其中比例調節立即產生作用以減少偏差,積分調節可以消除穩態誤差,微分調節可以根據變化趨勢進行超前調節。PID 控制可通過位置式或增量式公式實現,下面公式為其中一種形式:其中為偏差,為比例帶,為積分時間,為微分時間。PID 控制已有多年的應用歷史,應用廣泛,效果可靠。在工業24數據中心自適應 AI 節能技術白皮書ODCC-2023-02009控制中,PID 控制常常作為第一選擇,解決了大部分問題。PID 具有無需訓練學習、收斂速度快、可解釋性強、穩定可靠等諸多優點,但它也有明顯的缺陷:1)PID 控制作為一種反饋控制方式僅僅根據被調量和目標值之間的偏差進行

49、控制,它無法根據擾動進行前饋控制。在數據中心中,當負載和室外工況發生變化時,PID 無法根據該擾動變化提前干擾;2)當擾動因素比如負載不同時,PID 對應的最佳參數不同;3)PID 不適合作多目標控制。模模糊糊控制控制模糊控制是一種以模糊集合論、模糊語言變量和模糊邏輯推理為基礎的計算機數字控制技術。它是模糊數學同控制理論相結合的產物,同時也是智能控制的重要組成部分。它模仿人的思維方式,是一種將專家經驗規則轉化為控制策略的理論方法,特別適用于難以建立精確數學模型的對象。模糊控制的實現步驟主要包括:1)觀測量和控制量的模糊化2)制定模糊規則3)進行模糊推理4)控制量的反模糊化。25數據中心自適應

50、AI 節能技術白皮書ODCC-2023-02009模糊控制經過發展,在理論、技術、應用上都有了長足的進步,在過去有段時間甚至非常流行。然而,可能由于數學理論仍待進一步完善,該算法仍然存在爭議,現在熱度不復往昔。模糊控制的優點非常明顯,可解釋性強、收斂速度快。模糊控制的缺點也非常明顯,過分依賴專家經驗,而人的經驗不總是可靠的。因此模糊控制主要適合解決復雜而無法建立精確數學模型系統的控制問題,它是處理推理系統和控制系統中不精確和不確定性的有效方法。神經神經網絡預測模型網絡預測模型當神經網絡層數較低時,特征提取和記憶能力變弱,退化成線性或簡單的非線性模型,因此較多時候神經網絡模型特指有一定深度的網絡

51、結構。這類模型對樣本量有一定的要求,收斂時間較長。因此這類模型適用于有大量歷史樣本的數據中心,通過歷史樣本的離線學習后再直接運用于數據中心。神經網絡預測模型一般包含兩類神經網絡,每類神經網絡包含一個或多個,其中一類優化網絡用于預測優化目標,例如:PUE、能耗等,另一類約束網絡用于業務保障性預測,例如:溫度、濕度等。如下圖所示:26數據中心自適應 AI 節能技術白皮書ODCC-2023-02009圖 1 一種神經網絡預測模型其中狀態量通常包含狀態變量和擾動變量,狀態變量如壓差、溫度等,擾動變量如負載功率、室外溫度等。其中控制變量通常為風扇轉速、泵轉速、水閥開度等等。當神經網絡層數較低時,特征提取

52、和記憶能力變弱,退化成線性或簡單的非線性模型,因此較多時候神經網絡模型特指有一定深度的網絡結構。這類模型對樣本量有一定的要求,收斂時間較長。因此這類模型適用于有大量歷史樣本的數據中心,通過歷史樣本的離線學習后再直接運用于數據中心。MPCMPC 模型模型MPC 模型(Model Predictive Control),由預測模型和優化算法組成,預測模型用于滾動預測未來幾步的系統狀態,優化算法根據預測的未來狀態進行最優控制 u 的求解,并選擇最近一步的控制量,作用于下一個周期。27數據中心自適應 AI 節能技術白皮書ODCC-2023-02009MPC 模型的基本思想:利用一個已有的模型、系統當前

53、的狀態和未來的控制量,來預測系統未來的輸出,然后與期望的系統輸出做比較,得到一個損失函數,優化選擇使損失值(代價)最小的控制量。如下展示了 Google 的一種自回歸預測模型(離散狀態空間表達式):=1?+=1?+1其中 A_k、B_k 和 C 是通過樣本訓練得到的系數矩陣。其中 x 是狀態變量,是希望預測和管理的數值,如壓差、溫度等等。其中 u是控制變量,是希望算法模型推薦的控制變量,如風扇轉速、泵轉速、水閥開度等等。其中 d 是擾動變量,是無法控制的事件或環境狀況,但它會影響到系統狀態,如負載功率、室外溫度等等。MPC 模型在優化時會同時考慮約束條件,優化控制的目標是滿足約束條件限制的前提

54、下,選擇使損失(代價)函數最小的控制量u。在數據中心類項目中,在定義損失函數時通常是器件轉速越小越節能則損失函數值越小,在定義約束條件時通常希望溫度靠近某一設定點附近。MPC 模型的優化解法有二次規劃或對偶問題的求解方法等。MPC 模型對樣本量要求不高,能較快的實現收斂,另外,當系統預測模型以過去多個時刻作為輸入時(如,令上文 T1),還具28數據中心自適應 AI 節能技術白皮書ODCC-2023-02009有很好的魯棒性。對于數據中心推薦控制,是一種不錯的選擇。但MPC 模型的優化求解有一定的運算量。多臂老多臂老虎虎機機老虎機,又稱 Bandit 算法,也是機器學習的一個重要分支,和強化學習

55、有一定的聯系,甚至可以認為是早期的強化學習。Sutton在他編寫的教材強化學習里面講解了這個算法。最早的老虎機模型,基本認為是病理學家 Thompson 在 1933 年提出的。他當時覺得驗證新藥的醫學隨機雙盲實驗有些殘酷的地方,對于被分到藥效較差的新藥的那一組病人并不公平。老虎機模型減小了藥效差、增大了藥效好的新藥的使用概率?,F在,老虎機模型在搜索和推薦方面的應用很多。最近較出名的工作是 Li Lihong 發表的 LinUCB 模型,用于 Yahoo!新聞推薦。這里結合數據中心簡單介紹下 UCB(Upper Confidence Bound,置信區間上界)算法。UCB 對數據中心不同配置下

56、的穩定態使用分數或收益進行評價,然后選擇分數最高的臂進行推薦,得到反饋后進行更新,其公式如下:=?+2(),其中?表示 t 次 UCB 推薦后到目前為止的第 j 種配置下的平均分數或收益,t 是目前為止的總次數,,是第 j 種配置在 t 次中被選中的次數。加號左邊反應了平均收益,平均收益越大被容易被29數據中心自適應 AI 節能技術白皮書ODCC-2023-02009選擇。加號右邊反應了一種不確定性,使算法增加了探索能力。Bandit 算法簡單有效,對樣本量要求不高,能較快的實現收斂。無論用于數據中心自動控制的冷啟動,還是作為其常規控制,都是一種不錯的選擇。強化強化學習學習強化學習的基本原理是

57、,如果 Agent 的某個行為策略導致環境正的獎勵(強化信號),那么 Agent 以后產生這個行為策略的趨勢便會加強。Agent 的目標是在每個離散狀態發現最優策略以使期望獎勵和最大。如下圖所示的一種 AC 框架的強化學習模型:其中價值網絡用于對數據中心狀態進行評價,能耗越低溫度越好則獎勵越大,反之亦然;其中策略網絡用于根據數據中心當前狀態選取行為動作,對于導致獎勵最大的行為被選取的概率最大。通??梢姷牟呗跃W絡擬合了一個概率分布,越好的行為被選擇的概率越大,對于其它行為也有微小的概率被選擇,這樣做的好處在于,模型同時具備利用和探索能力,當室外環境或負載功率發生變化時,能找到新形勢下的最優設置組

58、合。30數據中心自適應 AI 節能技術白皮書ODCC-2023-02009圖 2 一種 AC 框架的強化學習模型強化學習的優點在于,它是一種比較通用的范式,能解決各種優化控制和智能推薦問題。但該算法尚不是非常成熟且門檻較高,需要算法人員具備較高的設計能力,并且建立恰當的獎勵函數不是一件容易的事。另外該算法模型學習效率相對較低,對樣本和學習時間有較大要求。另外由于數據中心不像游戲,無法并發大量的不斷交互,因此這類模型建議用于有大量歷史樣本的數據中心,通過離線學習后再運用于數據中心。綜上所述,幾個主要模型的優缺點和適用場景如下,可根據實際場景的需求進行選擇和組合,以取得最優的效果:表 2 幾類主要

59、算法模型對比算法名稱算法名稱算法描算法描述述優點優點缺缺點點使用場景使用場景PID 控制一種經典控制算法,包括比例調節、積分調節和微分調節。無需訓練學習、收斂速度快、可解釋性強、穩定可靠。無法根據擾動進行前饋控制,PID 對應的最佳參數隨負載變化,不適合作多目標控制。工業控制中,作為首選解決方案,處理大部分問題。模糊控制一種基于模糊集合論、模糊語言變量和模糊邏輯推理的計算可解釋性強、收斂速度快。過分依賴專家經驗,人的經驗不總是可適用于解決復雜且無法建立精確數學模型的系統的控制問題。31數據中心自適應 AI 節能技術白皮書ODCC-2023-02009機數字控制技術???。神經網絡預測通過深度學習

60、網絡結構進行預測,要求有大量樣本量。強大的特征提取和記憶能力,能進行復雜非線性模型的預測。對樣本量有一定的要求,收斂時間較長。適用于有大量歷史樣本的數據中心,通過歷史樣本的離線學習后再直接運用于數據中心。MPC由預測模型和優化算法組成,用于滾動預測未來幾步的系統狀態,進行最優控制。對樣本量要求不高,能較快實現收斂,具有很好的魯棒性。優化求解有一定的運算量。在數據中心類項目中進行推薦控制。多臂老虎機一種簡單有效的優化算法,能根據已有反饋快速做出決策。簡單有效,對樣本量要求不高,能較快實現收斂。對策略選擇有一定的局限性,可能不能獲取全局最優解。適用于數據中心自動控制的冷啟動,或作為其常規控制。強化

61、學習通過不斷與環境交互,調整策略以使期望獎勵和最大。是一種比較通用的范式,能解決各種優化控制和智能推薦問題。門檻較高,需要算法人員具備較高的設計能力,模型學習效率相對較低,對樣本和學習時間有較大要求。建議用于有大量歷史樣本的數據中心,通過離線學習后再運用于數據中心。2.2.常見優化算法常見優化算法概述概述優化算法在算法模型中具有重要地位,是計算機尋優求解的最主要手段。但考慮到其運用過于廣泛,種類過于繁多,技術過于細節,這里只從整體上進行說明。優化算法用處優化算法用處廣泛廣泛1)它可以是其它模型的組成部分,比如用于模型的訓練收斂;2)它也可以是其它模型的承接部分,比如配合已訓練好的模型進行尋優,

62、以實現其它優化目標;3)它還可以直接作為模型,實現即有問題的運籌優化。32數據中心自適應 AI 節能技術白皮書ODCC-2023-02009優化算法種類繁多,優化算法可分為進化算法和數學優化算法兩大類別,每大類別又包含很多種算法。進化算法進化算法進化算法是仿照生物進化規律,通過繁殖、競爭、再繁殖、再競爭,實現優勝劣汰,一步步逼近復雜工程技術問題的最優解。從數學上看,進化算法就像融入了生物屬性的搜索尋優方法。進化算法包括:遺傳算法、粒子群算法、免疫算法、蟻群算法、果蠅算法、模擬退火算法、螢火蟲算法等等。其中遺傳算法是當前最常用的進化算法之一。遺傳算法(簡稱 GA)起源于對生物系統所進行的計算機模

63、擬研究,是一種隨機全局搜索優化方法,它模擬了自然選擇和遺傳中發生的復制、交叉和變異等現象,從一組隨機初始種群出發,通過隨機選擇、交叉和變異操作,產生一群更適合環境的個體,使群體進化到搜索空間中越來越好的區域,這樣不斷繁衍進化,最后收斂到一群最適應環境的個體,從而求得問題的優質解。數數學學優化算法優化算法數學優化算法是利用微積分、運籌學、拓撲學等數學知識尋找逼近問題的最優解。數學優化算法包括:凸優化、牛頓法、共扼梯度法、擬牛頓法、梯度優化、Adam、拉格朗日優化、線性規劃、動態規劃等等。其中33數據中心自適應 AI 節能技術白皮書ODCC-2023-02009梯度優化、Adam 等等由于神經網絡

64、的繁榮而廣為傳播。進化算法進化算法 vs s 數數學學優化算法優化算法1)流派不同:進化算法和數學優化算法分屬兩個不同流派,都有應用案例。但由于神經網絡大放異彩,部分數學優化算法作為神經網絡的訓練算法,又有堅實的數學基礎,因此使用范圍更為普遍。2)數學前提不同:進化算法只需計算目標函數的值即可,對優化問題本身的性質要求是非常低的。數學優化算法往往依賴于一大堆的條件,例如是否為凸優化,目標函數是否可微,目標函數導數是否 Lipschitz 連續等等。3)運算復雜度不同:進化算法需要不斷搜索、循環迭代,因此速度較慢,其運算速度的瓶頸限制了其在大規模優化問題上的應用。數學優化算法由于充分利用問題的數

65、學性質,運算速度相對較快。4)應用范圍不同:數學優化算法需要問題具有較好的數學性質,因此應用范圍小于進化算法。進化算法基本可以運用于所有優化問題,然而沒有充分利用問題的數學性質,運算速度慢。另外盡管進化算法采用了變異等諸多手段,收斂不到全局最優的可能性仍然存在。5)應用場景不同:對于數學前提較好的優化問題,使用數學優化算法速度快,而且相對容易保證全局最優。但現實中也存在這樣的問題,目標函數數學性質不好,非凸不連續,或者直接無法知道其數學性質,此時使用進化算法更好。對于 NP 難問題,目前數學優34數據中心自適應 AI 節能技術白皮書ODCC-2023-02009化算法無能為力,也以進化算法為宜

66、。另外,在神經網絡領域,也出現了使用進化算法進行超參數調優的例子,緩解了進化算法的尷尬境地。值得一提的是,隨著時代的發展,算力不斷提升將利好進化算法。但算力也永遠存在瓶頸,不過到一個新的位置罷了。因此,工具本身并不存在絕對的優劣之分,每種工具都有其適用的場景。3.3.黑白盒黑白盒算法算法概述概述“黑盒”和“白盒”是用于描述算法或系統的透明度的術語。特定地,在測試和機器學習的背景下,它們通常被提及。黑盒黑盒(BlackBlack BoBox)“黑盒”指的是一個系統或算法,其中內部的工作機制是隱藏或不透明的。用戶只能看到輸入和輸出,而不能看到內部如何進行處理。優點優點簡單性:用戶不需要了解內部的工

67、作原理,只需要關心輸入和輸出。通用性:由于不強調內部的工作機制,因此黑盒方法往往更加通用,適用于各種情境。靈活性:內部實現可以在不影響外部接口的情況下進行修改或優化。35數據中心自適應 AI 節能技術白皮書ODCC-2023-02009缺缺點點不透明:無法確定系統或算法為何會產生特定的輸出,這可能導致難以解釋或難以理解的行為。難以調試:當出現問題時,難以確定錯誤的來源或如何修復。信任問題:由于缺乏透明度,用戶可能難以完全信任系統或算法。白盒白盒(WhiteWhite BoBox)“白盒”指的是一個系統或算法,其中內部的工作機制是透明和可見的。用戶不僅可以看到輸入和輸出,還可以看到處理過程。優點

68、優點透明性:用戶可以完全理解并驗證系統或算法的行為??烧{試性:由于內部工作機制是知道的,因此更容易定位和修復問題??啥ㄖ菩裕毫私鈨炔繖C制可以使用戶或開發者針對特定應用進行優化或修改。缺缺點點復雜性:需要了解更多的細節,可能會對某些用戶造成困擾??赡苓^于特定:由于太過側重于內部機制,白盒方法可能不如黑盒方法那么通用。36數據中心自適應 AI 節能技術白皮書ODCC-2023-02009資源消耗:由于需要維護更多的細節信息,白盒方法可能需要更多的資源。在機器學習領域,例如深度學習模型通常被視為“黑盒”,因為它們的內部工作機制(即如何從輸入數據中學習)對大多數用戶來說都是不透明的,盡管其結構和算法是

69、已知的。而傳統的算法,如決策樹,由于它們的決策過程較為直觀和可解釋,通常被視為“白盒”。在選擇使用黑盒還是白盒方法時,要根據特定的應用和需求進行權衡。例如,如果需要一個可以提供可解釋性的系統,白盒可能是更好的選擇。如果需要一個可以快速部署且對內部工作機制不太關心的系統,黑盒可能更合適。在數據中心 AI 節能應用的模型設計中,白盒算法具有更強的可解釋性,有利于安全策略的設計和人機協同控制,而黑盒算法具有更強的場景適應性,同時,白盒算法的設計需要更強的專家經驗支持和更長的開發調試周期,因此在實際應用中常采用混合算法。(五)(五)算法部算法部署署架構對比架構對比算法的部署方案主要受數據安全性要求和算

70、力分布的影響。當前算法部署主要有三種架構:邊緣部署,私有云中心部署及互聯網云部署。由于數據中心安全性要求較高,常見的主要有邊緣部署和私有云中心部署。隨著人工智能的飛速發展和大模型技術的不斷突破,部分算法任務遷移至互聯網云部署或將成為一種趨勢。37數據中心自適應 AI 節能技術白皮書ODCC-2023-02009但對于不同的算法任務,應綜合考慮算力需求、安全要求等等,對其模型采其不同的部署架構,以實現部署效果最優。1.1.邊邊緣部緣部署署邊緣部署直接將算法模型部署在本地末端計算設備上,該末端計算設備往往通過串口、網絡等與溫濕度傳感器、壓力傳感器、空調、電表等直接相連,并完成數據采集、控制執行等任

71、務。這里將末端計算設備稱為邊緣監控管理平臺,并將機柜、溫濕度傳感器、壓力傳感器、空調、電表等組成的系統稱為末端系統。邊緣部署是將算法直接部署在與末端系統直接相連的邊緣監控管理平臺上,其中邊緣監控管理平臺與末端系統一對一相連。以MDC 場景下的算法部署為例,下面是 MDC 末端系統與邊緣監控管理平臺的對應關系圖:圖 3MDC 末端系統與邊緣監控管理平臺對應關系將算法模型部署于邊緣監控管理平臺上有這樣的好處:比如數據傳輸距離短,延遲小,不容易受到數據傳輸中斷的影響,安全程度高、可靠性好;比如邊緣監控管理平臺較多,有算力分散的好處,可有效避免算力總需求過大而無法支持的問題。38數據中心自適應 AI

72、節能技術白皮書ODCC-2023-02009但是出于成本考慮邊緣監控管理平臺往往性能不高,對算法的支持能力有限,比如無法流暢的運行較深的神經網絡模型。另外,因為末端系統與邊緣監控管理平臺呈一對一的對應關系,所以它不能處理與多個末端系統相關的共同計算任務。因此,邊緣部署特別適合于算力要求小,安全要求高的算法模型:比如單一 MDC 中末端空調的開關控制、末端空調壓縮機風機或水閥的群控等等。2.2.中心部中心部署署本地中心部署將算法模型部署于本地中心監控管理平臺上(或稱中心服務器,中心計算設備),一個中心監控管理平臺與多個末端監控管理平臺通過局域網相連,并通過末端監控管理平臺間接實現對末端系統的優化

73、。同樣以 MDC 場景為例,中心監控管理平臺、末端監控管理平臺和 MDC 末端系統的對應關系如下圖所示:圖 4中心監控管理平臺、末端監控管理平臺和 MDC 末端系統對應關系將算法模型部署于本地中心監控管理平臺:有利于充分利用多39數據中心自適應 AI 節能技術白皮書ODCC-2023-02009末端系統數據;有利于從更大層面對數據中心進行節能控制;同時由于中心監控管理平臺個數較少,這還便于提高算力支持能力,同時不至于成本增加太多;另外由于沒有使用公網,整個系統仍然保持了較高的安全性。因此,中心部署特別適合于算力要求適中,安全要求中等甚至較高,有多系統協作需求的算法任務:比如冷機出水溫度設定點的

74、調節、MDC 目標溫度的微調等。另外,中心節能控制是對邊緣節能控制的進一步完善,但不宜作為邊緣控制的完全替代。在中心監控管理平臺通信故障時,末端系統和邊緣監控管理平臺仍應可正常運行。因此末端邊緣系統控制建議保留其完備性、高實時性和高可靠性。出于此考慮,諸如空調末端器件級節能群控建議仍采用邊緣部署。3.3.互聯網互聯網云云部部署署互聯網云將算法模型部署于網絡云平臺上,可以同時跟眾多本地中心監控管理平臺、本地邊緣監控管理平臺通過互聯網相連。如下圖所示:40數據中心自適應 AI 節能技術白皮書ODCC-2023-02009圖 5 互聯網云算法模型部署網絡云平臺云平臺的巨大優勢有利于收集數據和優化算法

75、模型。另外由于真正大算力所需的硬件成本非常昂貴,為了經濟效益,前面的邊緣部署和中心部署終歸算力有限,因此,如大模型之類的算法模型只有云平臺可以支持。而隨著人工智能的發展,大模型越來越成熟,互聯網云部署將呈現增長趨勢。但云平臺數據傳輸距離長、安全性差、穩定性低、不可控因素較多。因此,網絡云部署特別適合于模型較大,用于改善用戶感受而非控制類的算法模型,比如:語音識別、專家咨詢系統等。最后,云平臺還可用于遠程更新邊緣算法模型,有利于算法版本的迅速迭代,收益變現。但對于數據中心這樣一個安全要求較高的行業,能否接受云帶來的不可靠性,仍是一個很大的問題。41數據中心自適應 AI 節能技術白皮書ODCC-2

76、023-02009五、五、主要場景方案及案主要場景方案及案例例分分析析(一)(一)基基站站級場景案級場景案例例1.1.場景場景概概況況某基某基站站機房機房位置位置布布局局位于華東地區,屬于夏季炎熱、冬季寒冷的氣候區域。圖 6 某運營商基站機房 3D 模型空調系統空調系統該機房內設有 6 臺精密空調。通常情況下,其中 2 臺處于關閉狀態,4 臺處于開啟制冷狀態。整體 CT 負載相對穩定,開啟的 4 臺空調的送回風溫度相對固定,制冷冗余較大。制制冷冷問題問題在一個空調循環周期中,壓縮機只有一半周期的時間在運行,42數據中心自適應 AI 節能技術白皮書ODCC-2023-02009因此室內風機有一半

77、周期無實際效果。所有空調的壓縮機的啟停都是根據回風溫度來進行控制,但根據測量,該空調的回風溫度與實際溫度相差較大。這種溫度差異導致了壓縮機重復的啟停,空調壓縮機啟動瞬間的工作電流是正常運行狀態下的 4-7 倍,最終加大空調的能耗。與此同時,在機房內,機柜頂端處的溫度傳感器溫度達到了 31 攝氏度,存在高溫熱點問題。因此,由于回風溫度控制與實際溫度存在差異,再加上壓縮機工作狀態的問題,都導致了能耗偏高的問題。2.2.AIAI 應用方案應用方案本案例 AI 技術應用設計旨在通過現場采集器對基站空調進行節能管理,通過已有的動力環境集中監控管理系統的空調效率。方案總體設計上以空調建模+機器學習為主,同

78、時輔助參數自動優化調節。保證場景最優節能效果同時,減少對算力和傳感器的依賴,可通過現有的監控采集傳感設備,提高了整體投資回收期。安全方面與空調底層控制邏輯緊密耦合,時刻監控安全便捷,避免影響空調的正??刂七壿?。算法設計算法設計該方案通過在采集器上加載節能管理軟件,根據設定的控制邏輯對基站空調進行監控,包括空調運行狀態及開關機控制,以及機房環境溫度監測。算法通過減少壓縮機啟動次數、提高制冷效率、減少室內風機運行時間等方式,在保障通信設備安全運行的前提下,43數據中心自適應 AI 節能技術白皮書ODCC-2023-02009實現節能的目標?;疽幠}嫶?、遠離監控中心,且受建筑結構、季節、經緯度、海

79、拔、所處位置環境等因素影響,算法設計上需要著重考慮控制安全。算法采用中心-邊緣的方式,算法尋優推理在中心完成,并同步到邊緣智能控制主機來執行,執行包括空調啟停、空調啟停溫度設定值、空調送回風溫度設定?;舅惴ㄔ谥行牟捎么竽P头绞?,通過基站所屬地理位置、面積、建筑物類型,空調類型、空調數量、室外溫濕度、電源輸出負載、基站業務類型等參數進行分類。針對不同分類首先通過氣流組織仿真算法建立初始模型,算法在運行過程中不斷采樣新數據進行驗證與修正,裂化更多子模型。中心 AI 節能平臺根據基站匹配到的最佳算法模型,在探測到室外溫濕度、負載等數據變化超出一定閾值后,則重新發送策略到采集器邊緣節能管理軟件。邊緣

80、節能軟件內置溫度預測嵌入式 AI 模型和保護策略,在預測到有高溫風險后,自動啟動安全保護策略。邊緣預測算法采用嵌入式 AI 技術,TensorFlow Lite 構建 LSTM 模型。數據采集數據采集數據主要包括空調的開關機狀態,送回風溫度,溫濕度傳感器的溫度和濕度等。同時,通過優化基站溫度采集位置,基于采集的機房溫度來控制空調運行,避免因氣流組織問題引起的回風溫度不準確導致的能源浪費。44數據中心自適應 AI 節能技術白皮書ODCC-2023-02009實實施施過程過程首先,根據控制邏輯開發節能管理軟件,并加載到智能采集器中進行調試。然后,在動環監控中正式啟動基站空調節能運行及管理模式,實現

81、對房間溫度及空調運行狀態的精確管理與控制。安全保障安全保障本方案在設計上充分考慮了安全因素。所有空調、溫濕度傳感器以及電表均接入同一個采集器,使得數據的采集和控制統一,避免了與平臺數據傳輸的風險,提高了控制命令下發的速度。此外,方案優化調整了原有監控方案的溫度告警機制,避免出現局部熱點問題。3.3.AIAI 性能性能綜綜合評合評估估改造前運行狀態改造前運行狀態在未啟用 AI 節能系統之前,該運營商基站機房在冬季最冷的月份(12 月和 1 月)的日用電量為 294kwh。改造后運行狀態改造后運行狀態機房的日用電量降低至 233kwh,相較于改造前,制冷系統的能耗降低了 20.7%。折算到月,AI

82、 模式相較于常規模式在最冷的 12 月和 1 月可節電 1891kwh/月。按照電費 0.7 元/KWH 計算,考慮氣候變化情況,全年 AI 節能效果預計節約電費:1218910.7=15884 元/年。降低了能源消耗,提高了經濟效益。此外,該方案還有助于解45數據中心自適應 AI 節能技術白皮書ODCC-2023-02009決局部熱點問題,消除過熱隱患,保障數據中心的穩定運行?;贏I 強化學習算法的空調節能控制解決方案的成功應用,顯示了人工智能技術在數據中心能源管理領域的潛力和價值。綜綜合分合分析析在基站場景中,安全設置是首要考慮的因素。首先,控制策略被下放到采集器中,以避免軟件誤操作帶來

83、的影響。其次,采集器收集的數據被存儲在本地,并進行清洗、篩選等預處理以及算法訓練。最后,設置了多重告警控制,包括空調面板設置高于遠程控制、AI 策略歷史回退以及 AI 保底策略校驗等多重安全保護機制。(二)(二)微模塊微模塊 MDCMDC 場景案場景案例例某企業級某企業級 MDCMDC 機房機房本案例比較特殊,選取兩個區域相同但業務負載及機房結構略有差異的 MDC 機房,設計了黑盒及白盒兩種不同方案,以分析驗證基于兩種不同類型算法方案的適用場景細節及效果差異。機房位于四季分明的地區,其自然環境溫度隨季節變換而大幅度波動,表現為冬季寒冷、夏季炎熱,而春秋兩季的晝夜溫差則相對較大。實際后續應用中,

84、現場可以根據情況在兩種模型中靈活切換,從而提高整體方案的適應性,提升綜合節能效果。1.1.場景場景概概況況黑盒黑盒模型方案模型方案46數據中心自適應 AI 節能技術白皮書ODCC-2023-02009由于線上業務活躍度的晝夜差異性,機房中的服務器工作功率也隨之明顯不同,冷凝器側熱交換效率在不同時間段有所差異,同時服務器由于業務特性,其散熱需求也會隨著時間段的不同而變化。但原有的空調控制策略相對較為粗糙,雖然將機房的溫度控制在正常范圍內,但由于空調熱交換效率和服務器散熱需求在不同時間段的差異,使得空調在某些時段的工作負荷偏離了最佳狀態。表 3 黑盒模型機房及場景配置統計微模塊類型SmartAis

85、le3IT 機柜與通道密封通道類型封閉冷通道IT 柜數量(個)11 個單柜總 U 位數(U)462單柜功率(kW)最大 10kW外型尺寸(L*W*H)600*1100*2000mm供配電系統供配電架構UPS電源制式380/400/415V,3N,50Hz冗余配置2N、1+1型號APM 0160kMK16FN02000容量IT 200A,制冷 123A制冷系統空調類型風冷型號CR035RP1NLS712E3A000PV040冗余配置3+1單臺制冷量(kW)35kW監控系統監控系統名稱RDU 監控系統47數據中心自適應 AI 節能技術白皮書ODCC-2023-02009圖 7 黑盒模型機房及布局圖

86、對該機房進行改造前,服務器負荷處于高位運行狀態,總負載功率約 98kW,整體溫度正常,但備機空調未自動打開,空調運行負荷過大。場景二:場景二:白盒白盒模型場景模型場景在對機房進行節能改造的歷史數據分析過程中,發現機房的微模塊在運行過程中,由于對吹和近似對吹的空調互相干擾,導致其工作狀態收斂于周期性波動。此外,微模塊采用了送風控制,但是由于自然環境溫度和負載功率的變化,不同時間段的回風側溫度會出現時高時低的現象。這些現狀下,機房存在以下幾個問題:當回風側溫度偏低時,會導致冷量的浪費,使得模塊工作在較高的 pPUE狀態。同時,空調器件被單獨的空調自身控制,空調間相互影響形成競爭運行,也會收斂于周期

87、性波動。這種情況下,溫度會在不斷地區域性變化,可能會帶來安全隱患。表 4 白盒模型機房及場景配置統計微模塊類型SmartAisleIT 機柜與通道密封通道類型封閉冷通道IT 柜數量(個)9 個單柜總 U 位數(U)46248數據中心自適應 AI 節能技術白皮書ODCC-2023-02009單柜功率(kW)最大 8kW外型尺寸(L*W*H)600*1100*2000mm供配電系統供配電架構UPS電源制式冗余配置2N、1+1型號容量制冷系統空調類型風冷型號CR025冗余配置3+1單臺制冷量(kW)25kW監控系統監控系統名稱RDU 監控系統圖 8 白盒模型機房布局圖對該機房進行改造前,空調器件由空

88、調自身單獨控制,空調相互影響,周期波動。另外,盡管改造時是夏季,但改造前 pPUE 仍偏高。2.2.AIAI 應用方案應用方案黑盒黑盒模型方案:模型方案:在對機房現狀的分析中,發現原始的空調開關策略過于粗糙,即僅在空調溫度測點或關聯傳感器測點溫度過高或過低時才進行開49數據中心自適應 AI 節能技術白皮書ODCC-2023-02009關操作。因此,決定引入具有自學習、自優化能力的機器學習算法??紤]到服務器負載功率在不同時間段有大的差異,引入負載功率作為輸入參數之一。同時,許多數據中心難以獲取室外溫度,因此選擇引入空調送回風溫度、機柜送回風溫度等,使得算法能夠間接學習到室外溫度引起的室內變化。具

89、體的方案包括:使用負載功率、空調送風溫度、空調回風溫度、機柜送風溫度、機柜回風溫度、傳感器以及空調位置信息等特征及其復合特征作為算法輸入。綜合考慮空調功率、溫度與目標值的偏離程度、溫場均勻程度作為算法自優化的評價或收益反饋。同時,空調開機個數、開機位置、及溫度設定點被用作調節手段,即算法推薦的動作。圖 9 黑盒模型方案空調器件協作方式算法采用由 LinUCB 和 xgboost 組合而成的級聯算法模型,其中LinUCB 用于進行能效探索優化,而 xgboost 用于進行溫度調節。由于空調無法頻繁開關,樣本間隔長且收集困難,采用了收斂速度較快的 LinUCB,尤其是采用級聯模型進一步提升收斂效率

90、??紤]到特50數據中心自適應 AI 節能技術白皮書ODCC-2023-02009定數據中心樣本不易獲取,不能進行批量訓練,因此沒有采用新興的強化學習算法,而是選擇更快更穩定的 LinUCB。然而,LinUCB 仍然具有強化學習的探索能力,能適應自然環境的變化。xgboost 用于滿足自然環境、負載功率及開關機變化引起的溫度調節需求。并對特征工程、初始化、安全等方面進行了細致的處理。核心的算法結構圖如下:圖 10 黑盒模型方案核心算法結構圖白盒白盒模型方案:模型方案:通過對機房現狀的分析,由于初始空調器件被自身單獨控制并相互干擾,因此考慮利用機器學習算法實現對不同空調器件的統一群體控制。這種方法

91、不僅解決了設備之間控制的相互干擾問題,而且還能使空調設備之間和設備內部的各個組件協同工作,以實現節能效果。同時,將能效和溫度作為評估或反饋的共同指標,兼顧節能和溫度控制,避免回風側溫度過低??照{器件級協作方式如下圖所示:51數據中心自適應 AI 節能技術白皮書ODCC-2023-02009圖 11 白盒模型方案空調器件協作方式具體方案:將負載功率、機柜送風溫度、機柜回風溫度以及壓縮機風機轉速(或水閥開度)等特征及其組合特征作為算法的輸入。綜合考慮空調能耗、溫度與目標值的偏離程度以及溫度場的均勻程度作為算法自優化的評價或反饋。將壓縮機容量、風機轉速(或水閥開度)作為調節方式,即算法的推薦動作。算

92、法采用模型預測控制(MPC)模型。首先構建系統模型,以映射溫度、設備輸出和負載功率之間的關系。然后,使用拉格朗日優化方法尋找適宜的溫度和更低的能耗的設備輸出組合。這種方法穩定,收斂速度快,并具有良好的魯棒性。在建模過程中,使用過去一段時間內多個時刻的狀態作為輸入,以增強模型的抗干擾能力和理解變化趨勢的能力。同時,使用未來一段時間內多個時刻的預測結果共同作為反饋,以提高模型的長期收益能力。此外,還引入了探索機制,以幫助模型不斷優化。最后,對特征工程、初始化以及安全等細節進行了處理。52數據中心自適應 AI 節能技術白皮書ODCC-2023-02009圖 12 白盒模型方案核心算法結構圖通過對兩種

93、場景方案的對比分析,建議在微模塊場景下黑盒模型和白盒模型聯合使用,但仍然是可分別單獨使用的。其中白盒模型是細顆粒度調節,是底層器件的微調;其中黑盒模型是粗顆粒度調節,是上層的整體調節;兩者互為補充。3.3.AIAI 性能性能綜綜合評合評估估黑盒黑盒模型效果及節能分模型效果及節能分析析:該機房經過改造后空調的開關能力更加細致。由于當前負荷較高,改造后自動開啟了空調備機,并進行溫度設定點調整,節能效果約為(18.1-15.9)/18.1=12%,如下圖所示:圖 13 黑盒模型機房 AI 開啟前后空調用電功率對比53數據中心自適應 AI 節能技術白皮書ODCC-2023-02009另外通過對空調 E

94、ER 曲線的分析,發現在極端場景下,方案的最大節能空間約為 20%。以舊型號空調的 EER 曲線為例,當空調制冷量為 19kW 時,其 EER 最大,約為 4.8,此時每 1kW 制冷量所耗電約為 0.2083kW。而當空調制冷量為 28kW 時,其 EER 最小,約為 3.6,此時每 1kW 制冷量所耗電約為 0.2778kW。因此,在相同的制冷需求下,空調的耗電量存在約 25%的差異。圖 14 壓縮機能效曲線白盒白盒模型效果及節能分模型效果及節能分析析:該機房經過改造后,對氣流組織、溫度場、冷量分配的調節更加細膩,可對冷熱通道分區域調節,對于冷通道或熱通道可參考機柜溫度進行精確調節。同時改

95、造后,空調的輸出更加穩定。節能效果約為(18.07-15.65)/18.07=13%,如下圖所示:54數據中心自適應 AI 節能技術白皮書ODCC-2023-02009圖 15 白盒模型機房 AI 開啟前后空調用電功率對比通過比較 AI 開啟前后的冷熱通道平均溫度,從下圖可以看出AI 在允許的范圍內適當提升了熱通道溫度,但這并不是簡單的以熱通道為溫控目標,而是通過能耗反饋實現的優化。圖 16 AI 開啟前后冷熱通道溫度根據工作經驗和數據,存在某些工況場景的熱通道溫度可能更低,因此節能空間有更大的潛力。然而,算法實際上是通過器件協作和能耗反饋實現節能的,即使熱通道溫度相同,適當的比例和精確送冷也

96、可能實現節能。此外,AI 開啟后,4 臺空調的壓縮機波動更小,運行更穩定如下圖所示。55數據中心自適應 AI 節能技術白皮書ODCC-2023-02009圖 17 AI 開啟前后壓縮機運行曲線(三)(三)房間級場景案房間級場景案例例1.1.場景場景概概況況某某云云計算中心計算中心位置與布局:坐落于華東地區,屬于夏季炎熱、冬季寒冷的氣候區域,共有兩個機房??照{系統:A 機房占地面積約 400 平方米,內設 13 列機柜,包括 8 個封閉冷通道微模塊(其中 3 個為單列微模塊)。IT 設備的總負載約為 252KVA,負載上架率大致在 30%-40%,A 機房配備 8 臺房間級風冷空調。B 機房與

97、A 機房位于同一建筑物的不同樓層,占地面積與機柜數量均與 A 機房相同,但具有 7 個封閉冷通道微模塊(其中 1 個為單列微模塊),B 機房的 IT 設備總負載約為 280KVA,負載上架率也在 30%-40%左右,B 機房配備了 6 臺房間級雙冷源空調。圖 18 華東某數據機房 3D 模型56數據中心自適應 AI 節能技術白皮書ODCC-2023-02009制冷問題:A 機房的 13 列機柜負載各不相同,其中 2-3 列負載較高,可能出現局部熱點。相較之下,B 機房的氣流組織相對穩定,但同樣存在局部熱點和溫度分布不均的問題??照{設備在較長時間內保持穩定狀態,溫度設定未發生變化,導致了大量的制

98、冷冗余和溫度分布不均的問題。2.2.AIAI 應用方案應用方案該解決方案旨在應用基于 AI 強化學習算法的空調節能控制于房間級空調系統中,以提升已建設的動力環境集中監控管理系統的空調效率。方案總體設計上為專家經驗+神經網絡+強化學習。神經網絡+強化學習保證場景最優節能效果,同時專家經驗的加入提高了整體的收斂速度,進一步增強了在負載頻繁變化場景下的實際表現。此外,從安全性方面看,專家經驗也為保底策略的設計和合理調節步長的選擇提供了更有實踐性的依據。算法設計算法設計通過在監控管理系統上加載 AI 強化學習模塊,獲取管理數據并進行 AI 強化學習,以實現對空調的節能控制。算法涉及的狀態、控制和獎勵要

99、素包括開關機狀態、進/出風溫濕度、冷/熱通道溫濕度等。為保障運行安全,AI 算法中引入了安全保障機制。采集溫濕度傳感器的溫濕度數據、空調的送回風和功率、風機和壓縮機的開度以及 IT 負載數據作為數據源,采用強化學習對其進行實時優化。以57數據中心自適應 AI 節能技術白皮書ODCC-2023-02009溫度均衡度和 pPUE 作為獎勵函數,尋優得到最合適的送回風溫度以及其他相關控制參數。該策略解決了冷通道熱點問題,改善了空調制冷浪費的問題,實現了安全與節能的平衡。IDC 機房場景各異,包括送風方式、機柜封閉方式、空調變頻與否以及空調使用壽命等等,機房負載隨時間變化頻繁,為了實現見效快、安全運行

100、、自適應長期穩定節能等目標,采取組合算法方式,節能系統內置算法自動評估模塊,在不同階段、不同環境下對不同算法進行評估,擇優選擇最適合當前階段和機房環境下的算法。節能系統同時內置算法自動訓練模塊,在超出一定的閾值后,自動訓練算法。算法的一般原則是運行的初始階段,此時有效樣本數據有限,采用專家經驗、機理模型和輕量級機器學習算法,使控制策略可以有效的控制在安全區間,具備更好的趨勢性,避免少樣本大模型下的嚴重控制策略偏離。輕量級機器學習算法主要包括遺傳算法、粒子群算法、模擬退火、強化學習以及算法組合尋優。在系統評估算法到達切換點之后,即可以轉入第二階段算法,此時具備一定的數據規模、也具備大量調優策略、

101、同時有了范圍更小的安全尋優邊界,算法一般采用深度神經網絡。最后一個階段采用深度強化學習,通過遷移學習先把以后的節能策略遷移到深度強化學習模型。模型評估管理平臺依據機房實際運行數據進行評估和切換,不是所有機房都按照以上第一、二、三階段運行,如果始終不具備進一步切換條件,則會保持在第一或者第二階段。58數據中心自適應 AI 節能技術白皮書ODCC-2023-02009算法的另外一個核心在于評價函數,評價函數一般包含機房所有溫濕度實時值、當前策略下的空調能耗水平。由于場地溫濕度傳感器的數量布置不一樣,評價函數需要針對性進行編寫,機房也可能對恒溫恒濕有更高要求,此時評估函數的權值則需要優化調整。溫濕度

102、的評價函數可以采用多次方程或者高斯分布等數學技能,越接近設定有越高的獎勵值。數據采集數據采集溫濕度傳感器是采集機房環境溫度的關鍵設備。在此場景中,部署了 104 個溫濕度傳感器,在每一列機柜的前后各部署 4 個溫濕度傳感器,同時兼顧冷熱通道的溫度。此外,共有 6 臺空調,能采集到算法所需的相關數據,同時滿足下發控制命令的功能。最后,電表也是衡量節能前后的重要設備,每一列機柜和空調上都安裝了一個電表以統計其消耗的電能。實實施施過程過程實施分為三個階段:環境仿真分析、AI 業務軟件部署、AI 節能59數據中心自適應 AI 節能技術白皮書ODCC-2023-02009評估。在環境仿真分析階段,場景部

103、署前,評估 AI 算法的智能化水平,除節能控制外,評估 AI 算法是否能解決局部熱點問題,消除過熱隱患。通過對機房進行氣流組織分析,發現存在明顯的局部熱點和氣流組織不均的問題。圖 19 機房氣流組織模擬圖AI 業務軟件部署階段,基于現有監控平臺提取兩個月數據進行清洗、建模和強化學習。3.3.AIAI 性能性能綜綜合評合評估估AI 業務評估階段,從熱點消除情況和能源效率改進狀況兩個方面進行評估。改造前運行狀態改造前運行狀態夏季最熱月 6、7 月室外平均溫度 35,在不開啟 AI 節能系統前,測算 48 小時,折算 A 機房月用電量 49225kwh,B 機房月用電量62445kwh,機房空調系統

104、 pPUE=1.286。改造后運行狀態改造后運行狀態60數據中心自適應 AI 節能技術白皮書ODCC-2023-02009兩個機房的空調能源效率分別提升了 18%和 15%,AI 模式相較于常規模式在夏季最熱月分別可節電 8643 度/月、9470 度/月,降低了能源消耗,提高了經濟效益。此外,該方案還有助于解決局部熱點問題,消除過熱隱患,保障數據中心的穩定運行。圖 20 A 機房 AI 開啟前后效果對比圖 21 B 機房 AI 開啟前后效果對比綜綜合分合分析析與傳統節能改造方案相比,基于 AI 強化學習算法的空調節能控制解決方案具有更高的智能化水平和優化效果,能夠根據實時環境狀態和反饋信息調

105、整控制策略,提高空調運行效率。此外,AI 算法的快速學習收斂和控制穩定性特點,使得節能效果更為顯著且可持續。在采用 AI 強化學習算法后,冷通道溫度沒有再出現局部過高的情況,A 機房整個冷通道的四個溫度傳感器反饋的溫度基本維持在61數據中心自適應 AI 節能技術白皮書ODCC-2023-0200925-26 攝氏度左右,B 機房所有微模塊冷通道的四個溫度傳感器反饋的溫度基本維持在 26-27 攝氏度左右,既保證了熱點的消除,也保證了通道溫度的均衡。在此前提下,空調的電能有了明顯的下降,整體 pPUE 也有明顯的下降,實現了在保證安全的前提下的最大程度節能。在數據中心 AI 節能中,安全是所有工

106、作的前提。本場景下的數據存儲在數據中心的本地,極大地保證了數據的安全性。同時,通過溫度告警以及設備通訊等多種告警模式,在出現熱點以及其他問題時可以及時發現并處理。最后,軟件中還加入了保底策略以及策略回退等功能,極大程度上保證了操作的安全性。(四)(四)樓宇樓宇級場景案級場景案例例1.1.場景場景概概況況某自用數據中心某自用數據中心位置與位置與布布局局該數據中心位于西南地區,屬于亞熱帶季風氣候區,氣候溫暖濕潤。整棟機樓占地約 900 平方米,包括一樓的高低壓配電房,二三樓的業務機房,四樓的通訊機房以及頂層的水冷設備。機樓內置有一個微模塊,該微模塊中裝有 8 臺水冷空調和 16 個溫濕度傳感器。目

107、前,機樓內共有 36 列機柜,其中 4 列已上架??照{系統空調系統62數據中心自適應 AI 節能技術白皮書ODCC-2023-02009該系統包括兩個螺桿冷水機組,10 個閥門和 10 個水泵,以及總計 41 臺空調設備(包括 22 臺水冷空調和 19 臺風冷空調)。在這41 臺空調設備中,微模塊中的 8 臺水冷空調也包括在內。制制冷冷問題問題盡管機柜的上架率目前較低,但由于空調設備在較長時間內保持穩定狀態,且溫度設定未發生變化,可能存在大量的制冷冗余和溫度分布不均的問題。溫濕度傳感器反饋的數據表明負載較高的地方溫度已經超過了 29 攝氏度,負載較低的地方溫度只有 24 攝氏度左右。但所有空調

108、的送回風溫度設置都是相同的,造成冷量的極大浪費。目前,機樓的整體 PUE(功率使用效率)為 2.04,這表明在能源使用效率方面還有提升的空間。2.2.AIAI 應用方案應用方案本應用案例的 AI 節能水冷機樓方案實施,旨在通過基于 AI 強化學習算法的空調節能控制,提升已建設的動力環境集中監控管理系統的空調效率。方案總體設計上為機理建模+神經網絡+強化學習。由于冷凍水系統過程參量巨大,機理建??梢杂行Ы⒘恐凹s束關系,對參量進行降維,從而降低訓練的難度。同時,神經網絡+強化學習可以有效調節算法參數,保證場景最優節能效果,充分適應復雜冷凍水場景下的房間差異。最終保證了實際方案的適應性和整體投

109、資回報率。63數據中心自適應 AI 節能技術白皮書ODCC-2023-02009算法設計算法設計方案通過在監控管理系統上加載 AI 強化學習模塊,獲取管理數據并進行 AI 強化學習,以實現對空調的節能控制。算法涉及的狀態、控制和獎勵要素包括開關機狀態、進/出風溫濕度、冷/熱通道溫濕度,以及冷水系統的閥門開度、進出水溫度、進出水流量、壓縮機開度、水泵功率、頻率和室外干濕球溫度等。為保障運行安全,AI算法中引入了安全保障機制。數據采集數據采集數據采集主要通過 B 接口和 C 接口的方式接入到本地的 AI 節能系統。采集的數據主要包括空調的開關機狀態、送回風溫度,溫濕度傳感器的溫度和濕度,以及冷水系

110、統的閥門開度、進出水溫度、進出水流量、壓縮機開度、水泵功率、頻率和室外干濕球溫度等。四樓的房間共包含 59 個溫度傳感器,包括微模塊中的 16 個溫濕度傳感器,用于監測和調整機房的溫度。64數據中心自適應 AI 節能技術白皮書ODCC-2023-02009六六、未未來發展技術來發展技術洞察洞察當前的 AI 技術在實際應用中仍面臨一些挑戰,隨著科技的不斷進步,AI 算法的迭代將不斷完善克服現有挑戰,提高對復雜場景和新型威脅的識別能力。未來,AI 技術在數據中心領域的發展將呈現更高的自動化程度、智能化管理和綠色節能性。實現進一步優化資源調度、輔助運維和安全監測,更加精細化、個性化的服務。AI 技術

111、將助力數據中心實現更高的能源效率和環境友好性,降低運營成本。以下是 AI 技術有望在數據中心領域取得廣泛應用的幾個方面的技術洞察。(一)(一)智智能供配電系統能供配電系統高度自動化與高度自動化與智智能化能化未來的智能供配電系統將進一步實現自動化與智能化,例如通過 AI 實現負荷預測、能源管理、故障檢測與診斷等。高能效與高能效與綠色綠色計算計算數據中心將采用更先進的 AI 技術來優化能源管理,實現更高的能源利用率、降低能耗以及減少碳排放。微電網集成與優化微電網集成與優化未來數據中心 AI 的智能供配電系統可能會與微電網系統集成,實現對多種能源類型(如太陽能、風能、蓄電池等)的優化調度。這將有助于

112、提高能源利用率,降低能源成本,同時增強數據中心的65數據中心自適應 AI 節能技術白皮書ODCC-2023-02009能源供應穩定性。預測性維護與故障預測性維護與故障診診斷斷AI 技術將在預測性維護和故障診斷方面發揮重要作用。通過對設備運行數據進行實時監控與分析,AI 可以預測潛在的設備故障,從而降低意外停機時間,提高數據中心的可靠性和可用性。(二)(二)智智能電能路由器能電能路由器隨著 AI 技術的不斷發展,智能電能路由器將在數據中心領域發揮越來越重要的作用,提高數據中心的性能、可靠性和安全性。以下是AI 技術在未來數據中心智能電路路由器發展中的一些應用場景:自動化路由優化自動化路由優化AI

113、 技術可以實現數據中心網絡的自動化路由優化。通過分析網絡流量、拓撲結構和鏈路狀態等信息,AI 可以動態調整路由策略,實現更高的網絡性能和資源利用率。負載均負載均衡衡與流量控制與流量控制AI 技術可以協助實現數據中心網絡的負載均衡和流量控制。通過對網絡流量的智能調度,AI 可以保證網絡資源的合理分配,降低擁塞風險,提高整體性能。預測性維護預測性維護AI 技術可以為數據中心網絡設備提供預測性維護服務。通過對設備運行數據的分析,AI 可以預測潛在的設備故障,從而降低意外66數據中心自適應 AI 節能技術白皮書ODCC-2023-02009停機時間,提高數據中心的可靠性和可用性。(三)(三)智智能大模

114、型能大模型輔助輔助運維運維隨著 AI 技術的不斷發展,大模型輔助運維將在數據中心領域發揮越來越重要的作用,為數據中心提供更高效、智能和人性化的服務。以下是大模型輔助運維在未來數據中心的一些潛在應用場景:技術支持技術支持大模型輔助運維可以在數據中心的客戶支持領域發揮作用,通過自然語言處理(NLP)技術理解用戶問題并提供實時解答。這將降低客戶等待時間,提高用戶滿意度。故障故障診診斷與排查斷與排查大模型輔助運維可以幫助數據中心工程師診斷和排查故障。通過對故障信息進行分析,大模型輔助運維可以為工程師提供可能的解決方案,從而降低故障處理時間。資資源調度與優化源調度與優化大模型輔助運維可以協助數據中心管理

115、人員進行資源調度與優化,例如根據用戶需求預測資源使用情況,以及提供建議以實現更高的資源利用率。知知識庫識庫維護維護大模型輔助運維可以協助數據中心維護和更新知識庫,以確保用戶和工程師能夠訪問到最新、最準確的信息。67數據中心自適應 AI 節能技術白皮書ODCC-2023-02009安全監控與風險管理安全監控與風險管理大模型輔助運維可以輔助數據中心進行安全監控與風險管理,例如通過分析安全日志和異常事件,協助識別潛在的安全威脅,并提供相應的解決方案。培訓培訓與與教育教育大模型輔助運維可以為數據中心員工提供在線培訓和教育資源,例如回答技術問題、解釋操作流程等,從而提高員工的技能和工作效率。與其他與其他

116、 AIAI 系統的集成系統的集成大模型輔助運維還可以與數據中心的其他 AI 系統(如智能供配電系統、智能冷卻系統等)集成,實現更高效的數據中心管理和運維。大模型輔助運維在未來數據中心的發展前景是非常廣闊的。通過引入先進的 AI 技術,大模型輔助運維將為數據中心提供更高效、智能和人性化的服務,從而提高數據中心的運營效率和客戶滿意度。(四)(四)智智能能碳碳交交易易及調度系統及調度系統隨著全球對碳排放控制的重視程度不斷提高,智能碳交易及調度系統將會對實現可持續發展產生積極影響。未來 AI 在智能碳交易及調度系統中可能涉及到的應用場景如下:碳碳排放預測排放預測68數據中心自適應 AI 節能技術白皮書

117、ODCC-2023-02009AI 技術可以幫助企業和政府部門預測碳排放量,為碳排放減少目標設定提供依據。通過對歷史數據和實時數據的深度分析,AI 可以為決策者提供更準確的碳排放預測。碳碳交交易易優化優化AI 可以在碳交易市場中實現優化,通過分析市場行情和需求,AI 可以為交易參與者提供策略建議,如何有效購買或出售碳排放權,從而降低企業的碳排放成本。碳資碳資產管理產管理AI 可以幫助企業更有效地管理碳資產,通過對企業的生產流程、能源消耗等進行分析,AI 可以為企業提供節能減排的優化建議,從而降低碳排放并提高資產價值。政政策策制定與評制定與評估估AI 可以幫助政府部門制定更為有效的碳排放政策,并

118、評估政策實施效果。通過對大量數據的分析,AI 可以為政府提供針對性的政策建議,以促進碳排放的減少。AI 在智能碳交易及調度系統中具有巨大潛力。通過將 AI 技術與碳交易及調度系統相結合,可以實現更有效的碳排放管理,為應對全球氣候變化做出貢獻。(五)(五)黑燈黑燈及無及無人駕駛人駕駛數據中心數據中心黑燈數據中心和無人駕駛數據中心是兩種以自動化和人工智能69數據中心自適應 AI 節能技術白皮書ODCC-2023-02009為核心的先進數據中心概念。黑燈黑燈數據中心數據中心黑燈數據中心是指在幾乎不需要人工參與的情況下,由人工智能和自動化技術進行運維的數據中心。黑燈一詞寓意該數據中心可以在無人值守的情

119、況下在黑暗中運行。人工智能在黑燈數據中心中的作用主要表現在能源管理、網絡流量管理、安全事件監測和故障排查等多個方面,大大提高了數據中心的運行效率和安全性。預計未來,黑燈數據中心將更深入地采用 AI 技術,比如深度學習,以實現更精細化的數據中心管理和更準確的故障預測。無無人駕駛人駕駛數據中心數據中心無人駕駛數據中心則是一種更廣泛地應用 AI 和自動化技術的數據中心,目標是實現無需人工干預的全自動運行。無人駕駛數據中心的實現需要用到包括機器學習、深度學習、自然語言處理等在內的多種 AI 技術,進行資源分配、性能優化、安全防護等一系列復雜任務的自動化處理。未來,隨著 AI 技術的進一步發展,無人駕駛

120、數據中心有望實現更高級別的自動化,例如通過增強學習實現自我優化,通過模式識別預測并自動處理可能出現的問題??梢哉f無人駕駛數據中心是黑燈數據中心的進一步演變,需要更高級別的 AI 和自動化技術支持。這兩種數據中心展示了人工智能在數據中心運維方面的強大能力,也為 AI 技術的進一步發展提供了重要的應用場景和實踐基礎。然而,同時需要注意到,當前這些預70數據中心自適應 AI 節能技術白皮書ODCC-2023-02009測基于 AI 技術的持續發展以及相關技術問題的有效解決,例如如何確保 AI 系統的決策透明性和可解釋性、如何防止 AI 系統被惡意攻擊等。(六六)風險及風險及挑戰挑戰未來要實現 AI

121、技術在數據中心的高度結合和利用率,除了希望和愿景外,還將面對一些現實的挑戰:數據共數據共享享:為了確保 AI 技術能夠更準確地理解和預測數據中心的狀態,需要構建一個開放、透明、安全的數據共享平臺。通過數據共享,AI 技術可以獲取更多的訓練數據,從而提高其預測和決策的準確性。接口統一:接口統一:要實現數據中心各個系統和設備之間的高度集成,需要建立統一的接口標準。統一的接口可以簡化 AI 技術的集成過程,提高數據中心的自動化程度。行業自行業自律律:在推動 AI 技術廣泛應用的同時,行業也需要對其使用進行規范和監管,避免因數據安全、隱私等問題帶來的風險。行業自律既包括制定相應的標準和規范,也包括對

122、AI 技術應用的監管和審查。如如何衡何衡量節能性:量節能性:隨著數據中心規模的增大和功耗的提高,如何準確衡量其節能性成為一個挑戰。目前,PUE(Power UsageEffectiveness)是最常用的衡量數據中心能效的指標,但這個指標主要關注的是 IT 設備的能耗,可能無法全面反映出數據中心的節能71數據中心自適應 AI 節能技術白皮書ODCC-2023-02009性。因此,需要發展新的能效指標,以更全面地衡量數據中心的節能性。復雜系統的管理和調優:復雜系統的管理和調優:隨著 AI 技術的加入,數據中心的系統將變得更加復雜。如何有效管理和調優這些系統,以實現最優的運行效率,是一個新的挑戰。數據安全和數據安全和隱私隱私保護:保護:隨著數據共享和 AI 技術的廣泛應用,數據安全和隱私保護的問題也越來越突出。如何在利用數據的同時保障用戶的數據安全和隱私,是需要解決的重要問題。技術升級和技術升級和人才培養人才培養:實現 AI 技術的高度集成和利用,需要有高水平的技術和專業人才支持。如何進行技術升級和人才培養,以滿足數據中心的發展需求,也是一個重要的挑戰。

友情提示

1、下載報告失敗解決辦法
2、PDF文件下載后,可能會被瀏覽器默認打開,此種情況可以點擊瀏覽器菜單,保存網頁到桌面,就可以正常下載了。
3、本站不支持迅雷下載,請使用電腦自帶的IE瀏覽器,或者360瀏覽器、谷歌瀏覽器下載即可。
4、本站報告下載后的文檔和圖紙-無水印,預覽文檔經過壓縮,下載后原文更清晰。

本文(ODCC:2023數據中心自適應AI節能白皮書(78頁).pdf)為本站 (securities) 主動上傳,三個皮匠報告文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對上載內容本身不做任何修改或編輯。 若此文所含內容侵犯了您的版權或隱私,請立即通知三個皮匠報告文庫(點擊聯系客服),我們立即給予刪除!

溫馨提示:如果因為網速或其他原因下載失敗請重新下載,重復下載不扣分。
客服
商務合作
小程序
服務號
折疊
午夜网日韩中文字幕,日韩Av中文字幕久久,亚洲中文字幕在线一区二区,最新中文字幕在线视频网站