《中國信通院:數據中心智能化運維發展研究報告(2023年)(35頁).pdf》由會員分享,可在線閱讀,更多相關《中國信通院:數據中心智能化運維發展研究報告(2023年)(35頁).pdf(35頁珍藏版)》請在三個皮匠報告上搜索。
1、中國信息通信研究院云計算與大數據研究所 開放數據中心委員會 2023年3月 數據中心智能化運維數據中心智能化運維 發展研究報告發展研究報告 (20232023 年年)版權聲明版權聲明 本報告版權屬于中國信息通信研究院本報告版權屬于中國信息通信研究院、開放數據中心委開放數據中心委員會員會,并受法律保護。轉載、摘編或利用其它方式使用本報,并受法律保護。轉載、摘編或利用其它方式使用本報告文字或者觀點的,應注明告文字或者觀點的,應注明“來源:中國信息通信研究院來源:中國信息通信研究院、開、開放數據中心委員會放數據中心委員會”。違反上述聲明者,。違反上述聲明者,編者編者將追究其相關法將追究其相關法律責任
2、。律責任。前前 言言 新型數據中心是支撐 5G、云計算、人工智能等新一代信息技術發展的算力載體,是推動經濟社會數字轉型、智能升級、融合創新的關鍵基礎設施。隨著以高技術、高算力、高能效、高安全為代表的“四高”成為產業發展新目標,智能化作為新型數據中心高技術的重要體現,已經成為新型數據中心的重要發展趨勢。為切實引導新型數據中心加快向“高技術”發展,本報告聚焦新型數據中心智能化運維的基礎性研究。分階段回顧了我國數據中心運維發展歷程,對智能化運維的基本概念、發展歷程等進行分析,深化產業認識,激發發展共識;首次提出智能化運維發展的三大目標和理念,體現產業界發展理念與體系的創新升級;總結分析智能化運維的發
3、展核心即設施、平臺、體系、服務的發展態勢,明晰智能化運維對于產業界的價值。報告意在為行業實現高技術、高質量發展提供有益參考,希望能對從業者有所啟示。數據中心智能化運維相關產業、技術正處于高速發展階段,新技術生態瞬息萬變,我們的認識有待深化迭代。報告存在不足之處,煩請業界不吝指正,共同進步。如有意見或建議請聯系 。目目 錄錄 一、數據中心智能化運維概念與內涵.1(一)基本概念.1(二)發展歷程.2(三)目標與理念.4 二、數據中心智能化運維發展核心.6(一)設施自動化運行.6(二)平臺智能化管理.10(三)體系精細化落地.14(四)服務價值化輸出.17 三、數據中心智能化運維發展實踐.20(一)
4、以自動化設施提升運行效率.20(二)以 DCIM 平臺促進智能管理.21(三)以技術手段賦能運維體系變革.23(四)以巡檢機器人釋放運維人力.25 四、數據中心智能化運維發展建議.26 圖圖 目目 錄錄 圖 1 數據中心智能化運維框架結構 1.0.2 圖 2 數據中心運維管理發展歷程.3 圖 3 自動化運行設施.7 圖 4 數據中心設施自動化運行能力分級之間的差異與關系.8 圖 5 DCIM 的管理范疇與服務能力.11 圖 6 數據中心精細化運維成熟度模型.17 表表 目目 錄錄 表 1 數據中心智能化運營管理平臺建設原則.14 數據中心智能化運維發展研究報告(2023 年)1 一、一、數據中
5、心智能化運維概念與內涵 經濟社會數字化轉型進程加速,新一代信息技術不斷升級,推動數據中心運維管理方式變革。為有效應對數據中心向綠色化、集約化、高密化、智能化建設發展演進過程中的新需求,數據中心運維需要由“人力密集型”向“技術密集型”演進,實現程度更深、水平更高的信息化變革,并在此基礎上進一步向更高級別的數字化、網絡化、智能化邁進。(一)基本概念(一)基本概念 數據中心智能化運維是集人工智能、大數據等新一代信息技術應用管理平臺與數據中心自動化運行設施等深度融合的新型運維模式與綜合解決方案(詳見圖 1)。通過對運維設施、平臺、體系與服務的全面建設,一方面充分利用 DCIM(Data Center
6、Infrastructure management,數據中心基礎設施管理)、DOSM(Digital Operation Service Management,數字化運維服務管理平臺)等管理平臺疊加自動化運行設施盡可能的實現系統自發現、自控制與自應急;另一方面搭建覆蓋精細化運維工作全價值鏈的人、事、物、流程四維科學運維管理架構,重塑數據中心運維價值體系。數據中心運行狀態中,從數據要素的流轉過程看,數據經過傳感器的采集、DCIM 的監控管理,到轉化為業務可識別的數據,最后以數據驅動管理,產生預測性維護價值。將數據的標準化收集視為運維管理生命周期的起點,智能化運維由此可以看作是一項系統性工程,有著
7、豐富的內涵與外延。需要通過數據中心設備、監控、管理平臺與數據中心智能化運維發展研究報告(2023 年)2 運維工作的有機結合,推動產業精細化、綠色化、智能化發展。來源:中國信息通信研究院 圖 1 數據中心智能化運維框架結構 1.0(二)發展歷程(二)發展歷程 我國數據中心運維的歷史可以追溯到 2000 年左右,大體上可以劃分為四個發展階段(詳見圖 2)。數據中心智能化運維發展研究報告(2023 年)3 來源:中國信息通信研究院 圖 2 數據中心運維管理發展歷程(1)手工運維階段 信息化發展初期,由于缺少運維工具和操作指南,較為依賴個人的知識、技術及經驗。運維完全圍繞人員展開,所有運維工作都由人
8、工完成,當運維人員出現問題時,全面影響數據中心企業運行。(2)流程化、標準化運維階段 當運維業務量增長超過人力增長,眾多企業紛紛建立運維流程,通過初步的制度化、標準化運作,規范了因為不同人員操作帶來的效果差異。在這一階段,根據標準化流程和分析方法,不同操作人員完成的巡檢報告質量水平可實現基本一致,降低了人員的變化對數據中心企業運維的影響。(3)平臺化、自動化運維階段 到了我國數據中心產業的大發展時期,云邊端一體化算力布局體系初成,不同形態的數據中心架構各異,運維方式也各不相同,數據中心現場生產和遠程集中化管理的運維需求溢出。數據中心可以利用DCIM 等平臺或工具,把可復用以及標準化程度較高的相
9、關工作進行梳理,使用算法整合的方式來達到自動化的運維,并對執行的過程進行監管,優化運維管理。當前,我國數據中心總體處于平臺化、自動化運維階段,呈現平臺化、自動化、可視化等典型特征。(4)智能運維階段 隨著 5G、人工智能、云計算、大數據等新一代信息技術研發與數據中心智能化運維發展研究報告(2023 年)4 應用風起云涌,賦能數據中心運維管理模式變遷。為有效應對數據中心產業不斷提升人員效率、能源利用效率的發展需要,運維管理正在逐步邁入以設施、平臺、體系、服務為核心要素的智能運維發展階段。數據中心在全自動、互聯、自運維的基礎設施環境下,通過全方位的監控系統感知并準確定位故障,通知智能決策系統下發變
10、更、維護等指令,實現運維從數據輸入到預測性維護全過程的數字化,基于數據建模實現運維過程可視化,在“無人值守”的情況下安全高效地進行運維。隨著數據中心業務日益繁雜,憑借海量數據的積累,人工智能、大數據等技術在數據中心運維領域還可以實現更多應用,智能化運維將從單點突破到全架構、全場景的優化落地,當前發展階段距離實現真正的智能運維還有很長的路要走,未來將呈現出無人化、智能化、數字孿生等典型特征。(三)目標與理念(三)目標與理念(1)生產連續性 對于數據中心業務管理人員來說,用戶的業務連續性取決于數據中心的生產連續性。特別是在疫情期間,用戶企業尤其需要考慮數據中心在其業務連續性中發揮的關鍵作用。如今,
11、業務連續性管理已經演變成了一門管理學科,在數據中心中得到了越來越多的應用。所謂業務連續性管理,即 Business Continuity Management,簡稱 BCM。這個概念最早脫胎于傳統的 IT 備份與容災恢復計劃,可以看作是組織進行一體化管理的過程。通過業務連續性,可以對潛在風險進行識別,提供一個指導性框架來建立組織機構的恢復能力和有效應急響應能數據中心智能化運維發展研究報告(2023 年)5 力。生產連續性則指數據中心基礎設施層面進行智能化運行的過程,設施根據既定的設計標準和架構冗余度,結合業務需求和管理要求,在不超過設計運行目標的異常情況下,可以按照預定義模式持續運行。即當產生
12、外界故障變化時,設施可以根據實際需要進行一定程度的資源調度和應急操作來保障生產連續性。(2)運維即服務 OaaS(Operation as a Service,運維即服務)是在借鑒了 SaaS(Software as a Service,軟件即服務)和研究了業界數據中心服務轉型的基礎上提出的新理念。近年來,運維在數據中心全生命周期中的關注度逐漸提升,其作為數據中心企業的軟性核心競爭力之一,管理模式逐步從“以技術管理為中心”向“以服務為中心”轉變?,F如今,運維管理已經成為企業產品價值鏈上的重要環節,業界普遍認為實現服務的過程就是創造價值的過程,如果達成了“運維即服務”的發展目標,數據中心運維部門
13、也會從傳統的成本中心逐漸向價值中心轉化。(3)數據驅動管理 數據驅動管理指通過底層監控系統采集海量的數據,將數據進行組織形成信息,并對關鍵信息進行整合和提煉,實時、準確地為數據中心運營者提供管理決策依據,提高數據中心經營產出和效率。數據驅動管理模式是在數據的基礎上經過訓練和擬合形成自動化的決策模型,從而達成以數據和算法為驅動的預測性維護、智能化告警目標,全過程強調以數據“洞察力”驅動數據中心管理價值。數據中心智能化運維發展研究報告(2023 年)6 二、數據中心智能化運維發展核心 2021 年 7 月,工業和信息化部新型數據中心發展三年行動計劃(2021-2023 年)明確提出“聚焦新型數據中
14、心供配電、制冷、IT和網絡設備、智能化系統等關鍵環節,鍛強補弱”。政策引導數據中心運維管理向智能化發展,產業界關于智能運維等長期主義的呼聲也越來越高。數據中心智能化運維是新一代信息技術與數據中心設施、平臺、服務三層架構和體系深度融合的解決方案。深入分析與理解各部分的發展背景、推進邏輯,才能夠更好地推動數據中心智能化運維發展。(一)設施自動化運行(一)設施自動化運行 產業高速發展下,“解放人力”需求推動設施自動化運行。當下數據中心行業面臨著大規模、高增長、急交付的發展挑戰,運維側面臨成熟人才短缺、人員流動性較大、知識技能儲備不足等諸多困難。為應對產業智能化運維下一發展階段對于“無人值守”及無人化
15、下極致安全的發展需要,電氣、暖通、安防等自動化運行設施(詳見圖 3)將結合軟件能力,從快速地發現問題、及時地通報問題、準確地判斷問題、高效地處置問題等方面,助力數據中心破除“人為主責”的局面,滿足客戶越來越高的 SLA(service Level agreement,服務等級協議)要求。數據中心智能化運維發展研究報告(2023 年)7 來源:中國信息通信研究院 圖 3 自動化運行設施 數據中心設施自動化運行的發展與演進,與 SAE(Society of Automotive Engineers,美國汽車工程師學會)對自動駕駛的成熟度定級相似。早有研究表明自動駕駛汽車為社會安全和效率帶來一定積極
16、影響。對于數據中心“智能駕駛”來說,基礎設施如能在故障時發揮其發現、控制、應急的能力,取代人作為主責方完成相同的運行操作,這其中終態目標也在于安全和效率。數據中心安全、高效運行,是每一個運營者的核心目標,傳統數據中心想實現這些,需要大量優質人才。隨著新基建、“雙碳”等國家戰略發展,一方面,有限的人才資源制約著數據中心的快速健康發展,另一方面,過度依賴人也會增加數據中心運行的風險。從安全角度來看,據調查了解,數據中心故障宕機場景中,人為操作的事故占比超過 60%。因數據中心面臨的外部風險不確定性高,如突發的疫情、區域的限電、極端的天氣、機電系統過于老化、能效控制等方面。想守住安全紅線,靠人是遠遠
17、不夠的,需要建設自動化運行設施來助力數據中心實現更深層次的安全性。從數據中心智能化運維發展研究報告(2023 年)8 效率角度來看,和汽車的自動駕駛一樣,數據中心設施的自動化運行可以降低對人員的依賴,提升效率。數據中心智能駕駛是一項系統性工程,需要通盤考慮,打通從建設到運營、硬件到軟件各個環節,不僅要培養觀念與習慣,還需要投入大量人力與時間成本。類似于 SAE 將汽車自動駕駛級別的 L0L5 級劃分,清晰定義了人工駕駛(No automation)、系統輔助駕駛(Foot off)、部分自動駕駛(Hands off)、有條件自動駕駛(Eyes off)、高度自動駕駛(Mind off)、完全自
18、動駕駛(Chauffeured)五個等級。團體標準數據中心基礎設施智能化運行管理評估方法將數據中心的電氣、暖通、安防等設施在多種故障場景下,取代人作為主責方達成相同的操作目標的程度進行了定義。數據中心自動化運行發展從全部人工運行的初級階段到全自動運行的高級階段分為五個等級(詳見圖 4)。未來數據中心或將達成第四級別,這一級別將實現自動預測性排障和分析、全自動應急處置及 AI 能效管理,在運行態幾乎可以達到“無人化”。沒有運行模式限制,完全執行運行操作任務和應急處置有運行模式限制時完全執行運行操作任務和應急處置有運行模式限制時完全執行運行操作任務,但不應急處置持續執行監測,完全執行控制持續執行部
19、分監測,部分執行控制NONONONOL5 完全運行自動化L4 高度運行自動化L3 有條件運行自動化L2 部分運行自動化L1 運行輔助YesYesYesYesYes 來源:中國信息通信研究院 圖 4 數據中心設施自動化運行能力分級之間的差異與關系 數據中心智能化運維發展研究報告(2023 年)9 其中 L1 級,人工為主,設施輔助。實現數據的監控采集,具備設施及系統的故障報警、電氣自動切換能力,目前行業內很多存量數據中心處于該級別。L2 級,設施為人工輔助。由人主責,設施輔助共同完成任務,無論設施的完成程度,始終以人作為完成任務的主責方。L3 級,更進一步的設施主控、人工輔助。實現半自動運行和遠
20、程控制,故障后的應急操作,可在設施半自動模式下完成,初步實現數據中心解放運維人員的腳、眼和手。L4 級,設施全自動化運行??深A測系統和設施劣化趨勢和故障,能基于自動化的能效調控措施,實現極致能效,初步實現數據中心解放運維人員大腦,在較長時間內允許無人在場。L5 級,無人運行。設施全自動運行、調度、預測,不期望人進行干預,特殊情況下,可由運維人員遠程接管,做到現場無人值守。未來,處于理想態的智能化數據中心,軟件業務部署會垂直貫通數據中心部件到上層的運維,從原來的分層解耦變成垂直整合。理想狀態下,智能運行的數據中心在運維效率、部署方式和最終實施環節上和傳統的數據中心完全不同。與機器人技術結合的數據
21、中心智能化巡檢、運維操作應用場景逐漸明朗,驅動智能機器人規?;逃?。運維活動的穩定性與效率依賴于人員的排班、技能、現場表現等諸多方面。數據中心智能化巡檢/運維機器人可以代替人工進行現場巡檢、硬件插拔或維修操作,可以將人員帶來的臨場差異消弭,進一步提升效率。當前,如機器人技術、人工智能、IoT(Internet of Things,物聯網)等多方面先進技術已取得了長足發展。在工業領域,機械自動控制系統已日趨成熟,諸多如數據中心智能化運維發展研究報告(2023 年)10 機器人、機械手臂、AGV(Automated Guided Vehicle,自動導引運輸車)、自動導航控制系統等新應用層出不窮,
22、這也使得各行各業對機器人的接受程度大幅提高,其中不乏許多數據中心的用戶。未來數據中心內重復的標準操作可以逐步交由運維機器人進行,助力數據中心達成“用機器管理機器”的愿景。(二)平臺智能化管理(二)平臺智能化管理 數字技術推動 DCIM 智能化發展,監控管理等通用能力建設與應用將更加全面與深入。數據中心逐漸走向大型化和集約化,管理模塊劃分越來越精細化,這也意味著成本的飆升,以及對基礎設施關鍵技術依賴的加劇。與此同時,IoT、AI、數字化 3D、數字孿生等新技術已廣泛應用,DCIM(詳見圖 5)中監控管理、運維管理、運營管理、安全管理等通用能力的高效建設、精準應用是未來發展的重點。建設方面,DCI
23、M 將向基礎設施和多個子系統集中化管理發展;應用方面,包括部件級、設備級、鏈路級、數據中心級的運行狀態、關鍵參數、故障告警等信息將向全局可視化發展,以幫助管理者更直觀地掌控數據中心運行狀態。數據中心智能化運維發展研究報告(2023 年)11 來源:中國信息通信研究院 圖 5 DCIM 的管理范疇與服務能力 以運營管理能力中的容量管理為例,一直以來,數據中心企業追求相同成本下最大程度縮短項目上線交付時間,企業用戶持續投入建設 IT 系統與數據中心,也是為了能夠搶占市場先機、支撐經營決策。根據中國信通院數據顯示,當前我國數據中心規模超過 600 萬架標準機架,但數據中心資源利用率有待提升,個別地區
24、資源閑置率達到50%,造成一定資源浪費。與此同時,數據中心管理團隊還面臨另一個挑戰,即當前數據中心能不能敏捷調配算力資源,以支持新業務的快速上線。本質上,容量管理主要解決的是資源調度問題,其目標是為了應對非線性業務需求的增長,可以彈性使用算力資源,同時使得其成本可控,滿足用戶業務性能要求。容量管理是當前數據中心產業規模大型化發展趨勢下的迫切需要和必然要求。根據中國信通院發布的 數據中心白皮書(2022 年)數據中心智能化運維發展研究報告(2023 年)12 顯示,我國數據中心機架規模持續穩步增長,大型及以上數據中心機架規模占比達到 80%,成增長主力。一方面,受國家相關政策影響、企業業務需求增
25、長等因素驅動,云計算數據中心的單體規模越來越大,成千甚至上萬機架的數據中心屢見不鮮,超大型數據中心不斷涌現。另一方面,大型云服務商、大型互聯網企業動輒需要管理數百個機房、數萬臺機架,這些機房和機架位作為主要的不動資產,需要高效地利用供電、制冷、網絡、空間和承重容量,避免每個資源維度的閑置或者超容,實現整體效率最大化。IT 層面,數據中心未來的發展趨勢中,多元化 IT 資源將在截然不同的業務和需求間動態分配。若要實現智能敏捷地調配,我們所關注的容量指標不僅僅指機位空間、電量等動力指標,算力也成為容量管理的重要部分,需要有效利用平臺或工具來實時監測計算、網絡、存儲等資源的使用情況,并根據運行狀態實
26、時調整配置,實現資源的有效利用。長遠來看,DCIM 可以將基礎設施管理水平提升至更高層次的業務智能調配,在下一階段的新技術/新產品或將更好得實現機架功耗、服務器功耗、網絡端口利用率的微觀優化。如在機房功耗密度一定的情況下,通過調配部分機架的功耗峰值,達成機架內的最優解,為進一步實現集群化數據中心在基礎設施、網絡資源、計算資源方面的宏觀優化提供基礎?;A設施層面,創新的 DCIM 容量管理,可以提供數據中心當前物理狀態,并模擬未來添加、遷移和變更物理設備的效果,能夠預測變更對空間、供電、制冷、網絡、承重等容量管理方面的影響。一般數據中心智能化運維發展研究報告(2023 年)13 而言,容量和變更
27、管理有模擬結果、規劃容量、管理工作流程,以及避免局部熱點等方面的作用,可讓運營者對數據中心整體運營有更長遠、更全面的認知與規劃。數據中心在全生命周期運營中,每天都上演著諸多資源調配 NP-hard(非確定性)難題,管理者需要快速判斷出服務器的安裝位置,并綜合考慮安裝位置對現有分支電路的影響、新增服務器對冗余和安全性的影響等因素。在傳統數據中心,運營人員通常根據有限的、零散的數據,依靠個人經驗進行判斷決策。如果判斷錯誤,那么當機柜超過電源容量時,會導致服務器掉電等較為嚴重的問題發生。而 DCIM 能夠在測量機柜中每個設備的用電量后,根據科學數據做出負載均衡決策。除此之外,還可以協助避免線路過載及
28、斷路器跳閘,使得運營者有機會在宕機前做出合理調整。如果某臺機柜接近容量閾值,DCIM 還能夠生成預測性模擬選項,并進行評估,以確定最佳的方法來降低該狀況的發生?;诨A設施與 IT 設施融合管理的目標,智能化管理對象應覆蓋基礎設施(電力、制冷、機柜、安防)、IT 設備(服務器、交換機、存儲)及相關聯的環境,管理活動應貫穿數據中心基礎設施全生命周期的運維運營行為,提供集中監控、資源規劃、日常運維、成本優化等管理模塊。有效的運營管理系統可切實幫助數據中心保障基礎設施的高可用并提高基礎設施資源利用率,降低能源消耗和人員綜合成本,并通過流程化管理日常作業提升服務水平,提高數據中心經營產出和效率,實時、
29、準確提供管理決策信息,最終實現以數據驅動管理價值。在此背景下,數據中心智能化管理平臺的建設宜遵循“以用戶需數據中心智能化運維發展研究報告(2023 年)14 求為導向,以價值為目標”的總體原則(詳見表 1),其核心價值應包括:安全、效率、合規。表 1 數據中心智能化運營管理平臺建設原則 安全 設施安全 以數據中心設施設備安全為目標,依托多種物聯技術進行在線數據采集,通過機理、數理分析手段,實現故障事前預防預測、事中敏捷感知、事后精確處置 人員安全 以數據中心作業人身安全為目標,通過標準化作業指引、知識賦能,實現高危操作可控、風險規避 環境安全 以數據中心場地環境安全為目標,對人員出入、場地活動
30、、環境趨勢進行規范審計和全面監控,防患于未然 信息安全 以軟硬件系統信息安全為目標,系統健壯、無漏洞,數據資產可控可信,產品技術不受外部制約 效率 設施效率 以節能低碳、降本為目標,通過監測供電系統、制冷系統質量、效率,應用數據分析手段發掘低效源頭,主動調優運行參數,改善電能利用效率、制冷供冷效率 人員效率 以提升人員運維工作效率為目標,提供電子化、標準化、流程化操作工具,打通線上線下作業壁壘,提升日常作業效率、服務響應能力,提高人均運維產出 運營效率 以提升數據中心經營質量為目標,平臺智能支撐運營管理者精細化資源投放,合理、充分發揮基礎設施存量價值,提高運營收益 合規 管理合規 以可審計、可
31、追溯為目標,確保過程有跡可循 來源:中國信息通信研究院(三三)體系精細化落地)體系精細化落地 面向業務應用,日趨嚴格的用戶服務要求推動企業搭建低成本、高效率的精細化運維體系。隨著新型數據中心、“東數西算”等政策的落地與實施,一大批數據中心項目紛紛上馬,新建數據中心以大規模、超大規模為主,海量的設備和復雜的系統為高效管理帶來了挑戰。如數據中心智能化運維發展研究報告(2023 年)15 果缺乏與之相匹配的現代數據中心精細化運維手段,粗放的基礎設施、IT、網絡管理和維護方式勢必會造成電力和網絡成本的浪費,在對于網絡體驗、算力服務要求日益嚴苛的今日,難以保證用戶方對于業務的高需求和高要求。高效運維流程
32、體系應隨著業務發展戰略迭代更新,助力數據中心規范管理流程,提升運維價值。并不是建設應用好智能化管理平臺、自動化運行設施或其他更先進的“器”后就可以完全保障數據中心的有序運營,一套行之有效的運維管理方法論可以幫助企業確立數據中心全生命周期運行維護管理的關鍵環節,幫助運維團隊提升運維管理效率,高效挖掘運維價值。管理方法論應隨著企業發展變化而不斷更新,避免因“重器輕道”而產生運維團隊自身熵增。加之運維是數據中心全生命周期中歷時最長的一個階段,運維體系建設及流程實施的重要性不言而喻。數據中心的精細化運維是相對傳統運維管理而言,一種實現運維分工更精細,運維質量更精益的管理體系,只有在運維體系建設、運維流
33、程規范中不斷突破與創新,才能實現數據中心“運維創效”的高階目標。通過積極運用技術手段并建立一套運維體系,可以全面覆蓋數據中心運營的設備管理、流程管理、質量管理、資源管理、人員與組織管理各個關鍵環節所需要的框架及流程,形成數據中心運維全生命周期的服務能力。設備管理環節,包括設備監控、告警管理、設備狀態管理、設備健康度管理等關鍵活動。以設備健康度管理為例,要依靠大數據、人工智能等技術,基于大量歷史數據,對設備健康情況和所數據中心智能化運維發展研究報告(2023 年)16 處的狀態進行評價,并制定相應運維的活動計劃。比如當設備出現內部端口 DOWN(關閉)告警,通過健康度分析,預判將會影響到網絡轉發
34、流量,就需要運維人員提前隔離設備,讓網絡流量不流經該設備。流程管理環節,主要包括維修、維保、巡檢、演練等關鍵活動。以巡檢為例,當前日常巡檢的很多工作可以被監控系統替代,因此應強化定期專項巡檢來彌補監控系統的不足。比如對 UPS(Uninterrupted Power Supply,不間斷電源)的專項巡檢,可以全面檢查 UPS 的外部、內部,專家團隊可以采用紅外熱成像儀檢測內部器件的溫度,測量或查看 UPS 內部母線電容的電壓、逆變器輸出的波形和諧波、輸入端的波形等,依此預判 UPS 是否有故障或隱患。質量管理環節,包括風險管理、事件管理、問題管理、資料文檔管理等關鍵活動。以問題管理為例,與事件
35、管理強調速度不同,問題管理注重診斷事件的根源,確定問題的根本原因,從而制定恰當的解決方案,防止類似事件的再次發生,因此問題管理比事件管理會花費更長的時間。當前應用無監督學習算法對大型服務器集群內部的故障進行根因故障分析在業界已有諸多實踐?;谌斯ぶ悄艿膯栴}管理多以告警事件、業務日志、網絡及業務拓撲等為管理對象,依托無監督方式的機器學習算法技術進行算法智能降噪、算法智能聚類,實現智能事件關系整合,在海量的故障事件中高速、精準定位問題,解析原因,并提高解決問題的速度。資源管理環節,包括能效管理、容量管理、資產與配置管理等關鍵活動。以資產與配置管理為例,資產管理的控制目標偏重于公司財務視角,配置管理
36、則聚焦 IT 管理視角,識別和確認系統的配置項記數據中心智能化運維發展研究報告(2023 年)17 錄,報告配置項狀態和變更請求,檢驗配置項的正確性和完整性等。目前已有大量數據中心企業利用 RFID(Radio Frequency Identification,射頻識別)技術,對單位的固定資產進行標簽式管理,可實現資產全面可視和信息實時更新,能夠實時監控資產的使用和流動情況。人員與組織管理環節,包括供應商管理、交接班管理、培訓與考核等關鍵活動。人員與組織管理更加強調管理者對自身所擁有的各種與人員相關的要素計劃、組織、協調和控制的過程,在戰術與操作層面都強調正確、合規。目前相關標準已提出數據中心
37、精細化運維成熟度模型(詳見圖 6),詳細定義了上述環節各個過程的目標與能力要求。來源:中國信息通信研究院 圖 6 數據中心精細化運維成熟度模型(四)(四)服務價值化輸出服務價值化輸出 廣義的運維工作應包含管理與服務兩個部分。向內歸因,管理者應向自己提問“我需要管理什么?”,這里主要是對數據中心各項管理對象進行系統的計劃、組織、協調與控制,是設備管理、流程管理、質量管理、資源管理、人員與組織管理的總稱,對內應著眼效率提升。經濟學中提到的著名理論“生產力決定生產關系”指出了運維工作的數據中心智能化運維發展研究報告(2023 年)18 外延部分,服務包含的內容本質上是管理者反思“我能提供什么?”的過
38、程。相較于管理,服務是向外探索,指的是運維團隊具備哪些能力,可以用何種方式對外輸出,因此對外應強調敏捷升級。據 ODCC(開放數據中心委員會)測算,2022 年我國數據中心基礎設施運維市場營收超過 100 億元,且近 5 年的市場增長率都在 20%以上。數據中心運維服務將日趨細致與專業,專業人才短缺問題或將長期存在、分化也將日趨嚴重。面向成本類、效率類等場景,各數據中心運營商是否運用賦能提效工具,工具是否起到實際作用,影響運維增值服務能力輸出。部分數據中心在價值化運營下,會取得良好效果,這也將推動產生規模越來越大的專業第三方運維服務市場。(1)成本類場景 數據中心借助 AI 軟件等工具進行綠色
39、運維,不僅僅是為了符合綠色經濟與“雙碳”戰略的要求,對于數據中心自身的可持續發展來說,通過引入 AI 調優的方式降低用電量能耗,即便是節省幾個百分點的耗電量,都意味著巨大的成本節約。切實提升能源利用效率,降低數據中心能耗,打造數據中心綠色運維服務模式,已成為新型數據中心發展的重要任務。一方面,在近幾年數據中心“新基建”的建設熱潮下,很多基礎建設實際都已完成,運維人員接下來面臨的問題是如何在運維和能效管理上進一步滿足用戶對于“最高能效、最低成本”的極致要求。另一方面,在互聯網、金融行業等用戶方的高標準 SLA 要求下,為與用戶方的設備產品相匹配,提供更好的綠色運維服務,更加要求數據中心運維方在確
40、保安全性、可靠性、靈活性等基礎上,進行能效數據中心智能化運維發展研究報告(2023 年)19 管理。當前,數據中心節能潛力已經充分挖掘,PLF(Power Load Factor,供電負載系數)下降值已接近天花板,冷卻系統成 PUE 節能的主戰場。數據中心大多需要復雜的制冷系統設備,在目標溫度及機房內外環境溫濕度等多種參數的制約下,數據中心的能耗優化問題成為一個非線性多輸入的控制優化問題。目前業界趨于采用機器學習的方法,基于歷史數據,用模型來逼近從輸入到輸出的各種復雜變化。通過在系統中整合預訓練好的深度學習預測模型,技術專家的能效調優經驗可以協助運維工程師調整設備參數組合。設備經調參操作之后,
41、輸出的結果將繼續被采集和學習,模型不斷迭代后可以確保精確性與安全性。專家系統中的實際調控經驗會作為人工智能算法模型控制推薦的方案,最終實現降低整體智能化運維的風險,達成系統級的能效智能優化,助力數據中心產業進一步優化制冷系統成本。(2)效率類場景 電力系統的穩定運行和維持理想的物理環境溫度是保證數據中心運營穩定的關鍵。許多數據中心通過監控系統和運維人員巡檢,來檢測機房內的電熱異常行為,減少電熱問題帶來的故障。但如今的數據中心電力、制冷及 IT 設備的拓撲類型、工作狀態、業務負載千差萬別,難以快速發現及定位問題?;趶碗s的應用場景,目前較為常見的提效工具是 CFD(Computational F
42、luid Dynamics,計算流體動力學)。利用 CFD 技術仿真可以找出氣流短路和氣流中熱點所在位置,數據中心智能化運維發展研究報告(2023 年)20 快速找出產生局部熱點的原因,有針對性地進行優化改進,同時還可以利用仿真結果對冷熱氣流隔離等改進方案進行評估和驗證。三、數據中心智能化運維發展實踐 編寫組通過全面總結案例實踐成效與具體做法,希望能為推動數據中心運維向精細化、綠色化、智能化發展提供有益借鑒與參考。(一)以自動化設施提升運行效率(一)以自動化設施提升運行效率 我國互聯網企業、第三方服務商積極開展自動化運行相關實踐,但當前大部分數據中心還處于 Level 2 的水平。通過中國信通
43、院調研發現,在電氣、暖通系統自動化運行實踐水平方面,90%以上的數據中心在市電故障等故障場景下,實現告警后高壓變配電系統將電能按照設計要求進行分配的難度較大,在智能化運行先進理念和軟件、硬件協同聯動方面尚存優化空間。如何實現數據中心“智能駕駛”,自動化設施在發現、診斷、處置全流程場景的覆蓋度成為關鍵,在數據中心向自動化運行演進過程中,企業需從邏輯側、參數側、設計與管理側等方面重新考量運維問題,并進一步對弱電領域進行探索。專欄專欄 1:自動化運行設施應用案例:自動化運行設施應用案例-萬國數據北京四號數據中心萬國數據北京四號數據中心 萬國數據服務有限公司(下稱“GDS”)深耕數據中心行業多年,在中
44、國第三方數據中心運營商分報告(2022 年)中規模及綜合能力指數位列第一。如何在快速擴張的情況下保證數據中心的高效安全運行成為 GDS 的一大挑戰。為此,GDS 從多年以前就開始探索和實踐數據中心智能運營模式,歷經三代更迭,形成 GOCC-ROCC-DCU(全球運營指揮中心-區域運營指揮中心-單座數據中心)三級數據中心運營架構的智能運營體系。在此期間,GDS 自主研發了智能運營系統,涵蓋智慧園區、基礎設施管理、智能監控、運營管理、運維服務、節能減排、資源規劃等各個方面,推動數據中數據中心智能化運維發展研究報告(2023 年)21 心的安全、智能、綠色運行。截至目前,萬國數據北京四號數據中心已經
45、實現 L3 級智能駕駛,從發現、診斷、處置三個方面實現系統為主、人工為輔的智能運行模式,進一步保障了數據中心的安全穩定運行。此外,GDS通過在基礎設施建設方面大量應用融入專業經驗的自動化裝置代替人工操作,提高故障報警及響應速度,并結合自行開發的運營管理平臺及應用軟件,實現了從本地到區域,再到全國的高效、高質量運維。(二)以(二)以 DCIM 平臺促進智能管理平臺促進智能管理 當前,數據中心可視化管理平臺、AI 軟件如雨后春筍般層出不窮,目前市場上常見的一些運維管理軟件或用于向數據中心決策者匯報展示使用,或適用于運維人員日常工作。根據 ODCC 對我國數據中心動環建設應用水平的調研發現,許多業主
46、表示動環/DCIM 等產品智能化發展脈絡難把握,因此還存在大量中小型數據中心依靠人工與表格統計來進行管理。通過中國信通院測試并獲得智能化管理 Level 4 的數據中心也屈指可數,在數據采集規范、質量方面,部分數據中心已經采用 ODCC發布的 互聯網數據中心基礎設施監控指標規范;采集器斷開 5 分鐘后,僅有 30%的數據中心可以實現端數據斷點續傳。在故障場景告警速度方面,近一半的數據中心平臺端收到告警的速度大于 30 秒,僅有不到 20%的數據中心可以實現 20 秒內完成告警,有效降低了運行風險。在推動 DCIM 高水平建設、智能化應用的過程中,也涌現出眾多優秀實踐案例。如騰訊懷來瑞北云數據中
47、心基于騰訊自研的數據中心自動化管理平臺騰訊智維,構建了鏈接園區、區域、總部的三級閉環管理體系,并通過重構告警鏈路實現了秒級敏態感知,應用圖計算、數據中心智能化運維發展研究報告(2023 年)22 物模型等技術實現了告警極速收斂,故障自動定位,準確率高達 99%。數據港張北 2A2 數據中心通過采用微服務架構、數據采集技術架構及分布式數據存儲架構等數據分析平臺架構,將紛繁復雜的各類運行數據轉化為可直接分析的有效數據,并深度挖掘數據內涵,降低人為判斷干擾,減少災難性宕機、數據丟失等問題,提高了整體系統的安全性和穩定性,大幅提升了數據中心的運營管理能力和管理效率。中國雅安大數據產業園 1 號樓采用
48、AI 技術進行精準運維,依據實時的運行數據提前為運維人員示警,并結合 BIM(Building Information Modeling,建筑信息模型)運維模型的機電邏輯拓撲圖,梳理出故障發生的內在根因,輔助運維人員對數據中心進行科學化、智能化管理。專欄專欄 2:智能化管理平臺應用案例:智能化管理平臺應用案例-湖北中煙云網端安智慧管控中心湖北中煙云網端安智慧管控中心 湖北中煙工業有限責任公司(下稱“湖北中煙”)錨定“雙一流”戰略目標,大力推進數字化、網絡化、智能化數據中心建設,賦能煙草業務高質量發展。在數字化轉型過程中,為促進基礎設施持續高質量運營,湖北中煙通過建設云網端安智慧管控中心,建立起
49、以用戶和應用為核心的智能運維體系,全面提升業務、資源、安全、服務相融合的運維運營管理能力。業務方面,可實現可視化、端到端、高質量的業務應用管理,滿足業務高可用要求;資源方面,通過定義 IT 運維管理對象的基礎信息標準并建立數據管理流程,為眾多運維服務場景提供數據服務;安全方面,可實現安全運維雙域融合,從監控、審計、風險、處置四個維度建立了一套可度量的“統一安全運維管理體系”;服務方面,可實現運維服務過程可視化、可量化、可追溯,提高運維服務質量及用戶滿意度。通過建設云網端安智慧管控中心,湖北中煙成功構建“全領域、全方位、全覆蓋”的智能運維體系,實現總部分支協同、安全運維融合、數據支撐決策,保證基
50、礎設施及業務系統穩定運行,推動生產、運營、物流等業務流程的數字化,保障信息化建設與管理的投入產出效益,持續鞏固發展優勢。數據中心智能化運維發展研究報告(2023 年)23 專欄專欄 3:智能化管理平臺應用案例:智能化管理平臺應用案例-深圳聯通坪山數據中心深圳聯通坪山數據中心 近年來,深圳聯通響應國家“雙碳”政策,聯合北京市中保網盾科技有限公司積極探索,在坪山數據中心,一是基于 DCIM 采集的數據,開發了智能巡檢系統,實現了數字化運維。運維數據分析后可指導運維策略優化、也可支撐運維體系向精細化發展,提高了運維的可靠性,降低了運維過程對人的依賴;二是引入“大數據、AI”等技術,對數據中心、人員等
51、資產信息和巡檢過程等各類信息進行全量采集和自動化管理,持續分析機房 IT 設備、配電和暖通系統與設備用電數據,并結合天氣的變化,及時精準調整系統與設備的運行策略,降低耗電量;三是通過聯動蓄電池智能管理系統和“主動能量管理”模塊,增加系統的供電時長,提升電力保障能力,通過電壓和容量一致性管理,以及充放電控制,延長電池使用壽命,提高備電經濟性。智能化管理系統的應用,使得坪山數據中心實現 2022 年全年維護、維修時效 100%達標,事件處理零延遲,運行維護零事故。助力達成“運行數據可視化、歷史數據可查詢、遠程運維可管理、應急處置有預案、故障情況可分析”的運維升級。(三)以技術手段賦能運維體系變革(
52、三)以技術手段賦能運維體系變革 現階段我國數據中心運維標準化、流程化程度較高,大多數據中心已基于 ITIL(Information Technology Infrastructure Library,信息技術基礎構架庫)等通用方法論將流程固化在系統上。存量時代下,隨著數據中心由重建設轉向重運維,如何在海量運維信息中發現價值,提升運維管理水平,成為價值運維管理的新引擎。在“東數西算”等國家政策引導下,數據中心的大型化、高密化、集群化發展趨勢也讓各種管理問題凸顯,以往得心應手的管理經驗似乎已經無法奏效。運維管理者單純憑借基于人工經驗的管理手段,面對復雜的環境和海量的數據中心智能化運維發展研究報告(
53、2023 年)24 數據已顯得無所適從。多元化應用場景對數據中心運維實施提出新要求,近年來,數據中心相關設備廠商、大型數據中心企業開始探索將大數據、人工智能等技術深度用于運維管理體系落地中,如提高數據采集的實時性和準確性,研究訓練節能、告警等數據模型,開展故障預測等,進一步提升運維管理實施過程的智能化水平。當前已有眾多數據中心自動化管理運維的工具和軟件,包括騰訊、百度、阿里等企業自研的智能運維管理平臺、雙碳管理平臺等一系列工具和軟件,也出現了多種以新技術新產品賦能多層運維體系的優秀解決方案。專欄專欄 4:精細化運維體系應用案例:精細化運維體系應用案例-中聯綠色大數據產業基地中聯綠色大數據產業基
54、地 1 號樓號樓 作為致力于成為“零碳”大數據中心標桿的中聯綠色大數據產業基地,在日常運營、風險管理、應急能力等方面推動實現高水平運維和智能化管理。一是完善優化流程,助力數據中心有“智”可循。為保證數據中心穩定運行,運維團隊采用 7*24 小時全天候駐場模式,依托智能化運維平臺實現工單流程一體化管理和電子巡更。同時,定期組織專家巡檢、實操演練等深度運維工作可以提升改善流程。二是堅持高質量運行,保障數據中心“智”在必得。通過對數據中心設施、環境進行全面評估,預測各類型潛在風險,使運維人員能夠更加及時地識別并應對數據中心風險,保持“0”事故的運維記錄。三是強化設備管理,支撐數據中心“智”算在握。應
55、用 DCOM(Data Center Operation Management,數據中心運營管理系統),結合數據中心的運維特點,構建業務完整、流程規范的運維服務管理體系,實現數據中心設備管控的電子化、規范化、流程化、自動化。四是注重節能減排,推動數據中心以“智”賦治。通過 DCOM,對數據中心運行容量、能源利用進行實時監控、動態管理,不斷優化配電系統的標準和節能運行方式配置,以確保設備處于最優配置下高效運行。五是持續組織優化,確保數據中心“智”理有方。通過對數據中心供應商進行規范管理,優化供應鏈,降低采購成數據中心智能化運維發展研究報告(2023 年)25 本,確保 SLA 水準。同時,制定完
56、善的培訓與考核制度,結合多種培訓形式提升團隊工作效率及運維能力。(四)以巡檢機器人釋放運維人力(四)以巡檢機器人釋放運維人力 當前,業內眾多數據中心對巡檢、運維機器人的應用落地進行了積極實踐和有效探索,但產業界對于智能化運維機器人仍存在不同的理解和認識,還需機器人研發廠家、數據中心用戶方、設計建設單位等多方進一步協作,加快行業對于機器人的實踐應用,推進數據中心逐漸走向真正的智能化運營。專欄專欄 5:智能化運維機器人應用案例:智能化運維機器人應用案例-超維科技超維科技 智能輪式巡檢機器人智能輪式巡檢機器人SQR-W200 超維科技最新一代的數據中心智能巡檢機器人產品SQR-W200 智能輪式巡檢
57、機器人,其強大的算力和靈活精準的導航定位技術,支持多種 AI算法,具備數據中心環境中多種設備及其元器件的識別和告警功能。作為數據中心數字化轉型的工具,SQR-W200 于 2021 年 12 月被中國農業銀行西藏自治區分行數據中心引入應用,通過穩定的性能、自定義的識別策略和靈活的巡檢計劃,支撐了該數據中心自動化巡檢需求,保證了數據中心持續穩定地對外提供服務。超維科技 SQR-W200 智能巡檢機器人應用 AI 深度學習、機器視覺算法等新技術,通過對每個機柜的指示燈、設備溫度等狀態進行識別,精準判定各設備的運行情況;通過打通 CMDB(Configuration Management Datab
58、ase,配置管理數據庫),實現設備資產的精準盤點和告警;通過打通工單系統實現第三方外來人員的隨工監視;通過機器人內置的多媒體模塊實現迎賓接待等。機器人功能目前均以用戶實際需求為出發點,以技術創新為驅動,與用戶共同推進了現代化數據中心自動運維的產業發展,有效提升了西藏農行、中國進出口銀行、網聯清算有限公司等金融行業數據中心用戶的運營自動化水平。數據中心智能化運維發展研究報告(2023 年)26 四、數據中心智能化運維發展建議 當前,我國數據中心產業正處于蓬勃發展之中,在取得快速增長的同時也實現了質量提升,而從產業全生命周期中運維管理的發展水平來看,我國數據中心還有較大的提升空間,在滿足合規性、可
59、用性的前提下,距離經濟性、服務性的要求還存在一定差距。大多數管理者不得不承認,數據中心的運維服務嚴重同質化,運維管理利潤率趨向下降。產業已向每位從業者提出了關鍵性問題:如何才能提升數據中心運維核心競爭力?數據中心設備、監控、管理平臺與運維工作怎樣結合,才能促進數據中心的運維精細化、綠色化與智能化發展?推進數據中心智能化運維發展,需要綜合考慮全國數據中心由于數字化發展階段不同帶來的影響設備、監控、平臺、應用多層架構標準化層面的差異。此外,在眾多新技術發展方向熱點頻出的時期,還需要了解新技術在個性化應用場景的局限性、優劣勢及經濟、社會效益,根據實際應用需求開展技術研發創新,確保新技術真正為數據中心
60、降本增效,形成穩固閉環。當前,我國在推動數據中心產業智能化運維發展方面已有一些探索,但整體仍面臨諸多障礙。如各家廠商研發重心不同,動環/DCIM等產品智能化發展脈絡難把握,缺乏統一規范的基礎共性標準和應用標準,導致部分數據中心企業對于平臺產品應用水平不足制約智能化管理落地見效;如數據中心企業在設計之初會根據自身業務安全等級情況,綜合考慮架構、設備、冗余度、應用場景等因素,按照高標準建設電氣系統、暖通系統,但出于安全考慮,無論基礎設施的自動化數據中心智能化運維發展研究報告(2023 年)27 設計程度如何,大部分數據中心仍然采取由人主責,設施輔助,共同完成任務,始終以人作為完成任務的主責方;如運
61、維人員還存在主觀能動性不高,特別是傳統數據中心運維團隊對手工運維方式的路徑依賴,導致對平臺等工具“不想用”,運維人員數字化基礎薄弱,技術、技能等方面存在較大短板,導致“不會用”,機器人系統等新型運維解決方案使用成本較人力較高,有一定技術門檻,導致“不敢用”,長此以往,制約運維服務價值創造。未來是數據中心運維的黃金十年,智能化與精細化趨勢正加速到來。在推進產業向智能化發展的過程中,應重點從以下幾個方面著手:一是加強核心技術研發,以創新驅動智能化運維持續發展。面向運營管理階段的數據中心,強化融合人工智能、大數據等關鍵技術的設備、平臺/工具創新發展,探索數據中心 AI 智能化運營系統在容量管理、能耗
62、管理等方面的算法優化。前瞻布局數據中心智能運維機器人系統,突破數據中心智能運維機器人系統在多層、多房間樓宇內的多模態環境感知、精準空間定位、柔順安全操作、智能人機協同、多系統聯合調度等方面的技術與算法優化。二是健全標準測試體系,系統性推進智能化運維落地見效。建立推廣適用于我國數據中心 DCIM、動環建設應用現階段能力水平的方法論,形成標準化框架,開展相關測試,為用戶選品、行業規范提供重要參考。推動數據中心管理成熟度和自動化程度的提升,形成多種自動化規則和解決方案,引導自動化運行設施取代人作為主責方達成相同的運行目標。建立數據中心精細化運維標準體系,開展數據中心數據中心智能化運維發展研究報告(2
63、023 年)28 運維管理水平相關測試,幫助數據中心提升運維管理效率,高效挖掘運維價值,助力我國數據中心代理運維方完善自身方案的完備度,提升其咨詢、實施的能力。三是推動交流互動合作,共建共享產業協同發展優質生態。加強溝通合作,進一步發揮 ODCC 等行業組織和高水平平臺專業作用,為數據中心智能運營相關從業者提供技術交流、產業創新、成果發布、資源對接的渠道,廣集行業各方力量共建智能運營生態圈。加強對數據中心領域智能化運維的宣傳,通過對概念與理念、典型案例的宣傳和引導,增進社會及從業者對智能化運維的認識了解,為產業樹立標桿典范,為數據中心智能化運維發展營造良好的環境。編制說明編制說明 本報告由中國信息通信研究院云計算與大數據研究所聯合開放數據中心委員會牽頭撰寫,在撰寫過程中得到了多家單位的大力支持,在此特別感謝騰訊、百度、阿里巴巴、中國移動、萬國、數據港、湖北中煙、中聯數據、超維科技、中保網盾、雅安數字(排名不分先后)相關單位的各位專家。中國信息通信研究院中國信息通信研究院 云計算與大數據研究所云計算與大數據研究所 地址:北京市海淀區花園北路地址:北京市海淀區花園北路 52 號號 郵編:郵編:100191 電話:電話:010-62300095 傳真:傳真:010-62300095 網址:網址: