《OCTC:2024數據中心物理基礎設施管理要求白皮書(44頁).pdf》由會員分享,可在線閱讀,更多相關《OCTC:2024數據中心物理基礎設施管理要求白皮書(44頁).pdf(44頁珍藏版)》請在三個皮匠報告上搜索。
1、 數據中心物理基礎設施管理要求 白皮書 (2024年4月)開放計算標準工作委員會 發 布 OCTC BB012024 OCTC BB012024 I 版權保護文件 版權所有歸屬于該標準的發布機構,除非有其他規定,否則未經許可,此發行物及其章節不得以其他形式或任何手段進行復制、再版或使用,包括電子版,影印件,或發布在互聯網及內部網絡等。使用許可可于發布機構獲取。T/CESA BB012024 II 目 次 前 言.1 背景、目的及意義.1 2 發展趨勢.2 3 術語.4 4 平臺架構.5 5 平臺管理要求.6 5.1 資產管理.6 5.2 監控管理.11 5.3 配置管理.24 5.4 能耗管理
2、.29 5.5 拓撲管理.30 5.6 統計管理.31 5.7 用戶管理.32 5.8 安全防范管理.33 6 平臺兼容性.34 6.1 硬件兼容.34 6.2 軟件兼容.34 7 平臺可靠性.35 7.1 系統穩定性.35 7.2 高可用性.35 7.3 安全性.36 7.4 可伸縮性.36 7.5 容災備份.36 7.6 監控和故障排除.37 8 平臺高性能.37 8.1 并發量.37 8.2 響應時間.37 8.3 吞吐量.38 8.4 性能計數器.38 9 總結.38 參 考 文 獻.40 OCTC BB012024 III 前 言 本文件由國網智能電網研究院有限公司提出。本文件由開放
3、計算標準工作委員會歸口。本文件起草單位:國網智能電網研究院有限公司、浪潮電子信息產業股份有限公司、中國電子技術標準化研究院、中國質量認證中心、南京大學、北京信息科技大學。本文件主要起草人:劉衛衛、趙保華、趙帥、陳海、劉曉蕾、郭鋒、王曉通、馬鴻超、邸賀亮、劉暢、李鋒、田琳、張鑫、賈偉、王勇旭、李松、張鵬、張玉峰、楊辰、馬成欣、吳春鵬、王岳、鄭敏、余智、陳凱、許封元、侯守璐。OCTC BB012024 1 數據中心物理基礎設施管理要求 1 背景、目的及意義 在數字化轉型的關鍵時期,數據中心作為一種新型基礎設施,扮演著重要的角色。數據中心是用于集中存儲、管理和處理大量數據的設施,它提供高性能的計算和
4、存儲資源,滿足數字化轉型所需的巨大數據處理需求。數據中心物理基礎設施管理是指對數據中心的計算設備、網絡設備、存儲設備、動力環境、安全設施等基礎設施進行全方位的管理,包括資產、監控、配置、能耗、拓撲、安全、用戶等。隨著數據存儲規模和計算量的不斷增長,數據中心的規模也在不斷擴大,對其物理基礎設施的管理變得愈發困難。在數據中心快速發展的背景下,物理基礎設施管理軟件市場迅速擴大,各大廠商紛紛推出數據中心物理基礎設施管理軟件。然而,隨著數據中心基礎設施的多樣性和復雜性增加,現有的管理軟件面臨著一系列挑戰。由于數據中心基礎設施的多樣化,現有的管理軟件缺乏標準化、一體化和智能化。這使得不同軟件之間難以協同工
5、作,管理數據中心的效率受到了影響。此外,現有的基礎設施管理技術在覆蓋其他行業客戶應用方面存在不足,導致數據中心管理軟件無法滿足不同行業的特殊需求,限制了其應用范圍。這些問題會給數據中心的穩定性、可維護性和可擴展性帶來挑戰。制訂數據中心物理基礎設施管理技術要求是解決這一問題的重要舉措。制訂白皮書是為了解決數據中心物理基礎設施管理標準不一致、缺乏一體化和智能化的問題。通過白皮書的制訂,可以推動設備管理的一體化和規范化,促進管理平臺在架構、功能和智能等方面的標準化,提高各數據中心之間的互操作性和兼容性。這將有助于提高數據中心的管理效率、可靠性和安全性,降低運營成本,推動整個數據中心管理的發展,進而促
6、進數據中心物理基礎設施管理產業的健康發展。此外,由于數據中心物理基礎設施管理軟件的復雜性,有必要出臺相關標準進行統一規范,所以后續將基于此白皮書內容出臺相關標準,以提升行業標準化水平、促進數據中心基礎設施管理軟件行業的發展。T/CESA BB012024 2 2 發展趨勢 在當今數字化時代,數據中心的角色愈發關鍵,它們是企業信息管理和服務交付的核心。面對數據中心規模日益龐大、需求日益多樣化的挑戰,標準化管理、智能化管理以及一體化、平臺化等成為了數據中心演進的關鍵方向。1、標準化管理是數據中心邁向高效、安全與綠色未來的基石、標準化管理是數據中心邁向高效、安全與綠色未來的基石 標準化管理是數據中心
7、邁向高效、安全和綠色未來的基石。隨著數據中心規模的增大,標準化管理成為數據中心管理的必然趨勢。標準化管理可以幫助實現自動化和集中化管理,提高效率、降低成本,并增強安全性。通過制訂統一的標準和最佳實踐,數據中心可以更好地配置、監控和維護各個組件,實現自動化流程和集中化管理,從而提高整體運維效率和資源利用率。首先,標準化管理可以促進自動化和集中管理。當數據中心的硬件和軟件都遵循統一的標準時,管理員可以更容易地配置、監控和維護數據中心的各個組件。這使得管理員可以更快速地完成任務,提高工作效率,同時降低錯誤率。通過自動化常規任務,數據中心可以更快地適應變化,提高應變能力。其次,標準化管理可以提高效率。
8、由于數據中心的硬件和軟件都遵循統一的標準,所以可以更容易地實現自動化和流程優化。這不僅可以減少人工干預產生的錯誤,同時也可以提高工作效率,使數據中心更加可靠和高效。此外,標準化管理還可以降低成本。當使用相同或相似的硬件和軟件配置時,數據中心可以更大規模地采購,從而獲得更好的定價和折扣。這使得采購成本得到更好的控制,同時也降低了維護和運營成本。最后,標準化管理可以增強安全性。標準化有助于確保數據中心的組件都符合安全標準和最佳實踐。這使得數據中心更加安全可靠,降低安全漏洞的風險,并使數據中心更容易實施一致的安全策略。標準化在數據中心管理中扮演著關鍵角色,它不僅有助于提高效率和資源利用,還為數據中心
9、提供了更好的安全性。對于大規模數據中心的統一管理,標準化是實現協調一致性操作的基礎,從而使得整個數據中心更加高效和可靠,并且保障數據中心的綠色低碳。2、智能化管理是保持競爭優勢的關鍵、智能化管理是保持競爭優勢的關鍵 智能化管理是保持競爭優勢的關鍵,在數據中心運維中,自動化和智能化是數字化轉型升級的必由之路。自動化管理可以減少人為錯誤、提高效率,并確保任務按照規定的標準和時間進行。通過人工智能、機器學習等先進技術賦能數據中心系統和運維過程,使其更加智能,以實現自動化學習、優化和適應變化,提高運維管理效率。OCTC BB012024 3 傳統的手動管理和運維方式已經很難滿足快速、高效、可靠的要求。
10、數字化的發展是推動數據中心實現基礎設施自動化和智能化管理的基礎,因為只有通過數字化,才能夠獲取大量數據,并為自動化和智能化提供所需的信息和基礎。同時,自動化和智能化管理也是數字化的必然結果,因為數字化使得數據中心能夠更好地應用先進的技術和算法,從而實現自動化和智能化管理的目標。智能化管理是利用人工智能(AI)和其他先進技術賦予數據中心系統和運維過程更高級的智能能力。通過使用這些技術,數據中心可以更好地滿足不斷變化的需求。全面的智能化管理是數據中心基礎設施領域最終的技術演進方向,因為它具有很多優勢。首先,智能化管理可以顯著提高運維管理效率。在海量運維數據背景下,AIOps 可以自動分析和識別基礎
11、設施產生的異常、故障等問題,使運維管理更加高效、準確和及時。其次,智能化管理可以實現前瞻性的故障預測。利用 AI 的預測能力,可以提前預測服務器等基礎設施的異常和故障,從而避免故障對業務造成影響,進一步提高數據中心的可靠性。此外,智能化管理可以實現穩定的可靠保障。當數據中心基礎設施出現異?;蚬收蠒r,AIOps 可以通過自動化分析、診斷和修復,實現實時、快速的問題解決,確保數據中心的穩定性和可靠性。最后,智能化管理可以精細地控制成本。通過 AIOps,可以極大降低人力成本和時間成本,提高 IT 系統的可靠性和穩定性,同時也降低了故障和異常造成的損失。因此,智能化管理可以為數據中心帶來更高的效率、
12、可靠性和經濟效益。3、一體化、平臺化是數據中心持續發展的關鍵路徑、一體化、平臺化是數據中心持續發展的關鍵路徑 一體化、平臺化與數據中心基礎設施融合是數據中心管理的趨勢?,F代的數據中心物理基礎設施管理趨向于集成各種管理工具,并傾向于使用綜合性的平臺來進行管理。一體化、平臺化可以實現數據的集成和關聯分析,提供統一的管理界面,節省時間和精力,提高管理效率,同時可以實現更全面的資源管理和協同運維,提高整體數據中心的效能和可靠性?,F代數據中心物理基礎設施管理正朝著集成各種管理工具并使用綜合平臺進行管理的方向發展。這種一體化和平臺化的管理模式能夠實現很多優勢。首先,一體化、平臺化可以收集來自各種設備和系統
13、的數據,并將其整合在一個中央存儲庫中,實現數據的集成和關聯分析,這使得管理員能夠更全面地了解整個基礎設施的狀態和表現,從而更準確地評估和管理風險。其次,通過集成不同的管理工具,管理員可以在一個統一的管理界面中查看和操作所有相關數據和功能,這可以節省時間和精力,提高管理效率,并減少在不同工具之間切換所需的工作量。此外,一體化、平臺化還可以提供全局報告和分析功能,幫助管理員根據自身需求生成全局的報告和可視化數據,這使得管理員能夠全面了解基礎設施的性能和瓶頸,并采取適當的措施來優化和改進。T/CESA BB012024 4 3 術語(1)獨立磁盤冗余陣列(Redundant Array of Ind
14、ependent Disks,RAID):RAID 技術將多個單獨的物理硬盤以不同的方式組合成一個邏輯硬盤,從而提高了硬盤的讀寫性能和數據安全性。(2)sFlow(Sampled Flow):是一種基于報文采樣的網絡流量監控技術,主要用于網絡流量的統計分析。(3)網橋協議數據單元(Bridge Protocol Data Unit,BPDU):是一種橋嵌套協議,在 IEEE 802.1d規范里定義,可以用來消除橋回路。(4)固態硬盤(Solid State Drives,SSD):是由固態電子存儲芯片陣列制成的硬盤,由控制單元和存儲單元組成,數據讀寫性能相對于傳統硬盤大大提升。(5)邏輯卷(L
15、ogical Volume,LV):是由邏輯磁盤形成的虛擬盤,也可稱為磁盤分區。(6)受管磁盤(MDisk):是對主機系統不可見的物理存儲器的邏輯單元。它可以是來自內部存儲器陣列(RAID)的邏輯單元,也可以是來自外部存儲系統卷的邏輯單元。(7)可糾正錯誤(Correctable Error,CE):硬件會利用一部分資源對該錯誤進行修復,而當內存 CE 累計過多,無法進行自我修復時,則會產生 UCE,造成系統宕機重啟。(8)不可糾正錯誤(Uncorrectable Error,UCE):當硬件偵測到一個錯誤,它會通過兩種方式報告給 CPU 的。其中一種方式是中斷,這種情況如果是 UCE 可能會
16、導致服務器立馬宕機。(9)硬盤自我檢測分析與報告技術(Self-Monitoring Analysis And Reporting Technology,S.M.A.R.T):對硬盤的溫度、內部電路、盤片表面介質材料等進行監測,力求及時分析出硬盤可能發出的問題,并發出警告,從而保護數據不受損失。(10)根因定位(Root Cause Determination):是指通過分析服務器異常的具體表現和相關信息,找出可能導致服務器故障的具體原因。(11)碳排放系數(Carbon Emission Factor):是指每一種能源燃燒或使用過程中單位能源所產生的碳排放數量。(12)電能使用效率(Powe
17、r Usage Effectiveness,PUE):評價數據中心能源效率的指標,是數據中心消耗的所有能源與 IT 負載消耗的能源的比值。PUE=數據中心總能耗/IT 設備能耗,其中數據中心總能耗包括 IT 設備能耗和制冷、配電等系統的能耗,其值大于 1,越接近 1 表明非 IT 設備耗能越少,即能效水平越好。OCTC BB012024 5(13)高可用性(High Available,HA):是保證業務連續性的有效解決方案,一般有兩個或兩個以上的節點,且分為活動節點及備用節點。4 平臺架構 數據中心物理基礎設施管理平臺旨在滿足數據中心對于物理基礎設施數字化的要求。該平臺是在異構設備數據采集、
18、匯總及分析基礎上構建的綜合管理平臺。以高效的數據采集與存儲作為支柱,平臺整合了資產管理、監控管理、配置管理、能耗管理、拓撲管理、安全防護、統計管理以及用戶管理等眾多功能,致力于實現數據中心物理基礎設施的全方位統一管理,平臺架構如圖 1 所示。圖 1 平臺架構圖 平臺 DFX 設計包括平臺可靠性、平臺兼容性、平臺高性能。平臺可靠性確保系統在各種條件下均能穩定運行;平臺兼容性保證平臺在不同設備和操作系統上的無縫運行;平臺高性能突出系統處理高負載、維持快速響應和高效率的能力。管理設備是平臺支持的硬件基礎,涵蓋了計算資源、存儲資源、網絡資源以及智能機柜等關鍵設施。它通過兼容多種設備協議,如 Redfi
19、sh、SNMP、RESTful、SMI-S、IPMI 等,實現各類設備與管理平臺的高效接入。平臺功能則根據多樣化的應用場景,提供了多項核心功能服務。這些服務涉及從資產管理到安全防護的全方位覆蓋,確保數據中心的運營能在一個統一且協調的平臺下,響應不同的管理和維護需求。T/CESA BB012024 6 資產管理資產管理:資產管理是指對各種與數據中心運營相關的實物資產進行有效的跟蹤、記錄、監管和優化的過程。這些實物資產包括服務器、網絡設備、存儲設備、電力供應設備、冷卻設備、機柜、傳感器等。監控管理監控管理:監控管理是指利用硬件設備及技術手段,對計算資源、存儲資源、網絡資源等關鍵基礎設施的各個部件的
20、狀態、性能、日志和告警進行實時監控、數據采集和分析,以實現對基礎設施運行狀態的全面掌握和管理。配置管理配置管理:自動化配置是指利用硬件設備及技術手段,對計算資源、存儲資源以及網絡資源的固件、配置、操作系統以及應用情況進行遠程管理,涉及固件的升級、BMC、BIOS 配置、操作系統部署以及帶內操作系統應用的監控和管理等。能耗管理能耗管理:能耗管理旨在精細化控制和監測數據中心及其設備在運行時的電力消耗,以確保數據中心能夠持續、高效地提供計算服務,同時最大限度地降低能源成本和對環境的負擔。拓撲管理拓撲管理:拓撲管理是指對網絡拓撲結構和位置拓撲結構進行有效管理和控制的過程。統計管理統計管理:統計管理是指
21、對數據中心物理基礎設施的資產、監控系統中的告警以及計算資源、存儲資源、網絡資源等設備性能數據進行統計和分析。用戶管理用戶管理:用戶管理對系統內部的用戶權限和身份進行細致化控制。主要目標是確保各類用戶能夠根據其角色和職責獲取適當的權限,從而確保數據中心的安全和高效運行。安全防范管理安全防范管理:安全防范管理通過整合門禁系統和視頻監控系統,為數據中心提供了一個全面的安全監控解決方案。5 平臺管理要求 5.1 資產管理 資產管理是指對各種與數據中心運營相關的實物資產進行有效的跟蹤、記錄、監管和優化的過程。這些實物資產包括服務器、網絡設備、存儲設備、電力供應設備、冷卻設備、機柜、傳感器等。5.1.1
22、IT 設備管理 數據中心 IT 設備管理是一種對數據中心內所有 IT 設備資產進行跟蹤、記錄和管理的過程。它旨在確保數據中心 IT 設備資產的完整性、可用性,提供準確的資產信息。OCTC BB012024 7(1)計算資源 應支持基本信息的批量導入、手動錄入和自動發現,基本信息包含廠商、型號、產品序列號、主板產品號、主板序列號等;應支持部件信息的批量導入、手動錄入和自動發現,部件信息包含處理器、內存、磁盤、邏輯磁盤、電源、風扇、PCIe、RAID 等:處理器包含名稱、狀態、廠商、型號、主頻、核數、線程數、型號、PN 等;內存包括名稱、狀態、槽位、序列號、廠商、類型、容量、最大頻率等;磁盤包括名
23、稱、狀態、槽位、容量類型、廠商、型號、序列號等;邏輯磁盤包括設備 ID、名稱、容量(GB)、狀態等;電源包括名稱、型號、額定功率(W)、槽位、固件版本號、部件號、模式、狀態等;風扇包括名稱、轉速、轉速百分比(%)、槽位、模式、狀態等;PCIe 包括設備名稱、廠商、槽位、描述、狀態等;RAID 包括名稱、序列號、固件版本、型號、狀態等;應支持多種協議設備的自動發現和管理:IPMI、SNMP、Redfish、HTTP、HTTPS 等;應支持計算資源全生命周期的資產追溯,從采購、入庫、出庫、上架、下架、退庫、報廢等每個環節都能夠準確記錄和追蹤計算資源的狀態和流轉情況;應支持服務器資源管理、資產信息的
24、手動刷新和自動刷新能力,具體包括以下方面:手動刷新:管理員或操作人員可以手動觸發資產信息的刷新操作,通過手動刷新,可以及時更新服務器的狀態、配置和其他相關信息,確保資產信息的準確性;自動刷新:系統應提供自動刷新機制,定期或根據設定條件自動更新資產信息,例如,可以設定一小時、四小時、每天、每周或每月進行自動刷新。(2)存儲資源 應支持基本信息的批量導入、手動錄入和自動發現,基本信息包含廠商、型號、序列號、投入運行時間、license 信息等;應支持部件信息的批量導入、手動錄入和自動發現,例如,磁陣的部件信息包含機框、BBU、控制器、風扇、iSCSI、LUN、電源、RAID、磁盤、FC 等,其中:
25、機框包含 ID、類型、序列號、狀態等;T/CESA BB012024 8 BBU 包括名稱、狀態等;控制器包括名稱、狀態、容量等;風扇包括名稱、狀態等;iSCSI 包括名稱、ID、索引、速率(Mbps)、IP、MAC、子網掩碼、狀態等;LUN 包括名稱、WWN、LUN ID、塊大小(Byte)、塊數量、未使用的塊數、總容量(GB)、未用容量(GB)、狀態等;電源包括名稱、狀態等;RAID 包括名稱、池 ID、總容量(GB)、已用容量(GB)、未用容量(GB)、狀態等;磁盤包括 ID、名稱、廠商、型號、槽位、微碼版本、容量(GB)、狀態、塊大小(GB)、塊數量、類型等;FC 包括端口索引、端口
26、ID、端口速率(Mbps)、端口類型、狀態等;分布式存儲信息包含存儲池、卷、快照等,其中:存儲池包含名稱、總容量、數據策略、安全策略、節點數量、總容量、已用容量、狀態等;卷包括名稱、卷容量、QoS 列表、創建時間、所屬存儲池、狀態等;快照包括名稱、卷名稱列表、臟數據容量(GB)、創建時間、所屬存儲池等;應支持多種協議的設備自動發現和管理:SNMP、SMIS、HTTP、HTTPS 等;應支持存儲資源全生命周期的資產追溯,從采購、入庫、出庫、上架、下架、退庫、報廢等每個環節都能夠準確記錄和追蹤存儲資源的狀態和流轉情況;應支持存儲資源管理、資產信息的手動刷新和自動刷新能力,具體包括以下方面:手動刷新
27、:管理員或操作人員可以手動觸發資產信息的刷新操作,通過手動刷新,可以及時更新存儲設備的狀態、配置和其他相關信息,確保資產信息的準確性;自動刷新:系統應提供自動刷新機制,定期或根據設定條件自動更新資產信息,例如,可以設定一小時、四小時、每天、每周或每月進行自動刷新。(3)網絡資源 應支持基本信息的批量導入、手動錄入和自動發現,基本信息包含廠商、型號、序列號、投入運行時間、軟件版本、設備類型、最大功率(W)、額定功率(W)、吞吐能力(Mbps)、包轉發能力(Mpps)等;OCTC BB012024 9 應支持部件信息的批量導入、手動錄入和自動發現,網絡設備部件信息包含端口、風扇、電源、單板等:其中
28、端口包含名稱、描述、速率(Mbps)、類型、VLAN、MAC、對端端口 ID、對端 ChassisID、IPv4、IPv6、端口連接類型、連接設備 MAC、最近接入狀態及狀態時間等;風扇包括名稱、狀態等;電源包括名稱、型號、狀態、模式等;單板包括名稱、型號、序列號、槽位、狀態等;應支持多種協議的設備自動發現和管理:SNMP、HTTP、HTTPS 等;應支持網絡資源全生命周期的資產追溯,從采購、入庫、出庫、上架、下架、退庫、報廢等每個環節都能夠準確記錄和追蹤網絡資源的狀態和流轉情況;應支持網絡資源管理、資產信息的手動刷新和自動刷新能力,具體包括以下方面:手動刷新:管理員或操作人員可以手動觸發資產
29、信息的刷新操作,通過手動刷新,可以及時更新存儲設備的狀態、配置和其他相關信息,確保資產信息的準確性;自動刷新:系統應提供自動刷新機制,定期或根據設定條件自動更新資產信息,例如,可以設定一小時、四小時、每天、每周或每月進行自動刷新。(4)智能機柜 應支持基本信息的批量導入、手動錄入和自動發現,基本信息包含智能機柜名稱、廠商、型號、產品序列號、主板產品號、主板序列號、所屬機房、所屬數據中心、機柜高度(U)、額定功耗等;應支持部件信息的批量導入、手動錄入和自動發現,智能機柜部件信息包含電源、風扇等:其中電源包括名稱、廠商、型號、序列號、固件版本、輸入模式、狀態等;風扇包括名稱、轉速、轉速百分比(%)
30、、槽位、模式、狀態等;應支持多種協議的智能機柜自動發現和管理:IPMI、HTTP、HTTPS 等;應支持智能機柜內計算資源、存儲資源、網絡資源的納管及基本信息、部件信息的獲??;應支持機柜資源全生命周期的資產追溯,從采購、入庫、出庫、柜內設備上架、柜內設備移動、柜內設備下架、機柜在機房中的移動、退庫、報廢等每個環節都能夠準確記錄和追蹤機柜資源的狀態和流轉情況;應支持智能機柜資源管理、資產信息的手動刷新和自動刷新能力,具體包括以下方面:T/CESA BB012024 10 手動刷新:管理員或操作人員可以手動觸發資產信息的刷新操作,通過手動刷新,可以及時更新柜內設備的狀態、配置和其他相關信息,確保資
31、產信息的準確性;自動刷新:系統應提供自動刷新機制,定期或根據設定條件自動更新資產信息,例如,可以設定一小時、四小時、每天、每周或每月進行自動刷新。5.1.2 空間設施管理 空間設施管理是指對機房、機柜等物理空間資產進行綜合性管理和維護的過程。它涵蓋了各種方面,包括設備、布局、環境、電力控制等。包括對機房、機柜、服務器、網絡設備、存儲設備等進行規劃、配置、部署和維護。(1)機房 應具備機房空間規劃和管理功能,支持對機房機柜位置進行添加、移動、編輯和記錄操作;應具備機柜信息記錄與維護功能,支持對機柜名稱、編號、容量、電力需求等信息進行記錄和更新操作;應支持以不同文件方式進行機房批量導入,實現一次性
32、導入多個機房的信息:其中包括機房名稱、健康狀態、機房編號、所在省市、機房的長寬(單位:米)、承重(單位:千克/平方米)、創建時間、機柜數量、服務器數量、存儲數量、網絡設備數量、安全設備數量等;應支持以不同文件的方式進行機柜批量導入,實現一次性導入多個機柜的信息:其中包括機柜名稱、健康狀態、機柜編號、機柜高度、創建時間、服務器數量、存儲數量、網絡設備數量、安全設備數量等;應具備機房各項指標匯聚與展示功能,如溫度、功耗、氣流、進風口溫度和出風口溫度等;應具備機房功耗策略設置功能,支持如動態功耗策略和最低功耗策略等。(2)機柜 應支持機柜內設備布局管理,涵蓋計算、存儲、網絡、動力環境傳感器等資源的添
33、加、移動和編輯操作;應具備機柜各項指標匯聚與展示功能,如溫度、功耗、氣流、進風口溫度和出風口溫度等;應具備機柜功耗策略設置功能,支持動態功耗策略和最低功耗策略;OCTC BB012024 11 應支持通過傳感器或其他方式實時監測設備的插拔狀態,并自動識別設備類型和位置信息;應支持記錄每個設備的位置和歷史移動軌跡;應支持通過傳感器實時監測每個 U 位的溫度、濕度和電力等參數。5.2 監控管理 監控管理是指利用硬件設備及技術手段,對計算資源、存儲資源、網絡資源等關鍵基礎設施的各個部件的狀態、性能、日志和告警進行實時監控、數據采集和分析,以實現對基礎設施運行狀態的全面掌握和管理。監控管理是數據中心和
34、大型企業中非常重要的一個環節,可以幫助管理員及時發現和解決基礎設施的故障和性能問題,保證業務的穩定運行。5.2.1 狀態監控 狀態監控是指通過硬件或軟件工具對計算資源、存儲資源、網絡資源等關鍵基礎設施及其相關部件狀態進行實時監控,以確保這些設備處于正常工作狀態。(1)計算資源 應支持計算資源的上下電狀態監控;應支持計算資源的網絡狀態監控;應支持服務器部件的狀態監控,部件包括 CPU、GPU、內存、電源、風扇、網卡、硬盤、RAID卡等:CPU 的部件狀態監控包含:CPU 溫度檢測、CPU 內部錯誤(IERR)、CPU 處理降速等;GPU 的部件狀態監控包含:GPU 不在位檢測、GPU 狀態異常、
35、GPU 利用率超出閾值、GPU溫度超出閾值、GPU 風扇轉速異常等;風扇的部件狀態監控包含:風扇不在位檢測、風扇冗余丟失、風扇轉速異常等;內存的部件狀態監控包含:內存不在位檢測、內存故障、內存 ECC 錯誤、奇偶性校驗錯誤等;電源的部件狀態監控包含:電源不在位檢測、電源故障、電源冗余丟失、電源輸入缺失、電源輸入電壓越界等;T/CESA BB012024 12 網卡的部件狀態監控包含:網卡不在位檢測、網卡故障檢測、端口連通性檢測、收發字節數閾值監控等;硬盤的部件狀態監控包含:硬盤插拔檢測、SSD 剩余壽命檢測、硬盤驅動器故障等;RAID 卡的部件狀態監控包含:RAID 卡不在位檢測、RAID 卡
36、溫度檢測、RAID 卡緩存故障等;其他狀態監控包含:溫度監控,如入風口、出風口溫度異常監控,電壓、電流監控,如整機/部件的輸入欠壓欠流、過壓過流等。(2)存儲資源 硬件監控中的日志監控功能對于存儲設備(包括統一存儲和分布式存儲)的狀態監控至關重要,應支持以下部件和整機狀態監控:應支持實時監控存儲控制器的狀態,包括控制器的工作狀態、故障狀態、性能指標等;應支持實時監控存儲介質的運行狀態,如硬盤、SSD 等,包括讀寫速度、故障狀態、使用情況等;應支持實時監控緩存的狀態,如緩存的工作狀態、容量和使用情況等;應支持實時監控網絡接口的狀態,如網絡接口的工作狀態、故障狀態、網絡流量等;應支持實時監控系統電
37、源的狀態,如電源的工作狀態、故障狀態等;應支持實時監控系統風扇的狀態,如風扇的工作狀態、轉速等;應支持實時監控環境傳感器的狀態,如溫度、濕度等。此外,對于存儲設備的整機狀態監控,應支持以下功能:應支持實時監控存儲設備的整體性能狀態,如 I/O 吞吐量、響應時間等;應支持實時監控存儲設備的總容量和可用容量,以了解存儲空間的使用情況;應支持實時監控存儲設備的故障狀態,及時發現并處理故障問題;應支持實時監控存儲設備的配置信息,包括系統版本、設備名稱、IP 地址等;應支持實時收集、分析存儲設備的運行日志,以便在設備發生故障或異常時及時發現并處理。同時,對于分布式存儲的狀態監控,應支持以下額外功能:應支
38、持實時監控每個節點的狀態,包括節點的工作狀態、故障狀態等;應支持實時監控分布式存儲的數據同步狀態,以確保數據的完整性和一致性;OCTC BB012024 13 應支持實時監控分布式存儲的數據保護情況,包括備份和恢復狀態等。(3)網絡資源 應支持實時監控電源模塊的工作狀態、故障狀態等;應支持實時監控風扇模塊的工作狀態、轉速等;應支持實時監控交換機的各個端口的狀態,如連接狀態、傳輸速率、錯誤統計等;應支持實時監控路由器的各個端口的狀態,如連接狀態、帶寬、錯誤統計等;應支持實時監控交換機/路由器的處理器的工作狀態、使用情況等;應支持實時監控交換機/路由器的內存的使用情況、故障狀態等;應支持實時監控網
39、絡接口模塊的工作狀態、故障狀態等;應支持實時監控設備的整體性能,如吞吐量、延遲等;應支持實時監控設備與網絡的連接狀態,如連接狀態、丟包率等;應支持實時監控設備的故障狀態,及時發現并處理故障問題;應支持實時監控設備的配置信息,如 IP 地址、設備名稱等;應支持實時監控設備的安全狀態,如防火墻規則、訪問控制列表(ACL)的狀態等。(4)供電設備 應支持實時監控設備的在線通信狀態;應支持實時監控供配電進線電源的電壓、電流、電能等參數,各支路的電流、功率、電能等參數,以及各支路的開關狀態;應支持對監測到的各項參數設定閾值(包括上下限、恢復上下限),一旦供配電發生越限報警或故障,系統將自動產生報警事件,
40、并第一時間發出電話撥號、手機短信、E-Mail、聲光等對外報警;應支持生成曲線記錄,直觀顯示實時及歷史曲線,可查詢特定時間段內的歷史曲線及具體時間的參數值(包括最大值、最小值),并可將歷史曲線導出為文件,方便管理員全面了解供配電的運行狀況。(5)制冷設備 制冷設備包含空調設施、液冷設施等。平臺對冷卻設備狀態監控要求如下:T/CESA BB012024 14 應支持實時監控冷卻設備的在線通信狀態;應支持實時監控制冷設備的開關機狀態;應支持實時監控空調機組、風扇、制冷、回送風溫度和濕度傳感器的運行狀態,支持溫度、濕度、告警復位、溫度偏差、回風溫度、除濕偏差、主控方式的設定,并可對空調實現遠程開關機
41、的控制,同時支持與其它子系統的聯動控制,如當溫度過高時自動啟動空調進行制冷;應支持實時監控液冷設備的信息,包括但不限于冷板監控(漏液)、CDU 監控(運行模式、流量、溫度、壓力)、連接系統監控(運行狀態、環路狀態)、冷卻工質監控(腐蝕度、物性參數)、冷源監控(溫度、壓力、流量);應支持對監測到的各項參數設定閾值(包括上下限、恢復上下限),例如制冷設備發生越限報警或故障時,系統將自動產生報警事件,并立即發出電話撥號、手機短信、電子收郵件、聲光等對外報警;應支持提供曲線記錄,直觀顯示實時及歷史曲線,可查詢特定時間段內的歷史曲線及具體時間的參數值(包括最大值、最小值),并可將歷史曲線導出為文件,便于
42、管理員全面了解制冷設備的運行狀況。(6)環境設備 應支持實時監控設備的在線通信狀態;應支持通過數據庫進行微環境監控閾值設置,例如對環境溫度、漏水、煙感、通風系統的各項參數設定閾值,一旦發生越限報警或故障,系統將自動產生報警事件,并第一時間發出電話撥號、手機短信、E-Mail、聲光等對外報警,以實現監控平臺軟件對微環境的實時監測;應支持根據不同時間來顯示不同時期的溫度/濕度曲線,如 24 小時、7 天、30 天等;應支持提供曲線記錄,直觀顯示實時及歷史曲線,可查詢特定時間段內相應參數的歷史曲線及具體時間的參數值(包括最大值、最小值),并可將歷史曲線導出為文件,方便管理員全面了解環境設備的運行狀況
43、。(7)照明設備 應支持實時監控設備的在線通信狀態;照明光源應采用安全電壓等級供電的 LED 燈條,宜采用支架內嵌入安裝方式;應支持燈帶顏色告警聯動指示功能,不同告警顯示不同顏色;OCTC BB012024 15 應支持告警等級及指示燈光顏色3 種,并與動環管理系統聯動,無告警時通道燈為白光,緊急告警時通道燈為紅光,且支持自定義告警聯動。(8)消防設備 應支持實時監控設備的在線通信狀態;應支持實時監測機房內的消防火警信號,一旦發生報警,系統自動產生報警事件,并第一時間發出電話撥號、手機短信、E-Mail、聲光等對外報警。5.2.2 性能監控 性能監控通過采集計算資源、存儲資源、網絡資源等設備性
44、能數據,對實時或歷史數據進行分析和展示,它旨在幫助管理員了解設備的運行情況及變化趨勢。(1)計算資源 應支持計算資源的單機或批量實時性能數據、歷史性能數據的導出;應支持用戶自定義時間范圍的歷史性能數據導出,格式包括但不限于 CSV、PDF、HTML;應支持用戶設置計算設備的性能數據采集頻率,包括實時、每日、每周或自定義時間間隔;應支持顯示所有性能采集任務的狀態,如運行中、運行成功、運行失敗等,對于失敗的任務,應提供失敗原因并支持重試功能;應支持查看性能采集任務的執行歷史記錄;應支持歸一化負載計算方式,支持多種指標類型,包括 CPU、內存、I/O、網絡、電源負載等;應支持設備實時負載分析;應支持
45、系統瓶頸識別,指標包括但不限于 CPU、內存、磁盤 I/O、網絡帶寬等;應支持設備性能基線定義,確定正常工作負載下的標準性能水平;應支持計算資源指標的 Top N 排名,用戶可自定義關注的設備和指標,Top N 指標包括但不限于整機功率、氣流、設備溫度、電源功率、CPU、內存、GPU、硬盤、網絡等;應支持計算資源的整機功率的監控,支持實時性能數據、歷史性能數據展示;應支持計算資源的氣流的監控,支持實時性能數據、歷史性能數據展示;應支持計算資源的設備溫度的監控,包括入風口、出風口、CPU、硬盤等指標;應支持計算資源的電源功率的性能監控,包括輸入功率、輸出功率等指標;T/CESA BB012024
46、 16 應支持計算資源的風扇/制冷設備監控,例如風扇轉速、風扇占空比等指標;應支持計算資源的 CPU 性能監控,包括總 CPU 利用率,單核 CPU 利用率等指標;應支持計算資源的內存性能監控,包括總內存使用率、SWAP 使用率等指標;應支持計算資源的 GPU 性能監控,包括 GPU 溫度、GPU 功耗、GPU 顯存使用率、GPU 利用率、GPU 頻率、GPU 風扇轉速百分比等指標;應支持計算資源的硬盤性能監控,包括硬盤讀寫次數、硬盤響應時間、讀寫速率等指標;應支持計算資源的網絡性能監控,包括端口收發速率等指標。(2)存儲資源 應支持存儲資源的單機或批量實時性能數據、歷史性能數據的導出;應支持
47、用戶自定義時間范圍的歷史性能數據導出,格式包括但不限于 CSV、PDF、HTML;應支持用戶設置存儲設備的性能數據采集頻率,包括實時、每日、每周和自定義時間間隔;應支持顯示所有性能采集任務的狀態,如運行中、運行成功、運行失敗等,對于失敗的任務,應提供失敗原因并支持重試功能;應支持查看性能采集任務的執行歷史記錄;應支持歸一化負載計算方式,支持多種指標類型,包括 CPU、內存、I/O、網絡、電源負載等;應支持設備實時負載分析;應支持系統瓶頸識別,指標包括但不限于 CPU、內存、磁盤 I/O、網絡帶寬等;應支持設備性能基線定義,確定正常工作負載下的標準性能水平;應支持存儲資源指標的 Top N 排名
48、,用戶可自定義關注的設備和指標,Top N 指標包括但不限于整機功率、氣流、設備溫度、電源功率、CPU、內存、硬盤、網絡、控制器、節點、卷等;應支持存儲資源的整機功率的監控,支持實時性能數據、歷史性能數據展示;應支持存儲資源的氣流的監控,支持實時性能數據、歷史性能數據展示;應支持存儲資源的設備溫度的監控,包括入風口、出風口、CPU、硬盤、磁盤框等指標;應支持存儲資源的電源功率的性能監控,包括輸入功率、輸出功率等指標;應支持存儲資源的風扇/制冷設備監控,例如風扇轉速、風扇占空比等指標;應支持存儲資源的 CPU 性能監控,包括總 CPU 利用率,單核 CPU 利用率指標;應支持存儲資源的內存性能監
49、控,包括總內存使用率、SWAP 使用率等指標;OCTC BB012024 17 應支持存儲資源的硬盤性能監控,包括硬盤讀寫次數、硬盤響應時間、讀寫速率、硬盤利用率等指標;應支持存儲資源的網絡性能監控,包括端口收發速率等指標;應支持存儲資源控制器性能監控,包括但不限于控制器 Cache 讀命中、Cache 寫命中、控制器Cache IO 等;應支持存儲資源的節點 IO 性能監控,指標包括讀 IO、寫 IO 等;應支持存儲資源的卷性能監控,指標包括卷總帶寬、卷讀帶寬、卷寫帶寬、每秒 IO 次數等。(3)網絡資源 應支持網絡資源的單機或批量實時性能數據、歷史性能數據的導出;應支持用戶自定義時間范圍的
50、歷史性能數據導出,格式包括但不限于 CSV、PDF、HTML;應支持用戶設置網絡設備的性能數據采集頻率,包括實時、每日、每周和自定義時間間隔;應支持顯示所有性能采集任務的狀態,如運行中、運行成功、運行失敗等,對于失敗的任務,應提供失敗原因并支持重試功能;應支持查看性能采集任務的執行歷史記錄;應支持歸一化負載計算方式,支持多種指標類型,包括 CPU、內存、I/O、網絡、電源負載等;應支持設備實時負載分析;應支持系統瓶頸識別,指標包括但不限于 CPU、內存、磁盤 I/O、網絡帶寬等;應支持設備性能基線定義,確定正常工作負載下的標準性能水平;應支持網絡資源指標的 Top N 排名,用戶可自定義關注的
51、設備和指標,Top N 指標包括但不限于整機功率、設備溫度、電源功率、緩存、端口、CPU、內存、單板、會話、板卡等;應支持網絡資源的整機功率的監控,支持實時性能數據、歷史性能數據展示;應支持網絡資源的設備溫度的監控,包括入風口、出風口、CPU、硬盤等指標;應支持網絡資源的電源功率的性能監控,包括輸入功率、輸出功率等指標;應支持網絡資源的 CPU 性能監控,包括總 CPU 利用率,單核 CPU 利用率等指標;應支持網絡資源的內存性能監控,包括總內存使用率、內存使用量等指標;應支持網絡資源的端口性能監控,包括端口速率、發送速率、接收速率、發包率、收包率、帶寬、接收字節、接收單播包數、接收丟包數、接
52、收錯包數、發送字節、發送單播包數、發送丟包數、T/CESA BB012024 18 發送錯包數、接收組播包數、接收廣播包數、發送組播包數、發送廣播包數、總字節數、接收未知協議包數等指標;應支持網絡資源的單板性能監控,包括 CPU 利用率、內存利用率、溫度、電壓等指標;應支持網絡資源的會話性能監控,包括最大連接數、當前連接數等指標;應支持網絡資源的板卡性能監控,包括 CPU 利用率、內存利用率等指標。5.2.3 日志監控 日志監控是指收集、分析以及數據視圖化等功能,幫助用戶提升運維、運營效率,快速查找和定位問題,廣泛應用于在線實時監控、異常問題定位、日志數據統計分析、安全與合規審計等場景。(1)
53、計算資源 應支持實時日志監控:實時地收集、分析計算設備的運行日志,以便在設備發生故障或異常時立即發現并處理;應支持歷史日志回溯:能夠存儲和查詢計算設備的歷史運行日志,幫助管理員追蹤設備在特定時間段內的狀態變化,快速定位和解決問題;應支持日志篩選和分析:能夠根據關鍵詞、級別、時間等條件篩選日志,并支持對篩選后的日志進行分析,幫助管理員更好地了解計算設備的運行狀況;應支持可視化監控:能夠將計算設備的運行數據以圖表、圖形等形式展示出來,使管理員可以更直觀地了解設備運行狀態,發現問題并進行優化;應支持多種計算設備的監控:能夠監控不同品牌、型號的計算設備,以滿足不同用戶的需求;應支持自動巡檢和報告生成:
54、能夠定期對計算設備進行自動巡檢,并生成詳細的巡檢報告,幫助管理員更好地了解設備的健康狀況和管理歷史;應支持日志聚合和歸檔:能夠將計算設備的日志數據聚合到一起,進行長期歸檔存儲,以備后續的查詢和分析;應支持帶內外日志的采集;支持的日志類型包括 BMC、BIOS、CPU、Memory、NIC、RAID、Disk、Driver、SysConf、System、GPU、HBA 等;日志包含的內容包括但不限于 FRU 信息、BMC 版本信息、BMC 啟用信息、BMC GUID、BMC 自檢、BMC Watch Dog 信息、SEL 日志、傳感器列表、BMC 時間、BMC 專用管理口網OCTC BB0120
55、24 19 絡信息、BMC 共享管理口網絡信息、BMC Channel 信息、BMC 用戶信息、BMC 防火墻信息、BMC session 信息、BMC SOL 信息、ME 狀態、CPU 信息、CPU 連通狀態、DMI 信息、BIOS選項信息、內存信息、網絡信息、RAID 事件日志、物理磁盤、邏輯磁盤信息、PMC 日志、磁盤 S.M.A.R.T 信息、硬盤信息、驅動信息、系統配置信息、系統日志、GPU 信息、HBA 信息等。(2)存儲資源 應支持實時日志監控:實時地收集、分析存儲設備的運行日志,以便在設備發生故障或異常時及時發現并處理;應支持歷史日志回溯:能夠存儲和查詢存儲設備的歷史運行日志,
56、幫助管理員追蹤設備在特定時間段內的狀態變化,快速定位和解決問題;應支持日志篩選和分析:能夠根據關鍵詞、級別、時間等條件篩選日志,并支持對篩選后的日志進行分析,幫助管理員更好地了解存儲設備的運行狀況;應支持可視化監控:能夠將存儲設備的運行數據以圖表、圖形等形式展示出來,使管理員可以更直觀地了解設備運行狀態,發現問題并進行優化;應支持多種存儲設備的監控:能夠監控不同品牌、型號的存儲設備,包括統一存儲和分布式存儲等,以滿足不同用戶的需求;應支持自動巡檢和報告生成:能夠定期對存儲設備進行自動巡檢,并生成詳細的巡檢報告,幫助管理員更好地了解設備的健康狀況和管理歷史;應支持日志聚合和歸檔:能夠將存儲設備的
57、日志數據聚合到一起,進行長期歸檔存儲,以備后續的查詢和分析。(3)網絡資源 應支持實時日志監控:實時地收集、分析網絡設備的運行日志,以便在設備發生故障或異常時及時發現并處理;應支持歷史日志回溯:能夠存儲和查詢網絡設備的歷史運行日志,幫助管理員追蹤設備在特定時間段內的狀態變化,快速定位和解決問題;應支持日志篩選和分析:能夠根據關鍵詞、級別、時間等條件篩選日志,并支持對篩選后的日志進行分析,幫助管理員更好地了解網絡設備的運行狀況;T/CESA BB012024 20 應支持可視化監控:能夠將網絡設備的運行數據以圖表、圖形等形式展示出來,使管理員可以更直觀地了解設備運行狀態,發現問題并進行優化;應支
58、持多種網絡設備的監控:能夠監控不同品牌、型號的網絡設備,包括交換機、路由器等,以滿足不同用戶的需求;應支持自動巡檢和報告生成:能夠定期對網絡設備進行自動巡檢,并生成詳細的巡檢報告,幫助管理員更好地了解設備的健康狀況和管理歷史;應支持日志聚合和歸檔:能夠將網絡設備的日志數據聚合到一起,進行長期歸檔存儲,以備后續的查詢和分析。5.2.4 告警管理 告警管理是指對系統或設備等運行過程中產生的告警信息進行監視、處理和記錄的一種管理方式。告警管理主要針對系統或設備在運行過程中出現故障、異常等情況下,通過對告警信息進行實時監視、及時處理和記錄,以確保系統或設備的穩定、可靠和安全運行。在總體原則上,告警功能
59、應遵循盡早預警、快速告警、不誤告警、不漏告警的原則。這意味著需要對系統或設備的運行狀況進行實時監控,并確保所產生告警信息的準確性和及時性。通過有效的告警管理,可以更好地保障系統或設備的穩定性和安全性,并及時采取相應的措施解決問題,從而提升整個系統的可靠性和穩定性。(1)告警管理 應支持對多種系統或設備的告警信息進行監視和處理,包括計算資源、網絡資源、存儲資源等;應支持對告警信息進行實時監視和快速響應,包括實時數據采集、告警閾值設置、告警觸發條件等;應支持對告警信息進行分類、分析、定位和解決,包括故障定位、異常分析、解決方案生成等;應支持定義多種告警級別:系統應該能夠定義不同的告警級別,例如緊急
60、、嚴重、中度、輕微等,每個級別可以對應不同的顏色和聲音,以便操作人員快速識別和響應;應支持自定義告警級別:用戶應該能夠根據自己的需求和環境定義告警級別,例如在某些情況下,某些告警可能比其他告警更重要或更緊急;應支持針對告警級別的響應策略:系統應該能夠定義針對不同告警級別的響應策略,例如當觸發緊急級別告警時,系統應該自動發送郵件、短信或語音呼叫通知相關人員;OCTC BB012024 21 應支持對告警信息進行詳細記錄和存儲,包括告警時間、告警類型、告警級別、告警原因、告警影響等;應支持對告警信息進行過濾、篩選和聚合,以避免誤報和漏報現象的發生;應支持對告警管理流程進行自定義和優化,包括告警閾值
61、設置、告警通知流程、告警處理流程等;應支持可配置的告警規則,能針對不同的設備類型,不同的應用場景定義不同的告警規則;應支持自動化的故障恢復建議和優化建議,以幫助管理員快速解決問題并提高系統性能;應支持多語言的告警提示,滿足不同國家和地區的用戶需求;應支持對告警信息進行統計、分析和報告,包括告警趨勢分析、故障頻率統計、故障處理報告等;應支持對歷史告警數據進行查詢和分析,應支持生成告警統計報表和趨勢分析圖表;應支持通過多種方式進行告警通知,例如郵件、短信、電話語音、企業微信、釘釘等;應支持采用開放標準和接口,以便與其他系統的集成和擴展。(2)事件管理 應支持對多種系統或設備的事件信息進行監視和處理
62、,包括計算資源、網絡資源、存儲資源等;應支持事件的實時監控和響應,包括實時數據采集、事件告警觸發條件等;應支持事件的分類、分析、定位,包括事件類型、事件明細、事件位置、事件源等;應支持事件的多維度篩選和過濾,包括時間、事件類型、事件定位、事件源等,以便快速定位和篩選出關鍵事件;應支持事件的詳細記錄和存儲,包括事件時間、事件類型、事件明細、事件影響等,以備后續查詢和分析;應支持事件的通知和提醒,包括通過郵件、短信、電話語音等多種方式進行通知,以便及時處理和解決事件;應支持采用開放標準和接口,以便與其他系統的集成和擴展。(3)告警規則 應支持單個閾值觸發規則:系統應該能夠為每個告警設置一個單獨的閾
63、值觸發規則,這意味著每個告警都可以根據其特定的性質和業務需求設定自己的閾值;T/CESA BB012024 22 應支持多個閾值觸發規則:對于某些告警,可能需要設定多個不同的閾值觸發規則;應支持邏輯運算符:在設置閾值觸發規則時,可能需要使用邏輯運算符,如 AND、OR、NOT等來組合多個條件;應支持比較運算符:在設置閾值觸發規則時,可能需要使用比較運算符,如大于、小于、等于等來比較告警數據和預設閾值,系統應該支持這些比較運算符的使用;應支持基于時間或事件的閾值觸發規則:系統應該能夠基于時間或事件的數量來設置告警閾值觸發規則,例如,在某些情況下,某個告警可能需要在一定時間內達到一定數量才會被觸發
64、;應支持基于數據變化的閾值觸發規則:對于某些告警,可能需要根據數據的變化速度或變化量來設定閾值觸發規則,系統應該支持基于數據變化的速度或量設定告警閾值觸發規則;應支持自定義閾值觸發規則:用戶應該能夠根據自己的需求自定義閾值觸發規則。(4)屏蔽規則 應支持告警屏蔽規則設置:系統應該能夠為每個告警設置一個或多個屏蔽規則,以防止特定告警被觸發或顯示,這些規則可以基于時間、設備、位置、告警級別、告警類型等條件來定義;應支持多種告警屏蔽規則:系統應該能夠定義多種類型的屏蔽規則,例如臨時屏蔽、長期屏蔽、特定時間段的屏蔽等,這些規則可以根據用戶需求進行自定義;應支持告警屏蔽規則的觸發條件:系統應該能夠定義告
65、警屏蔽規則的觸發條件,例如在某個時間段內、特定設備上、某個告警級別等條件下,特定告警將被屏蔽;應支持告警屏蔽規則的邏輯運算符:在設置告警屏蔽規則時,可能需要使用邏輯運算符,如 AND、OR、NOT 等來組合多個條件,系統應該支持這些邏輯運算符的使用;應支持告警屏蔽規則的生效時間:系統應該能夠設置告警屏蔽規則的生效時間,例如立即生效、指定時間后生效等;應支持告警屏蔽規則的觸發效果:系統應該能夠定義告警屏蔽規則觸發后的效果,例如將告警標記為被屏蔽告警、停止發送給用戶通知等;應支持自定義告警屏蔽規則:用戶應該能夠根據自己的需求自定義告警屏蔽規則。(5)通知管理 應支持多種告警通知方式:系統應該能夠支
66、持多種告警通知方式,如郵件、短信、語音電話、企業微信、釘釘等,用戶可以根據實際需求選擇通知方式;OCTC BB012024 23 應支持自定義告警通知內容:系統應該允許用戶自定義告警通知的內容,包括告警描述、重要程度、處理建議等,用戶可以按照自己的需求設置通知內容;應支持告警通知的定時發送:在某些情況下,可能需要在特定時間范圍內發送告警通知,系統應該支持定時發送功能,以實現靈活的通知計劃;應支持告警通知的觸發條件:系統應該能夠根據特定的條件觸發告警通知,例如,當某個告警狀態發生變化時或針對某些級別的告警狀態發生變化時,可以發送通知;應支持告警通知的觸發時機:系統應該能夠根據特定的時機觸發告警通
67、知,例如,在某個時間段內、特定工作日或節假日等條件下,可以發送告警通知;應支持告警通知的邏輯運算符:在設置告警通知的觸發條件時,可能需要使用邏輯運算符,如AND、OR、NOT 等來組合多個條件,系統應該支持這些邏輯運算符的使用;應支持自定義告警通知模板:用戶可以根據自己的需求自定義告警通知模板,以便快速、準確地發送通知;應支持告警通知的優先級設置:在某些情況下,需要根據告警的重要程度設置通知的優先級,系統應該支持優先級設置功能,以便更好地管理告警通知;應支持告警通知的日志記錄:系統應該能夠記錄每個告警通知的發送情況,包括發送時間、接收人、通知內容等,以便后續查看和管理;應支持告警通知的測試和演
68、練:為了確保告警通知的可靠性和可用性,系統應該提供測試和演練功能,以便用戶在實際使用前對通知功能進行測試和演練。5.2.5 智能分析 旨在采用自動化、智能化的手段,利用日志、性能等數據,對性能、故障進行預測并實現故障的根因定位。(1)性能預測 應支持對存儲容量進行預測,包括固態硬盤和機械硬盤等;應支持對 CPU、GPU 利用率進行預測,基于歷史數據預測未來,預測時間包括分鐘、小時、天等;應支持對設備整體功耗進行預測,基于歷史數據預測未來,預測時間包括分鐘、小時、天等;應支持對 I/O 讀寫速率進行預測,基于歷史數據預測未來,預測時間包括分鐘、小時、天等;T/CESA BB012024 24 應
69、支持對內存利用率進行預測,基于歷史數據預測未來,預測時間包括分鐘、小時、天等;應支持對 CPU、GPU 溫度進行預測,基于歷史數據預測未來,預測時間包括分鐘、小時、天等。(2)服務器故障管理 應支持服務器部件和整機故障檢測、根因定位以及故障預測,具體包括:應支持預測存儲介質的運行故障狀態,包括磁盤的 IO 隊列大小、I/O 操作平均等待時間、吞吐量、延遲時間、磁盤失效等;應支持預測 CPU 的運行故障狀態,包括內部錯誤、溫度過高、復雜不可更正錯誤預測等;應支持預測/定位 RAID 卡故障狀態,包括邏輯盤的狀態預測、掉盤預測、異常物理位置定位等;應支持預測內存的運行故障狀態,包括可更正錯誤、不可
70、更正錯誤、溫度過高預測等;應支持預測網絡的運行故障狀態,如網絡流量、端口故障狀態預測以及故障端口位置定位等;應支持預測電源的故障狀態,如溫度過高、電壓異常波動、電源失效等;應支持預測風扇的故障狀態,如風扇轉速異常、噪聲異常預測以及故障根因定位等;應支持預測 PCIe 的故障狀態,如傳輸速率、延遲時間、傳輸錯誤率、溫度異常預測以及故障 PCIe卡根因定位等;應支持檢測服務器整機的故障狀態,包括硬件故障、電源故障、緩存故障、網絡故障預測以及硬件、網絡等設備的故障根因定位分析等。5.3 配置管理 配置管理是指利用硬件設備及技術手段,對計算資源、存儲資源以及網絡資源的固件、配置、操作系統以及應用情況進
71、行遠程管理,涉及固件的升級、BMC、BIOS 配置、操作系統部署以及帶內操作系統應用的監控和管理等,以實現足不出戶完成遠程設備的能力。5.3.1 服務器配置 服務器配置是指通過使用帶內外網絡和相關技術手段,能夠對數據中心的服務器進行遠程管理的一種能力,其包括以下幾個方面:(1)固件升級 應支持服務器固件升級能力,可升級固件包括 BMC、BIOS、網卡、硬盤,RAID 卡等;OCTC BB012024 25 應支持固件升級過程中同版本校驗和跳過設置;應支持升級前后版本對比和升級過程日志查看;應支持升級固件的自動下載和維護。(2)固件配置 應支持服務器 BMC 的功能的批量配置能力,能夠基于某一
72、BMC 和 BIOS 創建通用配置模板并批量應用到目的設備;應支持服務器 BIOS 配置項配置能力,支持配置完成后校驗,支持常見 BIOS 配置項如電源策略設置、啟動項設置等快捷操作;應支持服務器 SNMP Trap 批量配置,配置項包括 Trap 版本、團體名、策略、事件嚴重性、告警目標以及端口等;應支持服務器管理用戶的批量管理,支持添加、修改以及修改 BMC 用戶;應支持服務器 NTP 批量設置,設置項包括模式(自動/手工)、時區、NTP 服務器等;應支持服務器 BMC 服務管理,服務包括 KVM、CD-Media、HD-Media 以及 SSH;應支持服務器 LDAP 批量設置,設置項包
73、括加密類型、服務器地址、端口、綁定 DN、密碼、搜索庫、用戶登錄屬性等;應支持服務器日志設置的批量配置,設置類型包括告警發送級別、傳輸協議、日志服務器地址、端口、日志類型等;應支持服務器 SMTP 設置批量配置,設置項包括 SMTP 服務器地址、端口、發件人電子郵件、用戶名、郵件主題、告警發送級別、告警郵件地址等;應支持服務器 DNS 批量配置,配置項包括域名服務器是否自動、域名服務器地址;應支持服務器的其他配置,包括批量恢復出廠設置、BMC 重啟、虛擬介質掛載、定位燈設置、風扇轉速等。(3)系統部署 應支持裸機發現功能,支持自動發現物理機并自動上報物理機基礎信息,包括 SN、廠商、機型、架構
74、、BMC 和 BIOS 版本、CPU、內存以及存儲信息等;應支持系統批量安裝功能,支持的操作系統包括 CentOS、Redhat、SUSE、Windows Server、ESXi、Kylin、UOS、KOS 等;T/CESA BB012024 26 應支持系統安裝模板創建,支持設置的參數為系統類型、安裝包、語言、時區、root 密碼、自定義賬戶、分區信息等,應支持自定義自動應答腳本;應支持系統安裝模板管理功能,支持查看、編輯、刪除以及應用模板到目標設備;應支持鏡像管理功能,允許用戶上傳、編輯、修改和刪除鏡像,鏡像屬性包括發行版、版本、架構、大小等;應支持查看系統安裝過程,允許用戶查看安裝過程的
75、日志,支持快捷跳轉 KVM 查看實時信息;應支持系統安裝完成后批量配置網絡,支持設置不小于 3 個網口的 IP、網關和掩碼,支持批量設置網卡 Bond。(4)應用管理 應支持操作系統帶內文件管理,具體包括:模板管理:模板的查詢、創建、刪除、編輯、應用;文件分發:支持指定分發文件和目的路徑,指定是否覆蓋目的路徑下的原始文件,指定是否備份目的路徑下的原始文件;應支持操作系統帶內腳本管理,具體包括:模板管理:模板的查詢、創建、刪除、編輯、應用;腳本執行:支持指定腳本類型和執行器,從倉庫選擇腳本文件或輸入文件內容,指定腳本的執行路徑,指定用戶輸入的腳本是否同步到腳本倉庫;應支持操作系統用戶管理,具體包
76、括:用戶管理:用戶列表的查詢和展示、創建用戶、刪除用戶、啟用用戶、禁用用戶、修改用戶密碼、添加用戶權限,移除用戶權限;用戶組管理:用戶組列表的查詢和展示、創建用戶組、刪除用戶組、修改用戶組名;應支持操作系統帶內服務管理,包括服務狀態查詢和展示、服務開啟和關閉、服務添加到基線和取消、查看已添加到基線的服務的基線執行歷史;應支持操作系統帶內軟件管理,具體包括:模板管理:模板的查詢、創建、刪除、編輯、應用;選擇執行目標操作系統類型和架構,指定從安裝源或軟件包安裝軟件;OCTC BB012024 27 從安裝包安裝:支持指定待安裝軟件類型、軟件包文件、軟件安裝目的路徑、是否卸載原始軟件和軟件安裝成功的
77、校驗腳本、系統應預置若干軟件的安裝流程,支持使用軟件安裝高級配置,例如自定義軟件安裝腳本和輔助文件;從安裝源安裝:支持選擇系統已經配置的本地安裝源,支持通過指定源腳本和校驗腳本的方式,安裝源內軟件;應支持操作系統帶內軟件的編排模板管理,具體包括:模板編輯管理:模板的查詢、創建、刪除、編輯、應用;支持立即上傳本地模板、從倉庫選擇已上傳的模板、立即編輯模板,支持在系統指定路徑查看設備各主機的模板執行日志。(5)基線管理 應支持服務器固件基線管理能力,支持綁定 BMC、BIOS 和 PSU 版本;應支持服務器基線策略管理,包括基線策略的查詢、展示、新增、刪除、編輯、啟用和禁用,支持指定基線策略使用的
78、固件升級模板和基線適用的設備列表;應支持服務器基線歷史管理,包括基線執行歷史的查詢、展示和刪除。(6)快照管理 應支持服務器配置快照管理能力,支持采集服務器 BMC 配置形成快照并還原;應支持快照策略管理,包括快照策略的查詢、展示、新增、刪除、編輯和應用,支持指定快照類別:BMC 和(或)BIOS,支持快照執行模式的設置,包括立即執行、定時執行和周期執行,支持指定快照適用的機型和設備列表;應支持快照歷史管理,包括支持通過列表視圖和設備視圖兩種方式查詢和展示快照歷史,支持執行設備快照的刪除和還原設備到指定快照。5.3.2 網絡配置 網絡配置是指對數據中心的網絡設備進行遠程配置管理,主要包括網絡分
79、區、服務管理、端口設置、固件升級以及訪問策略設置等。應支持網絡分區功能,能夠按需劃分網絡片區,便于設備物理位置的識別及統一管理,還可設置分區的網絡類型用于網絡業務配置的統一下發;T/CESA BB012024 28 應支持 IP 組策略的配置,通過 IP 組策略實現業務按需引流,滿足不同業務的流量需求;應支持配置模板能力,方便用戶對基于區域的網絡及監控做配置規劃,減輕用戶復雜配置壓力;應支持配置備份及對比能力,提供交換機歷史配置文件備份及不同日期的配置對比;應支持交換機服務配置能力,包括 SysLog、NTP、sFlow Server 的配置管理等;應支持對交換機端口設置,支持配置端口模式、V
80、LAN 及設置端口開關,并支持在端口上配置sFlow 以及 BPDU 等;應支持交換機版本升級,支持從本地推送軟件版本到交換機,支持保存交換機的 Running Config到 Start-up Config;應支持交換機網絡配置,包括 VRF、MLAG、ACL 訪問策略以及 OPSF 等。5.3.3 存儲配置 存儲配置是指對數據中心的存儲設備進行遠程配置管理,包括批量配置、遠程巡檢、故障診斷、硬盤故障預測等功能。應支持批量存儲池管理功能,支持對多個存儲集群的存儲池進行批量增、刪、查、改(修改閾值,添加驅動器)的操作;應支持批量邏輯卷管理功能,支持對多個存儲集群的邏輯卷進行批量增(基礎卷、鏡像
81、卷)、刪、查、改(修改屬性與映射、修改 QoS 配置、取消映射)的操作;應支持對存儲集群的用戶管理功能,支持對多個存儲集群的用戶和用戶組進行批量增、刪、查、改(修改密碼、修改所屬用戶組)的操作;應支持批量主機管理功能,支持對多個存儲集群的主機進行批量增、刪、查,改(修改主機映射、取消主機映射)的操作;應支持批量 SNMP 配置管理功能,支持對多個存儲集群的 SNMP 配置進行批量增、刪、查、改(IP、端口、社區名、告警開關)的操作,支持對多個存儲集群的 USM 用戶進行增、刪、查、改(權限、安全級別、鑒權算法和密碼、加密算法和密碼)的操作;應支持配置復制功能,支持對多個統一存儲集群的配置進行復
82、制,包括創建卷、創建池、創建Mdisk、添加 Mdisk 到池、創建 SNMP;應支持本地存儲容災功能,支持本地卷的定時快照、實時快照、快照回滾功能;應支持遠程存儲容災功能,支持生產卷和本地卷的同步遠程復制。OCTC BB012024 29 5.4 能耗管理 能耗管理旨在精細化控制和監測數據中心及其設備在運行時的電力消耗,以確保數據中心能夠持續、高效地提供計算服務,同時最大限度地降低能源成本和對環境的負擔。5.4.1 能耗監控 能耗監控管理為數據中心提供全面的能耗監控與策略管理。它可以實時監測設備功耗,設置功耗限制策略,并根據策略控制設備的運行。同時,還支持與動環供電和環境監測系統聯動,確保數
83、據中心的高效和穩定運行。應支持實時監控設備的功耗情況,能夠提供實時的功耗數據;應支持針對設備制訂相應的功耗限制策略,以限制服務器的最大功耗,功耗策略包括是否啟用、周期性啟用、功耗上限設置等;應支持根據功耗策略控制設備的開關機;應支持展示功耗策略生效時間段和效果,包括生效開始時間、結束時間、功耗封頂上限;應支持功耗生效預警及告警功能,在接近預設上限和到達上限時發送告警;應支持不同的設備類型和模型,能夠提供專門的功耗管理策略模板;應支持與動環供電系統聯動,根據設備的負載情況實時調整電力供應,如降低或增加 UPS 供電;應支持與動環溫濕度系統聯動,實時監測數據中心的濕度、溫度等環境因素,自動調整以確
84、保最佳運行環境;應支持根據設備的熱度和運行情況,推薦機柜的最佳布局或遷移策略。5.4.2 能耗統計 能耗統計是指對數據中心的各個用電設備能耗情況進行統計,以方便管理員能及時了解數據中心的能耗情況。應支持總體能源消耗的統計:數據中心的總體能源消耗包括 IT 設備、冷卻和其他設備的消耗;應支持功耗效率的統計:使用特定的功耗效率(PUE)指標來衡量數據中心的能效;應支持 IT 設備功耗的統計:IT 設備的能耗包括服務器、存儲設備、網絡設備等;應支持冷卻系統能耗的統計:冷卻系統的能耗包括空調、液冷設備等;應支持不同時間間隔和形式的統計。T/CESA BB012024 30 5.4.3 碳排放 碳排放管
85、理能夠集中管理碳資產,并提供數據中心碳排放的配置和監控。它支持多種碳排放系數,提供實時和歷史碳排放數據,并監測排放趨勢及配額預測,有助于環境保護和可持續性目標的實現。應支持碳資產的管理,包含碳資產的錄入、編輯、展示等;應支持數據中心碳排放配置,包括碳排放系統、配額、電能使用效率(PUE)等;應支持多種數據中心碳排放系數,包括但不限于靜態系統、分時段系統等;應支持碳排放實時數據、歷史數據、排放量趨勢、配額預計可用時間等。5.5 拓撲管理 拓撲管理是指對網絡拓撲結構和位置拓撲結構進行有效管理和控制的過程。它可以包括兩個方面:網絡拓撲管理和 3D 機房管理。5.5.1 網絡拓撲 網絡拓撲管理主要涉及
86、對數據中心網絡的物理連接、設備布局以及網絡拓撲結構的管理。這包括監測和記錄網絡中各種設備(如交換機、路由器、服務器等)的位置、連接關系和狀態信息,以便及時識別和解決網絡故障、優化網絡性能,并提供網絡規劃和擴展的參考。應支持拓撲發現、自動拓撲繪制、自定義拓撲繪制;應支持對網絡中設備狀態及鏈路狀態的實時監控和告警;應支持網絡拓撲結構以圖形化的方式展示,直觀易懂。5.5.2 3D 機房 3D 機房管理是指基于三維可視化技術對復雜機房結構進行管理、分析和展示。通過將物理位置結構映射到三維空間中,可以更直觀地觀察和理解位置拓撲關系,提高對位置的感知和操作效率。3D 機房管理可以用于大規模數據中心、云計算
87、環境等復雜位置場景下的可視化管理。應支持設備位置、機柜位置、機房結構以 3D 圖形化的方式展示,直觀易懂;應支持機柜空間管理,如設備在機柜內位置的移動擺放、機柜編輯等;應支持機房空間管理,機柜在機房內位置的移動、機柜跨機房的移動、機柜移除等;應支持機柜的熱力分布圖。OCTC BB012024 31 5.6 統計管理 統計管理是指對數據中心物理基礎設施的資產、監控系統中的告警以及計算資源、存儲資源、網絡資源等設備性能數據進行統計和分析。5.6.1 資產 資產統計是指對一個組織或企業擁有的所有資產進行記錄、分類和統計的過程。在包括機房和 IT設備在內的資產統計中,會涉及到對機房的數量、機房設備數量
88、占比、設備數量等信息的記錄,對 IT設備的廠商、型號、部件、服務器 BIOS 等詳細信息的統計,以資產全生命周期方面的報表統計。應支持機房資產數量、機房資產數量百分比、機房資產基本信息統計;應支持計算資源、存儲資源、網絡資源的廠商和型號統計分析;應支持計算資源、存儲資源、網絡資源、離線資產的全生命周期統計分析;應支持機架、多節點、智能機柜等不同類型服務器部件信息的類型統計分析;應支持服務器固件如 BMC、BIOS 配置項的統計分析。5.6.2 告警 告警統計是監控系統中非常重要的一個環節。通過綜合分析告警數據,可以為操作人員提供全面的告警信息,幫助他們更好地了解系統的運行狀況。告警統計應支持以
89、下功能:應支持告警數量的統計:系統能夠統計特定時間段內發生的告警數量,以便用戶了解告警的總體情況;應支持告警類型的統計:系統能夠統計特定時間段內發生的各種類型告警的數量,以便用戶了解不同類型的告警發生情況;應支持告警級別的統計:系統能夠統計特定時間段內發生的各種級別的告警數量,以便用戶了解告警的嚴重程度;應支持告警解決情況的統計:系統能夠統計特定時間段內告警的解決情況,包括已解決的告警數量和未解決的告警數量;應支持告警歷史記錄的統計:系統能夠統計告警的歷史記錄,包括歷史上的告警數量、告警類型、告警級別等;T/CESA BB012024 32 應支持圖表展示:系統能夠將統計結果以圖表的形式展示出
90、來,包括柱狀圖、折線圖、餅圖等,以便用戶更直觀地了解告警情況;應支持報表導出:系統支持將告警統計報表導出為電子表格或其他文件格式,以便用戶進行進一步的數據分析和利用。5.6.3 性能 平臺能夠采集計算、存儲、網絡等設備的性能數據,對實時或歷史數據進行分析和展示,它旨在幫助管理員了解設備的運行情況及變化趨勢。應支持用戶自定義時間范圍的歷史性能數據導出,格式包括但不限于 CSV 等;應支持計算資源性能報表統計和導出,包括資源名稱、資源 IP、整機功率、氣流、設備溫度、電源功率、CPU、內存、GPU、硬盤、網絡、負載等指標;應支持存儲資源性能報表統計和導出,包括資源名稱、資源 IP、CPU 利用率、
91、總功耗、設備溫度、內存、存儲池、節點、磁盤等指標;應支持網絡資源性能報表統計和導出,包括資源名稱、資源 IP、CPU 利用率、總功耗、設備溫度、內存、緩存、端口等指標。5.7 用戶管理 用戶管理對系統內部的用戶權限和身份進行細致化控制。主要目標是確保各類用戶能夠根據其角色和職責獲取適當的權限,從而確保數據中心的安全和高效運行。用戶管理主要分為三個核心模塊:角色管理、用戶管理和認證管理。5.7.1 角色管理 為用戶提供完整的角色管理功能。允許用戶創建、編輯、刪除和查看角色,同時還內置了多種角色類型,包括特權賬號。應支持角色管理,包括創建新角色、編輯角色權限、刪除角色、查看角色等;應內置角色類型,
92、支持特權賬號。OCTC BB012024 33 5.7.2 用戶管理 為用戶提供全面的用戶及用戶組管理。它支持單點登錄、黑名單管理、特權賬號和身份憑證的維護。此外,系統也允許創建、編輯、刪除和查看用戶及用戶組,并提供了細致的訪問權限管理功能。應支持單點登錄;應支持黑名單管理;應支持特權賬號管理;應支持身份憑證管理;應支持用戶管理,包括創建新用戶、編輯用戶、刪除用戶、查看用戶;應支持用戶組管理,包括創建用戶組、編輯用戶組、刪除用戶組、查看用戶組成員等;應支持訪問管理,包括但不限于查看、配置、操作等訪問權限的管理。5.7.3 認證管理 應支持多種企業級的認證機制,通過靈活的配置和集成選項,用戶可以
93、根據自身的需求選擇最合適的認證方式:支持多種企業級認證,如 Active Directory、LDAP、Kerberos 等。5.8 安全防范管理 安全防范管理通過整合門禁系統和視頻監控系統,為數據中心提供了一個全面的安防監控解決方案。5.8.1 門禁系統 出于對數據中心安全的考慮,對數據中心的各出入口進行門禁管理,在人員進出數據中心時應采用刷卡、按鈕的進出驗證方式,由監控平臺軟件通過微模塊進行門禁管理。使用門禁控制器(指紋刷卡密碼門禁一體機/人臉識別一體機)提供的 TCP/IP 接口及通訊協議,采用網絡的方式將門禁信號接入監控主機,由監控平臺軟件進行門禁的實時管理與監測。應支持實時監控各出入
94、口的人員進出情況,并進行記錄;應支持對人員的進出區域、有效日期、進出時段等進行授權,并可對人員進行權限組劃分;應支持對門禁控制器進行遠程設置操作;T/CESA BB012024 34 應支持集中發卡功能;應支持與其它子系統的聯動功能,如:發生火警時聯動門禁控制器自動解鎖并開啟各出入口以便逃生。5.8.2 視頻系統 在數據中心出入口、機柜間的通道、走廊等重要區域安裝彩色錄像設備,進行全天候的視頻圖像監視。視頻統一接入集中管理,支持不同廠商的視頻信息互聯互通及信息共享。應支持電子地圖點播瀏覽各路實時視頻圖像,通過在電子地圖上點擊相應的圖標即可查看該錄像設備的當前畫面;應支持對視頻系統進行遠程設置操
95、作,包括但不限于錄像事件設置、移動偵測設置、聯動觸發錄像設置、錄像分辨率設置、存儲設置;應支持歷史視頻檢索回放功能,可根據錄像的類型、通道、時間等條件進行檢索,回放速度可調;應支持與其它子系統的聯動功能,支持與告警、門禁聯動的視頻彈窗,如:門打開或發生防盜報警時聯動錄像設備進行錄像,同時彈出相應的視頻畫面窗口等。6 平臺兼容性 6.1 硬件兼容 硬件兼容是指一種設備、組件或系統能夠與其他設備、組件或系統正常工作并相互配合的能力。硬件兼容性對于設備的互通性和擴展性非常重要,它使得不同廠商生產的設備能夠無縫地連接和共同工作,為用戶提供更多的選擇和更好的使用體驗。應兼容多種架構處理器,如 x86、A
96、RM、Power 等;應兼容不同廠商的服務器。6.2 軟件兼容 軟件兼容性是指一個軟件應用程序或操作系統能夠在不同的硬件平臺、操作系統以及其他軟件環境中正常運行、協同工作和與其他應用程序進行交互的能力。具體來說,軟件兼容性包括操作系統兼容性、應用程序兼容性和數據兼容性等。軟件兼容性對于用戶來說非常重要,尤其是在不同的硬件、操作系統OCTC BB012024 35 和應用軟件環境中,能夠正常運行和交互的軟件具有更好的可擴展性和適用性,用戶可以在不同的平臺上使用同一個軟件,而無需學習新的工具和界面。應兼容多種虛擬化平臺,包含但不限于 InCloud Sphere、OpenStack 等;應兼容多種
97、操作系統,包含但不限于 KOS、UOS、KylinOS、SUSE、CentOS、RedHat 等;應兼容至少一種數據庫,如 Mysql、達夢數據庫、InfluxDB 等;應兼容多種中間件,包含但不限于 RabbitMQ、Redis、Consul、Elasticsearch、東方通等;應兼容多種瀏覽器,包含但不限于 Google Chrome、Microsoft Edge 等。7 平臺可靠性 平臺可靠性是指一個系統或軟件平臺在長期運行中能夠保持穩定、高可用性和高可靠性的能力。具體來說,平臺可靠性包含系統穩定性、高可用性、安全性、可伸縮性、容災備份以及監控和故障排除。7.1 系統穩定性 平臺應具備
98、穩定的系統架構和設計,能夠在正常運行和高負載情況下維持穩定的性能。它需要具備抗故障和容錯機制,以確保系統不會因為單點故障而崩潰或無法正常工作。應具備分布式架構設計,支持服務分布式部署;應支持在高并發訪問下持續平穩運行;應支持在大數據文件處理情況下保持性能峰值穩定,正常提供服務。7.2 高可用性 平臺需要提供高可用的服務,即用戶能夠隨時訪問和使用平臺的功能和服務。為了實現高可用性,平臺通常會采取冗余和備份策略,例如使用負載均衡、多節點部署和數據備份等措施。當一個節點或組件發生故障時,其他節點或備份系統可以繼續提供服務,從而保證平臺的可用性。應具備高可用部署,支持兩地三中心等部署模式;應支持多節點
99、同時提供服務能力;應支持在任一節點異常離線后,業務無縫切換,平臺平穩運行,節點異常時使用者無感知;應支持網絡 VIP 模式,保證 VIP 始終存在且可用;應支持在異常時,對 VIP 的 ping 檢測不中斷的能力;T/CESA BB012024 36 應支持多網卡、多服務、多 IP 場景的服務配置;應支持任一服務均可單獨實現異常切換能力;應支持數據熱備份能力。7.3 安全性 平臺需要具備嚴密的安全機制和措施,以保護用戶數據和系統資源免受未經授權的訪問、惡意攻擊和信息泄露等威脅。這包括加密通信、訪問控制、漏洞修復和安全審計等安全措施,確保平臺在安全性方面具備高度可靠性。應具備通過安全漏洞掃描能力
100、;應支持一鍵系統加固能力;應具備防火墻一鍵加固能力;應支持用戶訪問權限控制能力;應支持符合規定的數據傳輸加密方式。7.4 可伸縮性 平臺應具備良好的可伸縮性,即能夠根據用戶需求的變化進行彈性擴展和收縮。當用戶規模增長或負載增加時,平臺應該能夠自動或手動地擴展系統資源以滿足需求,同時保持穩定的性能。反之,當用戶規模減少時,平臺應能夠靈活地回收資源,以避免資源浪費。應支持熱修改服務配置,改變服務器占用資源大小的能力;應支持熱擴容能力;應支持減配能力。7.5 容災備份 平臺應具備容災備份機制,以應對自然災害、硬件故障或其他意外情況引發的系統中斷。通過備份數據和部署冗余系統,可以在主系統故障時快速恢復
101、平臺的運行。應支持定期自動數據備份能力;應支持節點間數據同步備份能力;應支持異常情況下數據恢復能力。OCTC BB012024 37 7.6 監控和故障排除 平臺應提供實時監控和診斷功能,能夠及時發現和處理潛在的故障和問題。通過監控系統狀態、錯誤日志和性能指標等,可以進行故障排除和性能優化,提高平臺的可靠性和穩定性。應支持平臺服務自檢測能力;應支持平臺服務異常自修復能力;應支持平臺服務高負載自優化能力。8 平臺高性能 平臺性能是一個平臺在處理任務或運行應用程序時的效率和速度,這涉及到許多因素,包括硬件配置、網絡帶寬、數據處理能力、響應時間等。一個高性能的平臺應該能夠在處理大量數據、支持高并發用
102、戶以及滿足實時性要求的同時,保持穩定的運行狀態。平臺性能是實現兼容性、可靠性以及高性能的關鍵。在現代商業環境中,管理平臺的性能是至關重要的。無論是對于大型企業還是小型企業,一個高性能的管理平臺都可以帶來許多優勢。8.1 并發量 并發量是指系統在單位時間內同時處理的請求數量或操作數量,通常以每秒事務數(TPS)或每秒查詢數(QPS)來衡量。并發量是衡量系統性能的重要指標之一,它直接反映了系統的負載能力和處理能力。應支持北向同時對接上層平臺 10 個及以上;應支持同時掃描設備 10,000 臺及以上;應支持同時監控設備 100,000 臺及以上。8.2 響應時間 響應時間是指系統對請求響應所需要的
103、時間,通常被認為是衡量系統性能的一個重要指標。詳細來說,響應時間包括了從客戶端發送請求開始,到服務器端處理請求并返回結果,再到客戶端接收到響應結果所需要的全部時間。應支持平均響應時間在 100ms 以內;應支持最大響應時間在 100ms 以內;T/CESA BB012024 38 應支持 90%響應時間在 50ms 以內;應支持最小響應時間在 10ms 以內。8.3 吞吐量 吞吐量是指網絡、設備、端口或其他設施在單位時間內成功地傳送數據的數量,通常以每秒比特數(bit/s)或每秒數據包數(p/s)來衡量。對于網絡設備來說,吞吐量是指在沒有幀丟失的情況下,設備能夠接收并轉發的最大數據速率。應支持
104、理論吞吐量為網絡信道容量計算值;應支持可實現吞吐量達到理論吞吐量 80%;應支持聚合吞吐量達到網絡速率理論值 80%;應支持系統吞吐量單位時間內數據傳輸成功率 99%;應支持峰值吞吐量達到理論吞吐量 90%。8.4 性能計數器 性能計數器(Performance Counter)是用于監控系統性能的一些指標,它們可以幫助管理員了解系統的運行狀況,以便及時調整配置或進行性能優化。性能計數器通常包括處理器使用率、內存使用率、磁盤 I/O 等指標。應支持處理器平均使用率在 30%以內;應支持處理器峰值使用率在 75%以內;應支持內存平均使用率在 50%以內;應支持內存峰值使用率在 75%以內;應支持
105、磁盤使用率在 75%以內。9 總結 在數字化轉型的浪潮下,數據中心扮演著關鍵的角色,隨著數字化轉型的推進,數據中心物理基礎設施管理變得日益復雜。為了實現標準化管理,本方案提出了數據中心物理基礎設施管理要求方案,包括資產管理、監控管理、自動化配置、能耗管理、拓撲管理、安全防范管理、統計管理、用戶管理、平臺兼容性、平臺可靠性以及平臺高性能等方面。此方案旨在滿足數據中心的運維需求、降低運維成本,OCTC BB012024 39 提高效率和性能,并保障數據中心的穩定運行和安全性,從而確保數據中心具備有效支持數字化轉型所需的先進技術。數據中心物理基礎設施管理技術方案的提出對于推動數字化轉型具有重要意義。
106、通過對數據中心的資源、性能、控制、智能等方面進行綜合管理,數據中心可以更加高效地支持各類先進技術的應用和實施。這不僅提高了組織和企業的競爭力,降低了運營成本,還優化了用戶體驗,實現了數字化轉型和可持續發展。同時,該方案還能夠更好地滿足不同行業客戶的需求,推動數據中心物理基礎設施管理技術的統一發展,進一步提升整體數據中心的運維水平。T/CESA BB012024 40 參 考 文 獻 1 GB/T 377792019 數據中心能源管理體系實施指南 2 GB 501742017 數據中心設計規范 3 YD/T 27272014 互聯網數據中心運維管理技術要求 4 YD/T 52352019 數據中心基礎設施工程技術規范 5 中國信息通信研究院 數據中心白皮書(2022年)6 中國信息通信研究院云計算與大數據研究所 數據中心智能化運維發展研究報告(2023年)