《平安數據中心高可用 運維白皮書(77頁).pdf》由會員分享,可在線閱讀,更多相關《平安數據中心高可用 運維白皮書(77頁).pdf(77頁珍藏版)》請在三個皮匠報告上搜索。
1、 平安數據中心高可用運維白皮書 2018 年 5 月 前言 中國平安數據中心在十多年的發展過程中,遵從 ITIL、ISO9001、ISO20000、ISO27001、M&O 等多個標準,不斷制定、優化數據中心的工作規范和指南,形成了一整套標準的運維體系。數據中心運維團隊依據標準體系的指導,通過兢兢業業、一絲不茍的工作,保障了平安數據中心的高可用性。 平安數據中心的高可用離開不員工的辛苦工作,以及各供應商的保障支持,在此,特意向日夜奮戰的員工和供應商進行特別的感謝。 為實現平安的企業社會責任,推動中國數據中心尤其是金融高可用數據中心的運維管理的提升,平安數據中心團隊總結十多年的運維經驗,編制了平
2、安數據中心高可用運維白皮書 ,旨在總結和分享平安數據中心在打造高可用金融+互聯網數據中心的優秀經驗,與行業內各專家同仁一道為國家大數據時代建設貢獻力量。 感謝中國數據中心工作組組長鐘總、 Uptime 北亞區董事總監胡總對本書的支持,感謝辛苦編制此書的作者。 本書若有錯漏之處,懇請各位專家同行批評指正。 平安科技(深圳)有限公司數據中心 著 序 1 2009 年,中國平安開始規劃建設深圳觀瀾數據中心,我有幸作為這個項目的總設計師,參與了整個項目的建設,見證了中國平安緊跟國家戰略步伐,大力推進中國平安信息化之路。 中國平安作為中國金融行業較早建設數據中心的企業,對數據中心的建設和運維有著深刻理解
3、,培育造就了一批數據中心領域的專家,為平安集團步入“金融+互聯網”3.0 時代、為中國數據中心行業健康發展做出了突出貢獻。 數據中心全生命周期包括: 需求分析、 規劃設計、 施工安裝、 檢測驗收、 運維管理。其中運維管理是數據中心生命周期中最后一個、也是歷時最長的一個階段,真可謂:三分建設,七分管理。運維管理參與設計和實施,從項目開始就將運維需求落實到設計和實施中,其工作范圍涵蓋數據中心全生命周期,是通過科學運維管理,實現為業務提供數據信息支持,實現企業發展目標的過程。 本書是平安人不忘初心、牢記使命、不斷奮進、努力實踐的結晶。內容包括數據中心運維標準化建設、組織架構、安全管理、運維實踐和質量
4、體系等。 本書凝聚了平安人對數據中心的熱愛和孜孜以求的科學精神,感謝為此書出版付出辛勤勞動的編寫團隊,希望大家能從此書中得到啟迪和幫助。 鐘景華 中國數據中心工作組(CDCC)組長 2018.5 序 2 對于數據中心的標準: Uptime Institute 發展近二十年的 Tier 的分級拓撲(Topology)標準,通過 Tier I 至 IV 的標記系統以用來表示數據中心的物理基礎設施的可用性。此標準自問世以來,已被全球廣泛的採用在各地數據中心的設計及建置之中。 或許當有人因業務需要說:我想要個數據中心。就有人會轉過身來說:我將為你建數據中心。 但是卻沒有多說是否他們在談論著同樣的性能產
5、出。 我常在一些場合里說:一個數據中心的生命周期, 在設計建置階段可短至數月也有長到一至二年, 但其運營卻長達十年或十幾年。因此要設計及建置符合營運目標及維運需求的數據中心才是 Tier標準的精神所在。 Uptime Institute 的每年行業調查數據均顯示:有一半左右的企業 IT 組織曾在過去 12 個月期間經歷過他們自有數據中心影響業務的停機,也有近三分之一的企業 IT 組織在前 12 個月內曾經歷主機托管提供商的服務中斷。 對于這些事件大多指向: 操作員的人為錯誤。 這種說法可能涵蓋了程序的錯誤和資源的缺乏, 或欠缺管理及不善決定。而且這些責任常都是落到操作人員在未能及時救援成功的情
6、況下。 其實大多數的情況,失敗可以歸因于高級管理層之決定(例如:設計妥協,預算削減,裁減工作人員,供應商選擇及資源的分配) ,其可溯自事件發生之前的時間和空間的,譬如:什么決定導致前線操作人員沒有好的準備或未受過足夠的訓練,因此對事件的反應作出處理不當的情況。 隨著所有業務職能部門對數據需求不斷的提高,如今的數據中心的 IT 和基礎設施利益相關者持續面臨巨大的壓力,在實現價值的同時還要維護成本和效率。因此,數據中心管理和運營 Management & Operations (M&O) 的評估認證是可以提供相關指導和框架基礎,也是推動實施數據中心有效的管理和運營的最佳實踐。 數據中心管理及運營準
7、則應是對內部所有小組、 部門、 文化和實踐中都適用的。 其相關于人員配置、組織和培訓實踐、預防性維護方案、運營條件,以及計劃、管理和協調實踐和資源。 這一切不僅是對數據中心操作團隊, 也應包含服務供應商和領導層所應負責的事務并為其提供了有用的信息。 今天在中國數據中心市場,欣見平安科技為平安集團發展企業數據中心運維規范的白皮書,期待其能帶給平安集團的數據中心工作同仁諸多幫助。 Philip Hu 胡嘉慶 Uptime Institute 北亞區董事總監 May 2018 目錄目錄 第一章 平安數據中心高可用運維白皮書介紹 . 1 1.1數據中心高可用運維白皮書目的、實用范圍 . 1 1.2數據
8、中心高可用運維白皮書內容及簡介 . 1 第二章 平安數據中心運維標準化建設 . 3 2.1精細化管理理論和方法 . 3 2.1.1精細化管理的概念 . 3 2.1.2精細化管理在數據中心運維中的應用 . 3 2.2運維 ITIL 框架 . 4 2.2.1事件管理 . 4 2.2.2問題管理 . 6 2.2.3變更管理 . 6 2.3UPTIME M&O 實踐 . 7 2.3.1人員組織 . 8 2.3.2維護管理 . 9 2.3.3培訓管理 . 10 2.3.4計劃、協調與管理 . 10 2.3.5運行狀況 . 11 第三章 數據中心安全管理 . 12 3.1信息安全管理 . 12 3.2物理
9、安全管理 . 13 3.2.1物理安全配置 . 13 3.2.2術語及定義 . 13 3.2.3程序 . 14 3.2.4人員進出登記制度 . 15 3.2.5物品進出管理 . 17 3.2.6消防安全管理制度 . 17 3.3人員安全管理 . 18 3.3.1人員安全培訓 . 18 3.3.2日常運維安全管理 . 19 第四章 人員保障與發展 . 21 4.1組織架構 . 21 4.2區域和人員職責精細化分配 . 22 4.3人員培訓 . 25 4.3.1新員工培訓 . 25 4.3.2培訓大綱 . 26 4.3.3培訓實施程序 . 27 4.4人員發展 . 27 4.4.1員工例行培訓 .
10、 28 4.4.2員工專項培訓 . 28 4.5供應商保障 . 28 4.5.1供應商培訓及要求 . 28 4.5.2服務 SLA . 29 4.5.3資質要求 . 29 4.5.4考核機制 . 30 第五章 可靠性運維分析實踐 . 31 5.1日常巡檢概述 . 31 5.1.1日常巡檢基本要求 . 31 5.1.2巡檢頻率及巡檢方式 . 31 5.1.3中、低壓開關柜日常巡檢 . 32 5.1.4UPS 不間斷電源日常巡檢 . 32 5.1.5精密配電系統日常巡檢 . 32 5.1.6柴發系統日常巡檢 . 33 5.1.7暖通空調系統日常巡檢 . 34 5.1.8消防系統日常巡檢 . 34
11、5.1.9安防系統日常巡檢 . 35 5.1.10弱電監控系統日常巡檢 . 35 5.2設備預防性維護介紹 . 35 5.2.1設備預防性維護要求 . 36 5.2.2設備預防性檢查、維護、操作內容 . 36 5.2.3預防性維護案例介紹 . 37 5.3預測性維護介紹 . 44 5.3.1預測性維護要求 . 45 5.3.2預測性維護項目 . 45 5.4應急演練介紹 . 45 5.4.1應急演練要求 . 45 5.4.2應急演練項目 . 46 5.5系統可用性檢查 . 46 5.5.1機房基礎設施月度檢查 . 46 5.5.2機房基礎設施場地環境檢查 . 46 5.5.3機房基礎設施其它信
12、息核查 . 47 5.6生命周期管理 . 47 5.6.1中壓柜生命周期規劃管理 . 47 5.6.2低壓柜生命周期規劃管理 . 47 5.6.3變壓器生命周期規劃管理 . 48 5.6.4柴油發電機生命周期規劃管理 . 48 5.6.5UPS 生命周期規劃管理 . 48 5.6.6冷水機組生命周期規劃管理 . 48 5.7 風險管理 . 48 5.7.1縮略語和定義 . 49 5.7.2風險識別 . 49 5.7.3風險管理表 . 50 5.8平安數據中心資產管理 . 51 5.8.1平安數據中心資產管理的特性 . 51 5.8.2平安數據中心資產管理制度化建設 . 51 5.8.3開發適用
13、于自身數據中心管理需要的資產管理系統 . 52 5.8.4數據中心資產管理系統使用案例 . 53 5.8.5數據中心資產現場管理 . 54 5.9數據中心日常管理 . 56 5.9.1平安數據中心日常管理的特性 . 56 5.9.2平安數據中心日常管理制度建設 . 56 5.9.3開發適用于自身數據中心的 IDC 管理系統 . 59 第六章、運維質量保障體系 . 62 6.1內部審核 . 62 6.1.1科技數據中心內部審核 . 62 6.1.2集團公司內部審核 . 64 6.2外部審核 . 66 6.2.1M&O 換證審核 . 66 6.2.2ISO9001 審核 . 67 6.2.3ISO
14、27001 審核 . 69 6.2.4ISO20000 審核 . 69 1 第一章 平安數據中心高可用運維白皮書介紹 1.1數據中心高可用運維白皮書目的、實用范圍數據中心高可用運維白皮書目的、實用范圍 隨著平安集團步入“金融+互聯網”的 3.0 時代, 平安確立了未來十年深化 “金融+科技” 、 探索“金融+生態”的戰略規劃, 以“國際領先的科技型個人金融生活服務集團”為目標,將創新科技聚焦于大金融資產、大醫療健康兩大產業,采用區塊鏈、云計算、人工智能、安全四大核心技術,并深度應用于“金融服務、醫療健康、汽車服務、房產服務、智慧城市”五大生態圈,至 2017 年末,集團互聯網用戶達到 4.36
15、 億,為了更好深化科技創新在客戶經營中的應用,提升客戶體驗,對數據中心的規模和要求越來越高。 隨著互聯網+金融的不斷發展,平安數據中心從原先的兩地三中心,逐漸發展為多地多中心的模式,以北、上、深為中心,覆蓋全國的數據中心集群。平安數據中心在建設方面,基于 GB50174電子信息系統機房設計規范A 級標準,參考 Tier 國際標準,選用國際領先的、高可用的設備,為數據中心的高可用性打下了良好的基礎。隨著數據中心經過十多年的發展,累積了大量的規劃、設計、運維知識和經驗。 數據中心運維是一個不斷變化、 實踐性很強的工作, 平安數據中心運維從第一層次的規范化運維,到第二層次的精細化運維,再到第三層次的
16、個性化運維,運維團隊不斷的挑戰自我、提升自我,逐漸形成了自我特色的運維模式,在保障高可用性的前提下,探索節能智能,不斷降低數據中心的運行 PUE,提高運維的效率。 平安數據中心高可用運維白皮書旨在分享平安數據中心如何打造一個標準化、精細化的運維體系,提高運維人員的專業知識和運維能力,實現數據中心的高可用性。 本白皮書對相關的認證標準進行解讀,比如 ISO9001、M&O,結合實踐經驗,提供這些標準在運維過程中的實際落地方法,為行業內需要通過此類認證的用戶提供指導。 本白皮書可供金融數據中心、 通訊數據中心、 網絡運營商數據中心及企業數據中心的管理者,參與數據中心基礎設施運維的人員參考和借鑒。
17、1.2數據中心高可用運維白皮書內容及簡介數據中心高可用運維白皮書內容及簡介 本白皮書涵蓋了以下章節和內容: 平安數據中心高可用數據中心運維白皮書介紹 介紹了本白皮書編寫的契機以及目的,總結多年的運維經驗,為企業內部后續的數據中心體量增長提供高可靠的運維保障, 也可供同行業的公司和個人進行參考,旨在建立滿足自己實際業務需要的運維保障體系。 2 運維標準化建設 本章從運維的標準化出發,介紹了精細化管理的理論,以及在數據中心運維過程中的具體實踐。 介紹了 ITIL 框架的基本信息,本書具體對事件管理、問題管理、變更管理方面進行詳細的闡述。 介紹了 Uptime M&O 的背景以及其在數據中心運維的重
18、要性,M&O 運維認證的五大方面, 主要包括: 人員與組織; 保養與維護; 人員培訓; 規劃、 協調與管理;運行狀況管理。 數據中心安全管理 金融數據中心往往比其他數據中心對安全性、可管控性要求更高,本章從信息安全、物理安全、人員安全三個方面進行闡述。 人員保障與發展 本章介紹了平安數據中心為滿足高可靠性所建立的組織架構體系, 以及各個崗位的職責和分工。 介紹了用來滿足本職工作的培訓和模擬演練的培訓課程設置, 以及各種培訓和演練的考核制度。 介紹了供應商的保障,對供應商服務人員的資質要求,SLA 要求,考核體系。 可靠性運維分析實踐 介紹了數據中心基礎設施各種設備的日常巡檢頻率、內容和要求。
19、在設備預防性維護方面,介紹了包括配電系統中 8 項設施的維護、暖通系統中4 項設施的維護、弱電系統中 3 項設施的維護方法。 預測性維護方面,本白皮書介紹了預測性維護的目的和意義,列舉了數據中心基礎設施需要的預測性維護項目。 系統可靠性驗證方面,介紹了數據中心可靠性驗證的必要性和目的,并列舉驗證的類型和方法。 生命周期管理, 介紹了基于數據中心的使用壽命而對高壓配電柜、 UPS、 電池、精密空調、冷水機組制定的升級、年檢、大修、改造、淘汰的規程。 介紹了數據中心的可用性檢查,權威的第三方系統功能驗證等。 介紹了風險管理、資產管理、現場管理方面的內容。 運維質量保障體系 本章介紹了檢驗數據中心運
20、維質量的方式,ISO9001 質量體系檢驗,平安內部的安全部門審計,平安數據中心內部不同分組的互相審計,M&O 的認證審核等。 3 第二章 平安數據中心運維標準化建設 數據中心運維工作涉及兩大方面:一是確保數據中心的穩定性而對數據中心各個環節進行維護;二是當數據中心內出現問題時,能夠及時定位并且解決,以縮短故障時間。 圍繞以上兩個方面,平安數據中心的運維標準化建設,采用精細化管理的方法,總結自己的經驗教訓,將國際領先的 ISO 管理體系,ITIL 流程體系,M&O 運維標準合理的融合起來,形成具有獨特的運維體系。 2.1精細化管理理論和方法精細化管理理論和方法 2.1.1精細化管理的概念 精細
21、化管理是一種理念,一種文化。它是社會分工精細化、以及服務質量精細化對現代管理的必然要求。 現代管理學認為, 科學化管理有三個層次: 第一個層次是規范化,第二層次是精細化,第三個層次是個性化。 2.1.2精細化管理在數據中心運維中的應用 數據中心運維精細化管理,實際是一個為保障數據中心高可用性為目標分解細化和責任落實的過程,是高可用性這個目標能有效地貫徹到每個環節并發揮作用的過程,同時也是提升團隊整體執行力的一個重要途徑。 精細化運維是一個全員參與的過程, 每一位員工既是精細化運維的對象、 載體和參與者,也是精細化運維的主體和實施者。 如何實施精細化管理, 平安數據中心將運維人員崗位分工進行精細
22、化, 職責分工進行精細化,運維平臺進行精細化設置,設備維護保養流程進行精細化,客戶服務進行精細化,以“精、準、細、嚴”為基本原則,通過提升改造員工素質技能,加強內部控制,強化精細化管理,從整體上提升數據中心的穩定和安全性。 “精”是精益求精, 追求更好, 是一種態度, 將數據中心的管理和日常工作做到極致,按照數據中心高可用的要求,追求設施運行的最佳狀態。 “準”是準確、準時,代表了運維的規范、認真的規則意識。信息要保持準確性,包括現場設備物理信息準確性,標示標簽的準確性,設備數據的準確性,時鐘的準確性,監控平臺設備數據、 狀態的準確性, 儀器儀表的準確性, 流程的準確性, 手冊的準確性,這些信
23、息是運維過程中風險識別、故障判斷、故障處理的必要參考,信息的準確度直接關系到設備的最佳運行狀態,以及故障能否及時處理,避免人為引起的二次故障。數據中心設備的日常維護事項眾多, 維護變更的安排是基于全面的風險評估后制定的, 每一 4 項維護應該在規定的時間內,準時進行,避免在不當的時間內處理不當的事情。 “細”是細致、細微。運維中人員責任分工要細,各司其職,保障運維中各項工作落實到位;制度、規范要細,是質量考核的標準;標準的維護手冊、標準的操作手冊、標準的應急手冊要細,確保在最不利的情況下,按照手冊一步一步執行是安全可靠的; “嚴”是嚴格、嚴謹,體現在對運維各個環節的執行和過程的控制。對數據中心
24、運維的各項規章制度嚴格落實,控制質量。數據中心運維過程中,寧可失之于嚴,不可失之于寬。 平安數據中心運維團隊嚴格按照精細化管理的要求,建設自有的運維標準,不斷去檢視流程、制度、規范、人員,挖掘潛在的能力,保障數據中心的高可用性。 2.2運維運維 ITIL 框架框架 平安數據中心參考 ITIL 的流程,根據多年運維的實際情況,對模塊進行精選,對應用最廣的事件管理、問題管理、變更管理、服務請求管理、資產管理、安全管理進行描述, 其中針對金融數據中心對安全的重要性, 安全管理放在本白皮書的第三章進行單獨說明,資產管理放在第五章內進行說明,本章只描述事件管理、問題管理、變更管理在平安數據中心運維工作中
25、的應用。 平安數據中心對事件管理、 問題管理、 變更管理均在自有 Service Bot 系統中進行。Service Bot 系統中記錄事件、服務請求、問題和變更的編號、上報人、上報時間、處理組、 處理人、 事件類型、 事件來源、 處理優先級、 詳細描述、 事件原因分析、 處理方案、處理過程等信息。 管理單中可以對事件、父事件、問題單、請求單、變更單五個信息相互關聯。方便事件的升級和跟蹤。 系統中將一個事件、問題和變更實施閉環管理,分為新建、分派、處理中、等待、已解決、已關閉 6 個狀態,跟蹤記錄處理目標 SLA(服務等級協議)信息,關閉經上報人審核完成后給予滿意度評價。 2.2.1事件管理
26、數據中心事件管理的目標就是在出現事件時, 通過內部的事件管理流程, 采用既定的措施,盡可能的快速恢復系統的正常運行,避免造成業務中斷。 事件管理的要素包括事件上報記錄、 事件級別定義、 事件處理過程、 事件升級機制、事件響應機制、事件狀態,平安數據中心通過制定事件管理流程,在 Service Bot 系統中跟蹤記錄事件的整個過程。 2.2.1.1事件定義 5 (1) 報警:定義報警的概念和范圍。 (2) 故障:定義數據中心中故障的概念和范圍。 (3) 一級故障:參考運行 SLA 要求,直接影響業務運行可靠性的故障定義為一級故障。 (4) 二級故障:基礎設施設備中單個關鍵設備故障。需定義清楚關鍵
27、設備。 (5) 三級故障:指對機房內設備的正常運行形成安全隱患但未造成實際影響的事件。 (6) UIOC:機房設備軟硬件運行異常導致應用層面發生嚴重故障,為解決相應故障所啟動的重大事件管理流程。 2.2.1.2事件發現 基礎設施運維人員通過例行巡檢、遠程監控、手機短信、撥號報警等方式了解到基礎設施、機房設備或運行環境的報警信息,第一時間趕赴現場了解報警情況,獲得報警的完整信息。如屬基礎設施或運行環境故障,應第一時間通知當班基礎設施工程師,工程師根據具體情況判斷是一級故障、二級故障或三級故障。 2.2.1.3故障分級上報制度 當班基礎設施工程師判斷為三級故障, 由基礎設施工程師協調技工崗人員或相
28、關服務商對故障進行排除與跟進。 如為二級以上故障, 當班基礎設施工程師于 2 分鐘之內通知相應的小組負責人, 小組負責人根據故障情況安排處理措施,并就故障排除進展適時通報管理者代表。 如為一級故障,小組負責人應于 2 分鐘之內通知管理者代表,管理者代表 2 分鐘之內通知中心經理, 并每隔 2 小時匯報故障排除進展, 中心經理根據故障具體情況通報公司相關領導,并確定是否啟動 UIOC。 2.2.1.4故障處理 基礎設施工程師負責制,負責響應故障、判斷故障、通報故障,協調資源對故障進行處理。 如為三級故障,則協調內部人員共同對故障進行處理,如果需要供應商緊急處理,應在 30 分鐘內通知服務商人員安
29、排維修, 同時將故障處理過程向小組負責人匯報。 如為二級以上故障,應第一時間到達現場并通知小組負責人,如果需要供應商緊急處理, 應在10 分鐘內通知廠家維護人員趕赴現場排除故障, 如故障不能順利排除,應敦促廠家啟動緊急應對措施(如提供備機等) ,盡快排除故障。故障排除進展每隔 2 小時內通報小組負責人和管理者代表。 如為一級故障, 管理者代表匯報給中心經理。 所有故障處理完畢后,均應在在相關管理系統中填報故障事件,并記錄故障處理全過程。 6 2.2.2問題管理 問題是導致一個事件或者多個事件的根本原因,問題管理就是找到這些事件產生的根本原因,通過實施主動問題管理,在事件發生之前將問題發現并解決
30、,從而減少事件發生的數量。問題管理往往時間周期比較長,需要診斷根源,制定恰當的解決方案,從根本上解決。 問題一般由風險或者事件轉化而來,管理中,需要和風險、事件相關聯,問題的定級可以參考后續平安數據中心風險的定級,問題的分類與上述的事件分類相似。 2.2.3變更管理 變更管理的目的,是確保以受控的方式去評估、批準、實施和評審所有變更,確保標準方法和過程得到使用,阻止未授權的變更發生,使得變更風險可以降至最低,同時將變更相關突發事件的影響減到最小,并且確保所有變更都必須可跟蹤和可追溯。 變更管理的要素包括變更的分類、變更管理的流程、變更管理的角色定義、變更的發起、變更的審批、變更的執行和關閉,變
31、更的常規政策和預授權政策等。 2.2.3.1變更管理解釋 變更管理: 在對基礎設施進行日常運行、 維護中所涉及具有一定風險性操作過程的管理描述。 變更管理的目標旨在通過規范化、標準化、流程化的管理方式,規避在變更實施中的風險項。變更管理范圍涉及年度例行變更,事件類變更,數據中心系統架構的更改,設備狀態、參數、配置等方面的變更。 2.2.3.2變更的分類 平安數據中心基礎設施運維,按照變更的影響程度,分為一級變更,二級變更,三級變更。 一級變更, 又稱為重大變更, 主要指對數據中心配電、 暖通系統有較大隱患的變更,影響機柜雙路供電安全性、影響機房整體制冷類、監控和消防安全的變更。 二級變更,包括
32、維護類變更,參數修改類變更,維護類變更主要包括單個設備層的故障維護, 單個設備的配置變更, 對 IT 負載無雙路供電性安全影響的維護類事件; 三級變更,主要針對設備級正常狀態下的參數修改,運行狀態變更。 2.2.3.3變更角色定義 變更管理將變更流程中涉及的變更委員會、日常運維經理/銀行 IT 經理、基礎設施經理、工程師、監控崗、技工崗角色及職責進行分別定義。 2.2.3.4變更分級管理圖 7 圖 2.2-1 變更分級管理圖 2.2.3.5變更發起 變更管理制度詳細說明了變更的發起人,變更的主要要素。包括變更單的類型,變更基本信息,變更原因,變更方案,變更等級評定。 2.2.3.6變更審批 該
33、步驟中, 變更的審批者將評估和檢查變更請求所產生的影響, 確保能夠在實施變更時,既能滿足業務的要求,同時又對服務造成的影響最小。該步驟將決定是否進行變更。 2.2.3.7變更實施 通過本步驟, 將變更內容在生產環境中進行實施。 根據變更單授權審批的實施時間、實施程序等內容,實施人組織籌備現場變更實施,并如實記錄實施過程。 2.2.3.8變更關閉 本步驟的目的是考察變更是否達到了預期的效果, 對變更結果進行確認, 且變更單的信息是正確、完整的。 2.3Uptime M&O 實踐實踐 Uptime institute 公司的 M&O 認證是數據中心行業的國際權威認證,在全球范圍內得到高度的認可,M
34、&O 認證用來對數據中心綜合指標進行評估,旨在幫助數據中心提高運營和管理水平。 M&O 的重要思想是收集全球數據中心的運維案例,提供最佳的實踐,最低限度的降低人為或者設備帶來的風險,提高數據中心的高可用性。 平安數據中心在 2017-2018 年以最短的時間通過了 M&O 的認證,并且得到國內數據中心認證的最高分 96.3 分。M&O 的認證包括對數據中心人員組織、維護管理、培 8 訓管理、計劃協調與管理、運行狀況 5 個方面進行認證評分,綜合得分 80 分以上即為通過認證,有效期為 2 年。下面就 5 個方面進行介紹說明。 2.3.1人員組織 正確配置的合格人員人數對于數據中心實現長期性能目
35、標非常關鍵。必須提供充足的合格內部人員和供應商支持, 以便執行數據中心所有的維護活動和操作, 以盡可能確保符合正常運行時間目標。數據中心的所有工作人員都必須擁有必需的經驗和技術資格來執行被分派的活動, 所有職位的角色和職責都應有所規定, 且其重要程度經過管理層確認。 2.3.1.1人員配置 平安數據中心承載著重要的核心業務,是 7*24 小時運行保障。為此數據中心配置了滿足運維要求的人員。根據崗位的不同,制定了不同的崗位說明書,主要內容包括:從人員招聘開始, 不同崗位的人員有教育程度、 相關經驗、 專業能力、 核心能力的要求,且明確各個崗位的職責范圍、主要職責、工作難點、處理方法等內容,以及各
36、個崗位在組織架構中的位置, 確保每一位人員進入數據中心前必須滿足各項要求, 清楚自己的位置和職責。 崗位職責矩陣,將數據中心的運維工作分為 47 類,描述每類工作的大概內容,定義在每一項工作中,每一個崗位的具體參與方式,包括:執行、審核、支持、知曉四個方式。并根據人員的變動和職責的變化,更新崗位職責矩陣。這樣的目的是使所有人員清楚在每一項工作中的角色,方便工作的有序進行。 數據中心區域復雜,設備眾多,平安數據中心通過設立責任區的方式,將數據中心的物理空間分為 15 個區域,每一個區域責任到人,負責該區域的物理空間和設備,通過文件定義這些責任區具體的事項。 另外責任區定期輪換, 使得所有人對數據
37、中心的基礎設施有清晰深刻的認識。 2.3.1.2人員資質 數據中心運維根據日常的作業內容,包括中壓配電、低壓配電、制冷系統、消防系統、電梯管理、登高作業等,平安數據中心運維人員具備國家安全生產管理總局頒發的中壓操作證、低壓操作證、暖通操作證,公安部消防局頒發的初級建(構)筑物消防員證,深圳市市場監督管理局頒發的電梯管理證(特種設備安全管理) 。 人員資質的管理包括整理收集人員資質信息, 定期進行檢查, 及時督促有關人員進行復證審證,保障證件在有效期內。 2.3.1.3組織架構 平安數據中心運維團隊有清晰的組織架構圖,可以顯示基礎設施、IT 部門、安全管 9 理、供應商、保潔的工作界面及匯報鏈,
38、以及各個組織的聯系溝通渠道。 2.3.2維護管理 2.3.2.1預防性維護計劃 預防性維護計劃: 平安數據中心運維團隊每年底會根據設備的種類、 設備供應商的建議制定下一年的預防性維護計劃, 多達 150 多項, 這些計劃經過管理層審批通過后,按照計劃按時開始,并嚴格通過 MOP 指導文件進行過程管理,這個預防性計劃的按時完成率定義在 95%,并且作為數據中心的重要 KPI 指標。 2.3.2.2維護管理系統 有效的維護管理程序以追蹤所有維護活動的狀態和結果 包含所有重要設備的品牌、型號、出廠時間、安裝時間、維保合同信息、操作注意事項等在內的信息列表 維護工單中包含特殊工具和配料以完成 PM 保
39、存設備維護行為和趨勢的數據和記錄 關鍵備料和再訂貨點的清單 設備清單:覆蓋所有關鍵設備的信息清單,包括設備信息,設備維保信息,設備關鍵主件信息。設備信息包括:設備類別、設備安裝位置、設備名稱、品牌、功格/型號、安裝日期、序列號;設備維保商信息,包括維保單位、設備出保日期、維保聯系人和聯系電話;設備關鍵主件信息,因各個設備的類型不同,可根據設備類型,列舉主要部件的信息。 工具管理:包括設備校準的規定,工具清單,工具的校準記錄。 關鍵備件管理:由于每個數據中心設備類型不同,地理位置不同,供應商支持的程度不同,可以根據自己數據中心的情況,定義關鍵備件,梳理關鍵備件的清單,對備件進行定期清點。目標是實
40、現在數據中心設備發生故障時,故障能夠快速修復,縮短故障間隔時間(MTBF) ,減少對業務產生的風險。 2.3.2.3 機房清潔政策: 數據中心清潔標準包括: 機房地板上下干凈、整潔 機房內無易燃易爆、清潔用具、個人物品、包裝紙盒等物品 機房環境干凈、整潔,包括 IT 主機房,配電房、冷站等功能區域 2.3.2.4供應商支持: 合格供應商清單(正常情況和緊急情況下) ,包括供應商名稱、聯系人、聯系方式 10 服務級別協議(SLA)的條款,包含工作內容、維護時間、頻次、響應時間、培訓需要等 供應商接入流程以及合格的供應商服務人員 2.3.2.5延期維護程序: 追蹤和監督執行延期維護的流程,包括延期
41、維護的風險分析、延期維護的發起、審批、執行、關閉流程。 2.3.2.6生命周期規劃: 主要設備或組件在生命周期置換過程中的計劃、財務管理程序 2.3.2.7故障分析政策: 設備故障的清單(包括時間、設備,以及故障分析和所學到的教訓) 有效的流程以確定問題根源,并采取正確的糾正措施 2.3.3培訓管理 2.3.3.1員工培訓 對于每個在職新員工的培訓, 以確保技術能力和對工作制度的了解滿足要求。 通過文檔化的宣講和現場演練以達到: 1)所有運維管理中涉及的流程、程序和政策 2)SCP(Site Configuration Procedure)現場配置程序培訓 3)SOP(Standard Ope
42、rating Procedure)標準操作程序培訓 4)EOP(Emergency Operating Procedure)應急處理程序培訓 5)MOP(Maintenance Operating Procedure)維護操作程序培訓 6)MMS(Maintenance Management System)維護管理制度培訓 包含課程計劃、課件、記錄等在內的培訓管理程序,正式確定人員合格的程序。 2.3.3.2供應商培訓 內容包括: 需要供應商接受的培訓清單 供應商到現場工作前的必要流程和程序的介紹 正式培訓程序包含正式員工接受的培訓中必要的方面 包含課程計劃、課件、記錄等在內的培訓管理程序 2
43、.3.4計劃、協調與管理 2.3.4.1機房政策 數據中心正式的文檔程序包含以下: 11 1)數據中心員工管理設備的政策(如配置變更的原則,正常、緊急等不同運行狀態下的運行方案) 2)SCP(Site Configuration Procedure)現場配置程序 3)SOP(Standard Operating Procedure)標準操作程序 4)EOP(Emergency Operating Procedure)應急處理程序 5)變更管理(評估變更風險及必要的審批) 2.3.4.2財務政策 必要的財務程序以確保數據中心所需的資金保持充足且可用。 2.3.4.3文檔資料庫 以下資料和記錄必須
44、具備(在數據中心現場或不在現場) : 1)竣工圖 2)運行維護文檔 3)研究成果 4)測試報告 5)維保合同及條款 6)書面的自動控制程序 以上資料必須在數據中心現場可以隨時獲取,必須在數據中心中集中存放并被所有人獲取,有一套程序確保以上資料的版本更新,并被所有數據中心人員獲取。 2.3.4.4容量管理 機房 IT 設備安裝及移除的程序,機房使用情況的定期回顧與更新,對于空間、電力和冷量增長需求的預測流程,定期跟蹤現有空間、電力和冷量容量的使用情況,有效的氣流組織管理流程和電力使用及分析的流程。 2.3.5運行狀況 2.3.5.1負載管理 確保當切換動作時,負載不超過容量上限的程序。 2.3.
45、5.2操作設定值 基于風險、可用性以及成本等考慮而設置的關鍵運行設定點。 12 第三章 數據中心安全管理 數據中心安全管理主要包括三個方面: 信息安全管理、 物理安全管理和人員安全管理。 而金融類數據中心在安全性上較其他類數據中心有更高的要求。 平安數據中心參考ISO27000:2005 信息安全管理體系 、 GB/T 21052-2007 信息安全技術 信息系統物理安全技術要求以 ISO9001、M&O 體系為指導,力求做精做細,保證數據中心各個環節的安全穩定運行。 3.1信息安全管理信息安全管理 隨著在世界范圍內, 信息化水平的不斷發展, 數據中心的信息安全逐漸成為人們的焦點,世界范圍內的
46、各個機構組織都在探尋如何保障信息安全的問題。目前ISO27000:2005 信息安全管理標準已得到大多數國家的認可, 平安數據中心參考此標準對信息安全進行系統管理, 制定保密制度如下: 1) 遵守平安科技(深圳)有限公司計算機信息網絡安全保密規定。 2) 未經批準,任何人員都不得將機房內的任何物品攜帶出機房,且不得將機密文件,軟件版本,技術檔案,內部資料等攜帶出機房或對外泄密。 3) 不得泄漏其他有關數據中心的秘密、機密、絕密信息,包括數據以及文件等。 4) 不得泄漏服務器資料如賬號、密碼等信息,嚴禁盜用其他人員的賬號和 IP 地址。 5) 未經授權,任何人都不得進入數據中心非公開區域,不得接
47、觸和使用數據中心或與自身工作無關的 IT 設備,不得干擾和妨礙數據中心或其他人員的正常工作。 6) 未經授權,任何人不得變換數據中心內網絡及計算機等 IT 設備的安裝環境,不得擅自更改網絡及服務器等 IT 設備的各項參數。 7) 嚴禁隨意挪用,變換和破壞數據中心內的公共設施。 8) 首次進入數據中心的外來人員(如維護、參觀等)需簽署保密承諾函 ,并配合數據中心管理人員和保安人員進行必要的安全檢查。如有違反安全保密制度的情況,將視其情節輕重,根據數據中心管理規定,對當事人進行必要的處理。如果該行為構成犯罪的,將申報至公司法律和安全部門追究相關法律責任。 9) 辦公電腦專人專用,由計算機管理員統一
48、標裝操作系統,嚴禁個人擅自重裝操作系統。 10) 嚴格執行辦公系統賬號和口令標準,不得隨意泄露給他人,登錄密碼每三個 13 月更改一次,在工作崗位調動或離職時需按時交還辦公電腦。 11) 因工作原因需外發郵件時,需抄送直屬上級領導,經直屬領導審批后方可放行。郵件內容及附件涉及賬號、密碼、IP 等敏感信息需采取必要的屏蔽措施。 3.2物理安全管理物理安全管理 物理安全是指需保證數據中心的機房和所有設備及其他場地的安全。這是整個數據中心信息系統安全的前提。 如果機房的物理安全得不到強有力的保證, 存在各種不安全的因素,則整個數據中心的安全也就不可能實現。 平安數據中心不僅在建設階段基于 GB501
49、74 電子信息系統機房設計規范 A 級標準, 為數據中心的物理安全打下了良好的基礎, 而且在日常運維工作中制定了不同級別的訪問控制管理制度,對人員出入安全,物品出入管理,消防安全等均作出明確規定。 3.2.1物理安全配置 平安數據中心的物理安全配置分為五級,分為園區級、大樓級、機房級、區域級、機柜級。 園區級:有園區保安負責進入園區人員和車輛的識別,園區內安保人員實時巡邏。 大樓級:數據中心大樓設置有大門門禁、安檢機、人臉識別,大樓安保崗負責對出入人員的管理。 機房級:數據中心各個機房通過人臉識別、刷卡、指紋模式驗證,方可進入機房區域。 區域級:IT 機房內部,將 IT 區域根據客戶的不同進行
50、分區,通過隔籠、冷通道的方式隔離, 每個隔離區域都設置有門禁, 只有專屬用戶才允許進入相關區域。 機柜級:IT 機房內,各個 IT 機柜前后門都進行上鎖,專屬用戶擁有開鎖的權限。 大樓及機房內裝配監控攝像頭, 實施錄像并進行雙備份存儲, 支持 3 個月的查詢,機房內各門禁記錄支持 1 年有效期的查詢。 3.2.2術語及定義 直接進出人員 指具備數據中心進出權限(進出卡、指紋信息、虹膜信息) 、需長期進出數據中心的內部工作人員,進出人員清單由數據中心基礎設施管理人員在出現直接進出人員權 14 限變動時更新,并每月由基礎架構部主管數據中心的領導進行確認。 間接進出人員 指不具備數據中心直接進出權限