《云計算開源產業聯盟:云災備建設指南報告(2024)(31頁).pdf》由會員分享,可在線閱讀,更多相關《云計算開源產業聯盟:云災備建設指南報告(2024)(31頁).pdf(31頁珍藏版)》請在三個皮匠報告上搜索。
1、-0-云災備建設指南云災備建設指南 (20242024)云計算開源產業聯盟云計算開源產業聯盟 2022024 4 年年 5 5 月月 -1-版權聲明版權聲明 本報告版權屬于云計算開源產業聯盟,并受法律保護。轉載、摘編或利用其它方式使用本報告文字或者觀點的,應注明“來源:云計算開源產業聯盟”。違反上述聲明者,本聯盟將追究其相關法律責任。-2-編委會:馬飛、蘇越、陳凱、周倩、金天驕、朱正秋、徐禮長、王賽鈺、賴志強、謝楓、王駿翔、楊磊、楊梅、田園、王立波、高健凱、司華、胡洋、趙文敬、林墅、李偉明、李昊楠等。報告在編寫過程中,歷經內容起草、模型構建、調研訪談、數據分析、征求意見等階段,得到了諸多單位的
2、大力支持,包括:中國信息通信研究院、浙江移動、上海數騰軟件科技股份有限公司、上海愛數信息技術股份有限公司、中遠海運科技股份有限公司、中電信數智科技有限公司、浪潮數據技術有限公司、曙光云計算集團有限公司、杭州美創科技股份有限公司等。由于數據來源以及樣本企業數量限制,無法考察領域內全部企業,本報告如有不足之處歡迎指出。-3-前前 言言 隨著云計算成為產業數字化的重要技術底座,企業通過大力建設更加靈活、可靠的云災備系統來有效預防和減少災難或意外故障的風險,實現業務的快速恢復,保護企業核心數據,提升客戶信任和企業競爭力。然而,企業在云災備建設的過程中,仍然面臨著數據恢復有效性難以保障、管理體系仍不完善
3、、產品兼容性較差、副本數據缺乏利用等挑戰,極大影響了企業云災備建設效能。為了探明我國各行業企業云災備建設的發展現狀,推動產業高速發展,促進產業良好生態形成,助力云災備產業規?;涞?,中國信息通信研究院牽頭編制云災備建設指南(2024)。本報告總結了云災備的發展歷程與背景,洞察并分析了企業云災備建設過程中面臨的諸如技術、產品、管理體系等方面的困難與挑戰,并歸納云災備的建設路徑,旨在為企業提供云災備建設全流程的參考。-1-目目 錄錄 一、一、云災備概述云災備概述.1(一)云災備發展背景.1(二)云災備發展歷程.2(三)云災備的優勢.4 二、二、云災備產業不斷發展,災備建設仍面臨諸多問題云災備產業不
4、斷發展,災備建設仍面臨諸多問題.6(一)災備環節存在技術難點,數據恢復有效性難以保證.6(二)(二)云服務故障頻發,云災備管理體系建設仍需完善.7(三)災備產業上下游難以兼容,亟需加強產品適配.8(四)災備數據缺乏利用,數據價值有待挖掘.9 三、三、五大措施夯實企業云災備建設之路五大措施夯實企業云災備建設之路.10(一)云災備建設需求分析,保障災備建設可行性.10(二)云災備建設規劃設計,提升全流程建設效能.11(三)云災備建設方案實施,穩妥高效推進云災備建設.12(四)云災備建設賦能數據管理,技術創新助力降本增效.13(五)云災備建設效果評估,促進企業災備能力持續提升.13 四、四、企業云災
5、備建設實踐企業云災備建設實踐.14(一)蕪湖市政務云同城異構災備建設案例.14(二)廈門市政務云多云異構災備云建設案例.17(三)浙江某連鎖餐飲企業云上跨 AZ 災備建設案例.20 五、五、云災備發展展望云災備發展展望.23 -2-(一)災備系統兼容性不斷加強,災備行業生態日益開放.23(二)災備數據應用場景不斷擴展,聚焦挖掘數據新價值.24(三)依托云災備標準體系,逐步提升云災備建設成熟度.24 -1-一、一、云災備概述云災備概述 (一)云災備發展背景 云災備的發展主要源于信息化時代對數據安全與業務連續性的迫切需求。傳統災備行業已發展近半個世紀,從手動磁帶備份的計算機發展初期,到遠程磁盤備份
6、、建立異地數據備份中心,再到實時備份數據保護,災備技術的發展伴隨著底層基礎架構不斷演進。企業數據量爆炸式增長、數據價值不斷提升,云災備價值逐步顯現。在數字化時代,企業面臨著日益龐大和多樣化的數據流,而這些數據不僅是信息的載體,更是企業的重要戰略資源。因此,如何有效地管理、保護和恢復這些數據變得尤為關鍵。數據量的急劇增長,傳統災備壓力激增,面臨著備份和恢復時間長、管理復雜度高、災備場景受限等問題,而云計算作為新一代信息技術的核心引擎為傳統災備行業注入了新的活力。云災備將生產數據災備到彈性伸縮、按需付費的云服務平臺,成為了適應云計算和大數據時代下的新災備理念。隨著云計算技術的不斷成熟,云災備的應用
7、優勢突出,災備云化轉型提速。云計算技術的發展不僅為災備建設提供了靈活可擴展的數據存儲和恢復能力,還顯著降低了災備建設的成本和復雜性。在這種趨勢下,越來越多的企業開始認識到災備云化的重要性,紛紛加快災備云化轉型的步伐。通過利用云服務提供商的先進技術和資源,企業能夠實現更高效的數據保護,確保在面臨災難時能夠快速恢復業務運-2-行。云計算技術的成熟為云災備的發展注入了強大動力,推動著災備云化轉型進入一個新的快速發展階段。根據 IDC 統計,2023 年中國數據災備市場收入達到 7.3 億美金,同比增長 11.8%;未來五年,中國數據災備市場預計將以 10.2%的復合年增長率增長,市場規模預計在 20
8、28 年達到 13 億美元。各行業的云災備熱度也持續上漲,在政務、金融、電信、醫療、教育等領域均有落地應用,其中政務云建設成熟度最高,在行業應用中占比達到 50%以上。數據合規性相關政策正推動災備體系逐漸成熟。近些年,國家出臺了一系列相關政策和法律法規,災備建設和業務系統的連續性也越來越受到企業重視。中華人民共和國網絡安全法明確規定關鍵信息基礎設施需要“對重要系統和數據庫進行容災備份”,并“制定網絡安全事件應急預案”?!暗缺?2.0”二級及以上的安全通用要求里均規定需要提前制定備份及恢復策略,確保災備系統的可用性和可靠性,并且等級保護對象范圍在傳統系統的基礎上納入了云計算這一新型數字基礎設施。
9、2023 年,工業和信息化部等六部門聯合發布了算力基礎設施高質量發展行動計劃重要文件,明確提出到 2025 年重點行業核心數據和重要數據的災備覆蓋率要達到 100%??梢灶A見,合規性要求的提高,將很大程度上推動災備行業及云災備技術的發展,并對關鍵行業帶來重要影響。(二)云災備發展歷程 云災備的發展歷程分為三個階段。第一階段(2006-2012),技術-3-探索階段。在云計算概念尚未普及的早期階段,一些技術先驅開始探索利用云計算技術來改善災備解決方案。這一階段的云災備主要局限于一些基礎的概念探索和實驗性的應用,尚未形成成熟的商業產品和解決方案。例如 2006 年,亞馬遜網絡服務發布 Amazon
10、 S3(Simple Storage Service),提供的一種對象存儲服務,是首個商業化的云存儲服務之一,為開發者和企業提供了可擴展、安全、可靠的存儲方案,云存儲的發展為云災備的產生奠定了基礎。第二階段(2012-2018),技術演進階段。災備技術的早期階段使用數據復制技術以存儲搭配備份軟件的方式,通過客戶端軟件對目標應用數據定期獲取,提供多副本冗余以進行數據保護。傳統備份技術穩定,但受限于備份數據不能直接掛載使用,因此在業務連續性方面較為薄弱。隨著技術發展,CDP(Continuous Data Protection)技術通過實時備份數據的變化,提供了較短的恢復點目標(RPO)和恢復時間
11、目標(RTO)。這種持續的數據保護方式為組織提供了更高的數據恢復保障。CDM(Copy Data Management)是在 CDP 基礎上的進一步發展。CDM 采用首次完全備份,隨后采用永久增量備份方式。它利用 CBT(Changed Block Tracking)等塊修改追蹤技術獲取增量數據,在備份期間將增量數據與之前的全量數據合成,形成新的全量備份。CDM 的核心理念是減少數據備份和恢復的冗余,從而提高備份和恢復的效率和可靠性。隨著云計算技術的逐漸成熟和普及,云災備開始從簡單的數據備份向更全面的災備解決方案發展。第三階段(2018-至今):服務化與行業應用階段。云服務提供商-4-不斷完善
12、其產品和服務,并提供災備即服務(DRaaS),簡化了災備的建設和管理。DRaaS 是云災備技術的更進一步的發展,將災難恢復功能提供為一種云服務。DRaaS 提供商在超大規模云環境中提供解決方案,客戶可根據需求在云端備份數據和應用程序,快速恢復業務以最大程度減少停機時間和數據丟失。隨著云災備技術的普及和發展,越來越多的企業將其整合到業務流程中,特別是在金融、電信等業務連續性要求極高的領域,云災備成為了不可或缺的一環。在金融領域,隨著金融科技的迅猛發展,各類金融機構對于數據安全和業務連續性的需求日益增加。云災備技術的應用使得金融機構能夠更加高效地應對各種風險和災害,保障資金流動和交易安全。同時,通
13、過云災備,金融機構還能夠更好地滿足監管機構對于數據備份和災備計劃的要求,提高整體合規性。電信行業也是云災備技術的重要應用領域之一。作為信息基礎設施的重要組成部分,電信網絡的穩定性和可靠性對于整個社會的運行至關重要。通過云災備,電信運營商能夠更好地應對自然災害、網絡攻擊等風險,保障通信網絡的穩定運行,為用戶提供持續、可靠的通信服務??偟膩碚f,隨著云災備技術的日益成熟,其在各個行業中的應用將更加普及,成為保障企業業務連續性和安全性的關鍵工具。這一廣泛應用的背后,是云災備技術本身的諸多優勢所驅動。(三)云災備的優勢 云災備可以為政企提供高效、靈活的災備解決方案,保障業務連-5-續性并應對不可預見的災
14、難事件。云災備采用創新的災備服務模式,涵蓋了傳統物理主機、虛擬主機等 IT 系統,向私有云或公有云等云端化災備轉變,以及新業務形態下災備端云化和云與云之間的災備等,從而滿足企業在多云環境中的災備需求,保障系統遭受災難時數據安全、業務快速恢復。相比較以往的災備方式,云災備具有眾多優勢。云災備結合云平臺的計算、存儲和網絡等豐富資源,具備明顯成本優勢。首先云災備產品支持按需使用,按量付費,云災備采用云基礎設施或 DRaaS 模式,允許用戶根據實際需求選擇重要的系統和數據進行備份,用戶只需為實際使用的資源量付費,有效減少了資源浪費,提高了效率。傳統的災備解決方案需要建立和維護昂貴的物理設備和基礎設施,
15、而云災備則可以靈活地調整資源,大大降低了成本。其次,云災備方案具備高可靠性,云災備采用分布式架構和虛擬化技術,在多個地理位置備份和復制數據。在災難期間,通過網絡和物理隔離技術確保數據的完整性;同時采用多副本機制來保證數據可靠性,當本地數據中心出現故障后,業務流量直接切換至云上災備中心,并立即恢復業務,從而保證了高可用環境下業務不間斷運行。同時,云災備覆蓋了全生命周期的災備服務,DRaaS 服務通常由專業的服務提供商托管和管理,客戶無需擔心災備解決方案的日常維護和管理工作,降低了災備使用與維護門檻,減輕了 IT 團隊的負擔。此外,跨地理容災能力也是云災備的一大優勢,許多云服務提供商具有全球數據中
16、心的分布,企業可以輕松地將數據備份到不同地理位置的數據中心,實現跨地區災備,從而提高數據的安全性和可靠性。-6-綜上所述,云災備可以為企業提供更高的業務連續性、數據可用性和災備容災能力,同時降低總體成本和管理負擔,為政企數據資產和業務系統提供高性價比的全方位保障。二、二、云災備產業不斷發展,災備建設仍面臨諸多問題云災備產業不斷發展,災備建設仍面臨諸多問題 (一)災備環節存在技術難點,數據恢復有效性難以保證 企業建設云災備的過程中,在備份、驗證、演練、容災和恢復環節仍面臨一系列挑戰。首先,在備份環節,現有數據備份大多為文件級備份,但文件級備份需要解析文件類型,會占用源機的大量資源,因此企業被迫對
17、其做定時備份。也有企業嘗試進行磁盤塊級備份,但其技術門檻較高。其次,在驗證環節,企業對于非結構化數據,如辦公文檔、文本、圖片等數據的驗證只能采取人工查看的方式,打開每個文件進行驗證。但隨著數據量的增大,這種方式會占用大量的人力資源且費時費力。對結構化數據如 SQL 等數據庫的驗證則更為困難,需要搭建一套與原環境一樣的數據庫才能打開進行校驗,其成本和技術門檻較高,因此企業一般不對其做驗證。對于演練環節,目前大多數企業做演練需要搭建海量環境,解決歷史補丁、中間件、各種復雜邏輯以及配置文件的問題?;ㄙM大量的人力、物力、財力,還需要保障全量數據的傳輸完成,才能進行演練。但演練帶來的風險卻是企業無法承受
18、的,因此對大多廠商來說演練較為困難。最后,在恢復環節,很多企業面臨將業務從備機回切到主生產環境的難題,由于可能需要重新搭建主生產環境,耗費大量的時間的同時,成功恢復率也難以保-7-障。同時,災難應急時業務在備機上運行,企業還面臨著應急時的增量數據重新融入恢復后主生產環境的困難。綜上所述,當前災備環節還存在一些技術難點,數據恢復有效性難以保證。(二)(二)云服務故障頻發,云災備管理體系建設仍需完善 云服務故障頻發,管理欠缺是不可忽視的因素。隨著越來越多企業采用云服務來實現其所需的數字業務成果,云安全故障將成為企業和組織需要考慮的重要問題。近幾年,由于管理欠缺導致的云安全事件層出不窮。例如,某公司
19、核心數據遭內部員工刪除,導致公司網絡業務大面積崩潰,應用程序全部處于宕機狀態,8 天之后數據恢復上線,未做到管理分權是事故的重要原因;某云端協同辦公工具大面積服務中斷,耗時近 7 個小時才從備份系統中恢復上線,原因是運維團隊升級操作導致服務器誤下線,這也體現了缺乏嚴格的操作審批和管理流程帶來的嚴重后果。應提高對云災備管理的重視程度,建立健全的管理體系。盡管云災備意味著企業可以將數據備份技術需求委托給第三方服務提供商實現,但從準備備份到災難恢復,企業的持續管理不可或缺。云災備建設除復雜的技術要求外,更重要的是大量數據的集中整合、災備策略和方案的執行、日常審計告警監控、人員的組織分配等管理要求。事
20、實證明,許多云服務故障問題都屬于管理體系建設范疇,管理難也成為許多企業在規劃和使用云災備系統時面臨的巨大挑戰。因此,在云災備產品層出不窮、相關規范不夠完善的當下,亟需提高對云災備管理的重視程度。通過建設統一的云災備管理平臺、智能化的運維保-8-障體系以及建立健全的備份容災措施、應急接管機制、訪問控制機制等,都有利于大幅提升業務的穩定性、可靠性及可運維性。(三)災備產業上下游難以兼容,亟需加強產品適配 災備產品適配和對接面臨挑戰,加大了企業災備建設難度。在過去幾十年災備方案的演進過程中,企業都是采用漸進式迭代方案,新老技術和系統共存,導致產品不適配問題日漸突出,這為更多企業進行新型災備建設、適應
21、云災備時代造成了困難。目前市面上大多數存儲產品的架構都是基于數年前的用戶需求設計的,并且由于近些年數據體量的急速增長和數據維護成本的提高,很多企業沒有對數據存儲產品進行及時更新換代。對于云災備軟件廠商來說,面對多樣化的生態,很難做到豐富全面的適配和對接。從需求側來看,客戶也很難自主靈活選擇最優最好用的災備服務。在未來的云災備環境下,存儲架構的改變是必然趨勢,存儲系列產品將更需要軟硬結合、高度集成,要求整個存儲系統擁有更強的底層適配能力。比如,災備軟件可以通過與云平臺的 RESTful API 進行接口級對接,自動創建災備所需云資源,實現一鍵備份上云、一鍵恢復到云、一鍵容災到云。亟需加強云災備上
22、下游產品適配,促進災備軟硬件生態的發展。目前國內企業大多采用過時的堆疊架構進行災備軟件部署,即在服務器上部署簡單的災備軟件,沒有采用專用的軟硬件災備架構,在一定程度上影響了災備質量,不利于提高災備可靠性和降低災備成本,導致企業災備能力不足和投資意愿降低。目前國內災備服務提供方的產品以閉源商業軟件為主,單個廠家面臨多樣化應用生態的挑戰。很多-9-獨立的災備軟件產品已發展十年有余,至今無法廣泛應用于關鍵產業。因此,鼓勵災備廠商逐步開源自研的災備軟件,和存儲、軟件廠商通過開源方式共建生態,有望緩解和解決上下游產品不適配問題,有利于打造高質量、自主可控的災備產業體系。(四)災備數據缺乏利用,數據價值有
23、待挖掘 災備成本高、數據量大,易造成數據資源浪費。隨著兩地三中心甚至三地五中心災備方案逐漸成為主流,災備成本越來越高,災備的業務數據量也越來越大,高昂的成本讓更多中小型企業用戶望而卻步。IDC 調研顯示,82%的企業每個數據庫有 10 個以上的副本,這些數量龐大的副本數據意味著高昂的存儲資源和維護開支。Forrester表示,企業有 73%的數據從來沒有得到任何利用。因此,很多企業真正投入使用、實現價值挖掘的數據量可能只是企業所擁有數據的冰山一角。但是,這些低利用率的“暗數據”可能成為企業未開發的最大“金礦”,如果找到“暗數據”的利用價值,會帶來可觀的收益。盤活“暗數據”,促進數據再利用,推動
24、災備建設效能。如果充分利用占據企業大量存儲資源的備份數據,那么災備建設將注入新的活力。如何通過“暗數據”管理和運營,真正實現數據驅動發展,已經成為加速企業數字化轉型步伐的關鍵。業內已提出相關的副本數據管理(CDM)解決方案,結合脫敏技術實現開發、測試、統計分析等場景的副本數據再利用,實現了數據的降本增效?!皵祿斓奈磥硎巧显啤?,因此在云數據庫快速增長的未來,盤活云上備份數據,發掘數據潛力,使備份數據不僅用于生產端數據遷移、災難恢復,還可以用-10-于非生產端的智能分析、決策輔助、開發測試、查詢審計等場景,將顯著提高數據再利用率,促進更多企業的災備建設投入,從而推動災備建設效能。三、三、五大措施
25、夯實企業云災備建設之路五大措施夯實企業云災備建設之路 (一)云災備建設需求分析,保障災備建設可行性 云災備建設需求分析著力于業務需求、成本分析、資源評估,保障云災備建設的可行性。在企業云災備建設的前期,需要明確企業對于云災備建設的基本要求和指標,同時調研企業硬件和軟件等方面的基本情況,為云災備建設規劃提供數據支持。在災備需求方面,高度匹配企業業務需求,助力云災備框架搭建,解決云災備技術難度大、復雜性高的問題。首先是了解企業的業務流程和企業系統,如目前的數據規模,每日新增數據等,分析云災備建設所需的存儲空間和數據恢復的需求,從而評估企業所能接受的恢復時間目標和恢復點目標。除此之外,隨著數據安全和
26、用戶隱私需求的提高,云災備建設也需要采用數據加密、訪問控制等安全措施,保證災備系統的安全性。在成本分析方面,云災備級別適配災難風險級別,支撐云災備建設降本增效。結合企業的地理位置進行災難風險性級別評估、災難損失等因素,確定可能造成的數據損失和成本損失,為建設規劃設計奠定基礎。當災備級別越高,備份數據規模越大時,云災備的建設成本就越高,同時,云災備建設還需要考慮后續的運營和維護成本,綜合-11-考慮企業的災備需求來選擇災備業務范圍和災備級別。在資源評估方面,通過調研企業軟硬件資源,加強云災備建設的兼容性。調研要求對企業的數據規模和硬件資源等進行綜合分析,根據具體的情況決定云災備建設的建設規劃和方
27、式,充分考慮產品適配性,在原有資源和設備的基礎上進行建設,從而有效地降低災備成本,確保災備建設計劃的可行性。(二)云災備建設規劃設計,提升全流程建設效能 規劃設計的目標是幫助企業明確云災備建設的基本架構,保障建設的實施。根據對企業資源、設備、成本的評估,可以設計適用于企業需求和云服務提供商的云災備建設規劃。根據用戶對災備目標的要求,結合災備平臺能力要求制定建設規劃細節,確定云災備建設方案,如備份一體機,混合災備云等災備方案,根據方案的優點和缺點,選取最佳方案以及云災備建設階段的規劃。云災備體系包括數據備份、應用容災、災難接管、應急演練等部分,根據不同的功能需求,采用相應的資源部署措施。首先制定
28、數據備份/應用容災策略,確定備份數據范圍、數據備份方法、應用容災方法等,如 CDP 實時備份、全量備份、定時增量備份、基于日志的數據容災、基于塊的數據容災等,保證數據的完整性、可用性、復制的時效性。其次,需要制定恢復或接管策略,確定故障發生時數據恢復或業務容災的流程,如全量恢復、差異恢復、點對點恢復、業務接管等,通過提取最近的備份點數據恢復或數據快照節點等方式,以此適應不同類型數據的恢復需求。業務容災可采用自動化容災管理策略,-12-按照恢復優先級和順序,進行業務系統啟動、數據庫啟動、網絡切換等,從而實現業務系統容災。最后,企業應建立應急預案體系,建立災難預警機制,提前梳理業務系統恢復優先級、
29、恢復步驟,提前預制到災備平臺中,同時采用預警觸發條件、通知預警方式等,保障災備平臺的快速響應、通知、應急恢復。(三)云災備建設方案實施,穩妥高效推進云災備建設 根據云災備建設規劃方案,落實基礎設施部署、企業數據備份、災備方案部署的流程,建設方案實施的目標是完成企業數據的云上備份以及云災備系統的建設和完善。在基礎設施部署方面,基于現有設備進行部署,實現資源兼容、降低成本。首先是存儲硬盤的搭建和選取,根據數據容量、吞吐量等要求,選取合適的存儲硬盤。其次是建設云環境,設計組網方案部署服務器、交換機、防火墻并完成相關的網絡設置和路由配置,驗證云平臺和硬件設施之間的可兼容性,保障云災備建設體系的可用性。
30、企業數據備份方面,推動災備建設規劃,實現企業數據定期完整備份。完成基礎設施的建設后,可以采用云平臺自有的遷移或備份工具,或者利用第三方專業遷移與災備產品實現業務系統和數據的上云遷移與云上災備。在這個過程中需要保證數據在災備平臺的完整性和一致性,明確數據遷移所需的時間和備份周期,采用定期全量備份、增量備份等方式,適應災備建設的需求。災備方案部署方面,完善策略設置,適應企業需求。根據數據和業務的不同的恢復要求對應不同的故障恢復策略,保證出現故障時的-13-快速恢復。同時,為滿足監控預警功能的需求,云災備建設實施方案需要部署關鍵指標的監控、預警閾值和告警方式,保障災難發生后的快速響應和通知。(四)云
31、災備建設賦能數據管理,技術創新助力降本增效 云災備建設賦能企業數據管理,采用關鍵性創新技術,助力云災備降本增效。云災備建設所需要的備份技術、存儲技術不斷發展創新,能夠實現數據的有效管理、帶寬和存儲容量的減少,為災難發生后的及時恢復提供了堅實的基礎。采用重復數據刪除技術、增量備份、快照等技術,實現高效數據備份。重復數據刪除技術可以通過識別重復備份,降低設備的存儲壓力,同時提高備份效率。增量備份策略在首次備份時采用全量備份,對數據變化進行監測,當數據更新時選擇增加的數據進行備份,可以節省帶寬和存儲空間??煺盏膶憰r復制技術和寫時重定向技術可以創建快照數據指針表,減少備份所需占用的存儲空間,有效地提高
32、恢復速度。數據存儲方面的技術有存儲虛擬化、橫向擴展、分布式存儲等。存儲虛擬化等技術能夠實現對異構存儲設備進行統一的管理。橫向擴展存儲技術的發展解決了縱向擴展存儲技術受到控制器性能限制的問題,提高了存儲容量的靈活性。采用橫向擴展技術的分布式存儲技術可以實現冗余備份,提高數據的故障恢復能力。(五)云災備建設效果評估,促進企業災備能力持續提升 -14-云災備建設效果評估賦能災備運營,保障災備演練覆蓋災難場景,解決云服務故障頻發的問題。云災備系統的建設難點不僅在于建設過程中的框架規劃,還在于建設完成后的災備運營。為確保云災備系統的穩定,需要進行災難備份效果的常態化測試和評估,驗證云災備系統的有效性,不
33、斷迭代優化云災備方案。評估方案要求通過對不同故障場景、災害場景的模擬,記錄數據恢復情況。推動災備運營常態化,落實評估指標部署、預案演練管理、演練結果分析。首先,確定評估指標,如數據恢復完整度、數據恢復時間目標(RTO)、數據丟失點目標(RPO)等,并根據評估指標確定評估方案。其次,為獲取效果評估記錄,設計適用于不同災難場景的云災備模擬演練預案并進行體系化管理,通過模擬災難發生導致的數據丟失等問題,測試云災備系統的響應速度和恢復時間。最后,根據災難演練記錄,結合建設需求進行綜合分析,對災備方案的不足之處進行改進和調整,落實到日常的監控和巡檢,定期進行云災備建設的效果評估,促進災備能力的提升和優化
34、。四、四、企業云災備建設實踐企業云災備建設實踐 (一)蕪湖市政務云同城異構災備建設案例 1.項目背景 蕪湖市政務云建設起步較早,已經發展為城南政務云計算中心、城東政務云計算中心、超算中心等多云共存的格局,實現了全市黨政機關具備上云條件的信息系統應上盡上,系統和數據統一匯聚在-15-蕪湖市政務云平臺。并在異地宿州數據中心部署云災備平臺,對所有需要保障的業務系統和數據進行一體化實時備份,實現蕪湖市政務云互聯網區和政務外網區的異地災備。近來,為了響應關于進一步提升全省政務云災難備份能力的指導意見(皖數資202129 號)的政策號召,決定建設同城應用級災備中心,將核心業務系統及重要數據災備至同城災備中
35、心,強化政務云的容災抗毀能力,確保災難發生時關鍵業務不中斷、數據不丟失。2.面臨的主要痛點和難點 面向蕪湖市政務云環境的同城災備中心,基于云管平臺可實現硬件資源和軟件資源的統一管理、統一分配、統一部署、統一監控、統一策略管理和統一權限管理。但在建設過程中,面臨著諸多難點:1)容災指標要求高,需實現分鐘級保護和恢復。蕪湖市各委辦局關鍵業務持續上云,數據呈現爆炸式增長,海量規模業務級容災需要消耗大量的時間和資源。2)業務連續性要求高,核心系統要求業務持續不間斷。蕪湖市政務云承載著海量數據共享、交換和智慧政務服務快速響應等的需求,在業務宕機后,如果不能第一時間拉起接管原業務會帶來巨大損失。3)在確保
36、數據安全、業務可用性的同時,如何充分挖掘數據價值是一個重要的問題。蕪湖市政務云災備體系不僅要能夠實現各類應用、系統、數據的靈活容災備份,還要能夠進行常態化的演練測試、業務實訓,及新應用軟件上線、升級測試驗證等。3.災備系統建設方案 -16-災備建設遵守內外網相互隔離的原則。采用“1 主生產中心+1應用級災備中心”的方式建設同城災備體系,城東政務云計算中心為主生產中心,分為政務外網區和互聯網區,通過萬兆裸光纖與同城應用級災備中心互聯。在同城災備中心部署 CloudSure 云災備平臺,與云平臺的RESTful API 進行接口級對接,備份數據從業務系統傳輸到災備存儲以統一格式進行保存。在需要應急
37、接管或仿真演練時,通過CloudSure 提供的能力直接基于災備數據按需拉起應急或演練主機,提供業務訪問或演練驗證。當生產中心(華為云)出現故障時,通過同城災備中心(浪潮云)即可快速應急接管和數據恢復,將災備數據恢復至原環境或異構的新環境,保證系統及數據的可靠性、安全性、穩定性。CloudSure 支持異構云之間的數據復制,無需提前部署與源端一對一的災備主機,可以在不受原有平臺廠商的限制下,節約云計算資源的消耗,降低災備整體成本,真正發揮出云的彈性能力。圖 1 蕪湖市政務云同城異構云災備實踐架構圖 4.項目建設效果 -17-方案融合了湖市政務云的云平臺服務能力與 CloudSure 云災備技術
38、能力,適應云和大數據環境下,業務快速接管和數據零丟失的要求,實現了各委辦局的數據級災備(文件備份、整機備份、數據庫備份)和應用級災備(政務外網區域、互聯網區域),不僅能夠解決不同架構云平臺間的災備難題,也避免同構云系統底層出現問題而帶來的災備失效風險,提高用戶核心業務系統抵御業務連續性和數據丟失的風險能力,將災難造成的損失降到最低。同時,災備中心單應用系統切換方式、多個應用群切換方式及災難備份中心整體切換方式,增強了業務系統的高可用,大幅度提升蕪湖市政務云整體的運行管理水平,降低建設成本,減少運行能耗。蕪湖市政務云同城災備體系的建設完成,進一步夯實了市政務云安全保障體系的基礎,為發展數字蕪湖筑
39、牢了根基。(二)廈門市政務云多云異構災備云建設案例 1.項目背景 廈門政務云已經發展為由自建市政務外網云平臺、電信政務云服務平臺、浪潮政務云服務平臺、騰訊政務云服務平臺、廈門鯤鵬超算中心等多云共存的格局,形成一中心+N 朵政務服務云的架構,為全市提供政務智慧化動力。根據廈門市政務數據中心整合實施方案、廈門市“十四五”數字廈門專項規劃-政務云優化升級工程 要求,加快構建“物理隔離、邏輯統一、資源共享”的政務云服務體系,提供異地災備統一服務。近年來,廈門市政務云構建了兩地三中心災備體系,對所有政務-18-云平臺上的業務系統和數據提供本地同城災備,對關鍵業務系統及重要數據提供統一異地災備服務,強化政
40、務云抗風險能力,提升關鍵政務業務系統連續性、確保政務數據數據安全不丟失。2.面臨的主要痛點和難點 多云異構云災備:廈門市各委辦局業務持續上云,數據呈現爆炸式增長,業務數據存在于多種云環境中,多云架構下出現了海量虛機保護管理難,數據跨云容災、異構遷移恢復困難等問題。共享式災備:規劃按照統一災備服務目錄建設面向廈門市政務云環境的統一異地災備服務中心,保障數據的完整、安全及可靠性。建設一體化、標準化的災備服務及管理體系,實現災備資源的智能預測規劃、統一監控管理,升級政務數據災備服務支撐能力。統一災備運營管理:規劃采用“N 朵政務云+1 個同城災備中心+1個異地災備中心”的方式規劃建設政務云體系,推進
41、災備中心的標準化、規范化建設,統一納管。實現 N 朵政務云上各類政務系統、數據的靈活備份容災,并提供智能化的數據校驗、災難恢復演練等服務。3.災備系統建設方案 根據“3-2-1-0 原則”廈門政務云構建了數據災備體系。規劃建設軟件園電信/移動機房/信息中心機房本地備份中心及同安同城災備中心實現 3 份數據拷貝、2 種存儲介質,規劃建設泉州異地災備中心實現 1 個異地備份,有效抵御火災、臺風、洪水等自然災害對數據造成損毀。通過數據不可變存儲、強制數據保留、Air-Gap 等技術對災備環境與存儲進行加固,有效預防勒索病毒攻擊,實現備份數據-19-不可篡改。通過共享式災備云中心的建設,一套災備系統全
42、面覆蓋浪潮云、騰訊云、電信云、超算云等多個政務云平臺,實現多云數據統一保護,支持云主機、云數據庫、對象存儲、大數據服務、容器服務全面保護。消除云平臺之間的“壁壘”,數據可在異構云平臺間自由流動,實現業務的靈活部署,政務外網云上的業務系統的備份數據,可以通過異地共享式災備云中心快速恢復到浪潮云、騰訊云、電信云等政務云平臺。支持云平臺級故障、跨云災難恢復等場景。通過統一災備可觀測管理平臺,提供多個數據中心、多套災備平臺統一的災備運營管理,如統一策略、統一監控、統一報表等能力;提供統一災備可觀測能力,如 RTO/RPO 分析、災備資源預測管理、監控與告警等。提供畫布式災難恢復計劃編排,覆蓋演練、切換
43、、回遷環節,提供業務可用性驗證和數據一致性驗證,確保數據正確恢復;自動化輸出可自定義的災難恢復及演練報告,涵蓋計劃、過程、結果完整流程,滿足合規性監管要求;通過日常自動化的災難恢復演練,提升組織熟練應對災難的能力和驗證災備系統的災難恢復能力。-20-圖 2 廈門市政務云兩地三中心多云災備實踐架構圖 4.項目建設效果 方案實現了廈門政務云的多云異構下的統一云災備,并通過零信任數據安全技術能力全方位抵御勒索病毒,實現了政務系統的數據級災備(整機備份、數據庫備份、文件備份)和政務云平臺級災備,提升了關鍵政務系統業務連續性,降低政務重要數據安全風險。同時,共享式災備云建設模式,統一災備可觀測管理平臺,
44、日常自動化的災難恢復演練,從事前、事中、事后全流程提升廈門市政務云災備建設運維管理效能,節約大量財政資金投入。廈門市政務云兩地三中心災備體系的建設完成,實現廈門市災備云資源統一運維、安全統一監測、災備成效大屏統一展示、異地災備統一服務、災備數據統一管理;升級政務云安全支撐能力,為政府業務數字化轉型提供強有力的技術支撐與保障。(三)浙江某連鎖餐飲企業云上跨 AZ 災備建設案例 1.項目背景 -21-隨著浙江某連鎖餐飲企業的快速發展,該企業對相應配套的 IT服務穩定性要求也越來越高。由于近幾年云計算、容器等技術的不斷成熟,該餐飲企業計劃采用移動云上產品支持跨可用區(AZ)部署的能力,保障業務系統的
45、高可用性和可靠性。2.面臨的主要痛點和難點 業務連續性要求高:該企業當前業務系統部署于同一個資源池,部署環境單一,災難應對能力十分有限。一旦生產業務發生故障,將直接導致業務中斷,這對服務型企業將產生重大影響和直接的經濟損失。因此,企業不僅需要建設災難恢復能力,還需要提高當前業務系統的可靠性。部署擴展性要求高:該企業門店擴張迅速,這對生產環境以及災備環境部署模式的擴展性要求較高。同時,一天內用戶就餐時間較為集中,屬于業務高峰期,系統需具備抗壓和擴容能力。而傳統災備方案需要針對每一臺主機進行對接并管理,難以滿足需求。災備建設預算有限:傳統災備建設方案成本高、維護難,并且建設僅有備份能力的災備環境,
46、容易造成資源浪費。因此,該企業尋求在有限的預算內,能夠滿足系統高可用和資源有效利用的災備建設方案。3.災備系統建設方案 本案例是在云上采用容器服務、RDS 通過跨可用區部署,實現云上跨 AZ 的災備方案。方案架構如下圖所示:-22-圖 3 云上跨 AZ 災備架構圖 在應用層為了實現高可用架構,計劃采用容器化集群部署,同時為了實現災備能力,最終采用了容器集群在云上通過跨 AZ 部署的方案。首先容器的 master 節點和 worker 節點需要優先分布到不同可用區,并通過設置工作負載親和性/反親和性規則,使 Pod 可分布在不同可用區、不同節點上運行業務。在網絡層利用云解析、全局流量管理服務的產
47、品能力,搭配可自定義配置的調度策略,在用戶訪問應用時生產中心若發生故障,全局流量管理服務會根據用戶策略設置,實現全業務流量自動切換至災備可用區域。此外,在各個可用區內部可開啟負載均衡,實現應用高可用。在數據庫層,由于分別部署在兩個可用區的容器應用屬于同一個集群,所以數據庫仍需共用,同時為了實現數據庫的備份能力建設,-23-因此也選擇通過跨可用區部署 RDS 主備實例的方式,實現同城級別的容災備份。云上 RDS 主備實例類型可以實現快速自動恢復,滿足數據實時災備等多種應用場景。4.項目建設效果 本案例中,由于兩個可用區部署的應用屬于同一個容器集群,并且數據庫采用了經典的主備實例,因此業務應用和數
48、據庫都已基于產品特性實現了實時同步的能力;網絡方面則通過流量管理策略,實現分鐘級業務流量切換的功能。該災備方案架構不僅保障了業務系統的高可用,在資源利用、建設成本以及部署擴展性方面均具備一定優勢。五、五、云災備發展展望云災備發展展望 (一)災備系統兼容性不斷加強,災備行業生態日益開放 災備系統需要兼容不同的業務系統和應用,進一步增強災備行業的開放性。災備廠商之間應加強合作,共同制定標準和規范,如制定標準化接口和協議、規范災備系統與業務系統的數據格式、支持兼容多種應用等,推動災備系統的兼容性,建立開放的災備行業生態,促進產業鏈上下游各企業的協同發展。在上游,災備軟件和解決方案提供商應積極投入產品
49、兼容性的研發和測試,通過與不同硬件設備和其他軟件的兼容性,用戶可以更加靈活的搭建災備系統,最大限度地利用資源,提高系統的可靠性和性能。在下游,硬件供應商可以制定開放的接口和標準,以確保其產品與其他廠商的災備軟件和解決方案的兼容性,保障用戶可以按需選擇災備設備,同時能夠與其它廠商的軟-24-件無縫集成。加強災備系統的兼容性能夠促進災備產業的創新和技術進步,使用戶能夠根據實際需求進行靈活的組合和使用,以滿足災備策略和業務需求的變化,為用戶提供更靈活、更可靠、可選擇性高的災備產品和解決方案,有效降低集成和部署成本。(二)災備數據應用場景不斷擴展,聚焦挖掘數據新價值 企業在災備建設方案中將更加注重數據
50、的價值釋放和智能化應用。隨著技術的不斷進步,企業對災備數據利用的重視程度不斷加深,云災備建設的新模式聚焦副本數據再利用,借助CDM(副本數據管理)等技術,不僅能夠對生產環境的數據進行備份,并在非生產存儲上形成黃金副本,它的數據格式是原始的磁盤格式,可再虛擬化成多個副本直接掛載給服務器,分別用于備份、容災、研發、測試、數據分析等場景,提高了災備數據的多場景應用效能。企業還將能夠利用先進的人工智能和機器學習算法,對災備數據進行更深入的分析和挖掘,從中發現更多商業價值和機會。未來,災備數據不僅僅用于業務的恢復和保障,還將成為企業實現數字化轉型和創新發展的重要動力之一。災備數據的價值不斷提升,更能夠推
51、動企業云災備建設的落地,通過將災備數據與業務測試、業務運營、運維等方面緊密結合,企業能夠更加靈活地應對市場變化和競爭挑戰。(三)依托云災備標準體系,逐步提升云災備建設成熟度 依托評價模型,推動成熟度發展?,F行的國家標準對災難恢復系統的能力進行了明確的定級并且提供了一定的建設框架,但是涉及到-25-具體災備產品的能力要求和建設指引仍然存在空缺,需要進一步完善。同時,云災備理念的實施不僅是平臺工具的建設,更是戰略規劃的改造。在云災備的落地實施層面,企業需要制定適合的戰略規劃,具備充分的組織力量以及戰略實施所需的保障,這與企業整體的經濟基礎、組織架構規劃等方面高度相關,并且是一個分步實施且持續優化的過程。云計算標準和開源推進委員會(TC608)聯合多家企業編制云災備容災解決方案、云災備服務能力分級評估、災備管理平臺能力要求、災備一體機能力要求、中間件容災能力要求等標準,針對云災備建設的實施提供了更加細化的指引,旨在推動云災備成熟度的逐步提升。