1、云掣科技云運維服務白皮書(2023)版權聲明版權聲明本報告版權屬于杭州云掣科技有限公司(簡稱云掣),并受法律保護轉載、摘編或利用其他方式使用本報告文字或者觀點的,應注明“來源:杭州云掣科技有限公司(簡稱云掣)”。違反上述聲明者,本司將追究其相關法律責任。云掣科技云運維服務白皮書(2023)編制說明近幾年,云計算在中國發展得如火如荼,得益于此政府和企業的數字化轉型進程也都得到了加速。同時一系列的問題也隨之而來,例如如何管理云資源、如何在云上構建合適的應用架構、如何保證系統的穩定性和安全性、如何快速應對業務需求等等。只有很好地解決掉這些問題,才能讓企業更好地利用到云計算的優勢,才能更快地實現數字化
2、轉型。本白皮書首先總結了企業用云面臨的多方面挑戰,包括云上系統規劃的挑戰、面向云和云原生運維體系建設的挑戰、云上安全以及成本控制和優化的挑戰。其次描述了云運維服務公司需要具備的技術能力、需要遵循的流程規范制度,以及提升運維效率所需的相關產品和工具。然后提出了云掣基于多年實踐經驗總結出來的數據化可觀測運維解決方案以及云運維服務解決方案,并介紹了這些產品和服務在多個行業的企業數字化轉型和應用過程中的實際案例。最后展望了云運維服務的發展趨勢。編寫單位:編寫單位:云掣科技編寫指導:編寫指導:寧海元、王徐編寫小組(按照拼音首字母排名):編寫小組(按照拼音首字母排名):操潤貼、陳靈琪、陳玉、黃昊哲、晉得情
3、、吳博文、岳航普、張新銘、趙曉宏、鄭曉亞云掣科技云運維服務白皮書(2023)目錄目錄一、云計算發展最新進展.1二、企業擁抱云計算面臨的挑戰.1一、云計算發展最新進展.1二、企業擁抱云計算面臨的挑戰.1(一)云上系統規劃.1(二)運維體系建設.2(三)大數據系統運維.3(四)云上安全.3(五)成本控制和優化.4三、云運維服務概述.4三、云運維服務概述.4云運維服務商通常需要具備幾大核心能力:.4(一)技術能力.5(二)服務規范和體系.61 上云階段.62 云上運維階段.7(三)產品和工具支撐.8四、數據化可觀測運維解決方案.8四、數據化可觀測運維解決方案.8(一)可觀測理論.91 可觀測和傳統監
4、控的區別.10(二)統一運維可觀測套件產品核心功能.101 端到端全鏈路監控.112 全息業務監控.113 應用監控.134 資源監控.145 前端監控.146 智能告警.15(三)運維可視化解決方案.151 業務全景監控.17云掣科技云運維服務白皮書(2023)2 核心數據庫運維監控.173 云原生K8S 集群監控.184 云運維監控.185 網絡安全攻擊態勢.196 數據中心運維監控.19五、云運維服務解決方案.20五、云運維服務解決方案.20(一)遷云服務.201 云上架構設計.202 遷移實施.21(二)應用系統運維托管服務.221 云產品運維服務.222 系統運維服務.223 應用運
5、維服務.234 網絡運維服務.235 基礎安全服務.236 成本優化服務.24(三)數據庫運維托管服務.24(四)大數據運維托管服務.25六、客戶案例.27六、客戶案例.27(一)案例1、統一運維可觀測套件產品的全鏈路監控案例.271 項目背景.272 客戶痛點.273 核心需求.274 全鏈路監控方案建設.275 結果與價值.30(二)案例2、知名證券機構核心大數據平臺升級之路.301 項目背景.302 核心需求.31云掣科技云運維服務白皮書(2023)3 主要難點.314 解決方案.335 項目成果.35(三)案例3、基于EASYMR 的大數據運維實踐.361 項目背景.362 客戶需求.
6、363 解決方案.364 項目成果.38(四)案例4、混合云網絡建設.381 項目背景.382 客戶需求.393 主要難點.404 解決方案.405 項目成果.41(五)案例5、知名房企數據化可觀測運維實踐.411 項目背景.412 業務需求.423 解決方案.424 客戶收益.44(六)案例6、FINOPS實踐-云成本優化案例.441 云上資源費用問題.442 統一運維可觀測套件產品成本優化模塊.453 成本優化真實案例.454 案例總結.46(七)案例7、某煙草集團互聯網營銷平臺升級之路.471 項目背景.472 核心需求.473 主要難點.47云掣科技云運維服務白皮書(2023)4 解決
7、方案.485 項目成果.54(八)案例8、數據庫高可用架構建設.551 項目背景.552 客戶需求.553 解決方案.554 客戶收益.56七、云運維服務展望.57七、云運維服務展望.57(一)云原生技術運用更加深入.571、應用架構更適合云原生.572、數據庫和大數據集群云原生化.573、基礎設施即代碼(IaC)技術使用.574、持續交付模型升級.58(二)AIOPS 和可觀測技術結合,在運維中起到重要作用.581、集群水位智能預測.582、故障自動分析和自愈.58云掣科技云運維服務白皮書(2023)第 1 頁一、云計算發展最新進展一、云計算發展最新進展在全球數字化變革的背景下,為適應數字經
8、濟環境下企業生存發展和市場變化的需要,企業進行主動的、系統性、整體性的數字化轉型升級。大數據、云計算、人工智能、區塊鏈等新一代信息通信技術為企業的數字化轉型提供了強大技術支撐。國家“十四五”規劃中提出,云計算、大數據、人工智能、物聯網、工業互聯網、區塊鏈等數字經濟重點產業,是數字經濟的重要組成部分,在教育、醫療、交通、養老、家政等領域下都有重要的應用。云計算以技術為驅動,具有靈活、安全的特征,在成本上也有優勢,同時在政府各類政策的支持下,發展迅速,據艾瑞咨詢調查,云服務市場增長穩定,2022 年預計整體云服務市場將達到 4769 億元,增速為 42.8%;整體 IaaS 市場在 3021 億元
9、,增速在 37.2%,整體 PaaS 市場在 636 億元,增速在 51.3%。云計算應用發展呈現出幾個特點:云計算應用發展呈現出幾個特點:隨著政策引導和云計算技術發展,更多的行業將業務運行在云上,從互聯網拓展至政務、金融、工業、醫療、交通等傳統行業。云上應用架構持續升級,普遍采用 IAAS、PaaS 層產品,更多的應用采用容器化、微服務化和云原生技術。數據作為企業的核心資產,重要性凸顯,企業在大數據系統上的投入持續增加,更多企業選擇在云上搭建大數據平臺。企業使用云的形態多樣,公共云、自建專有云、多云和混合云多形態并存。二、企業擁抱云計算面臨的挑戰二、企業擁抱云計算面臨的挑戰(一)云上系統規劃
10、(一)云上系統規劃云計算技術發展迅速,為企業帶來便利,但是因為云計算技術本身的復雜性,不同云廠商提供的產品種類繁多,缺乏統一標準,這給企業使用云計算帶來各方面的挑戰。云掣科技云運維服務白皮書(2023)第 2 頁各個云的產品矩陣(計算、數據庫、存儲、中間件、安全產品、監控)不同,需要根據企業需求和應用技術架構挑選合適的產品、規格、配置。不同云廠商底層技術架構和機房分布存在差異,需要設計應用系統的高可用架構、容災方案、數據備份和恢復方案,避免由于云廠商技術架構或單機房物理故障導致業務受損。網絡規劃方面,云上不同區域間、多云和混合云之間、云上和線下 IDC 機房間的網絡連通性方案和網段劃分,需要提
11、前規劃。對于企業內部的一些專有系統和專用軟件(如 ERP、大型商業數據庫),需要測試驗證和云的適配性、兼容性問題。(二)運維體系建設(二)運維體系建設隨著越來越多的企業選擇在云上構建和運行核心系統,如何構建云上運維體系這一問題也日益凸顯。構建運維體系的目標,首先是保障業務系統能穩定、高效、安全的運行,還要保證業務需求能快速地交付,包括云上基礎環境構建和應用系統代碼發布更新?;A資源方面,基礎資源方面,需要統一管理多個云平臺下的各類資源,包括計算資源、存儲資源、網絡資源,需要保障資源可用性,識別繁忙資源、空閑資源。應用架構上,應用架構上,云原生技術的廣泛使用,應用微服務化、容器化,應用架構變得更
12、加復雜。應用系統調用鏈路復雜,使用傳統的監控技術已經無法滿足快速定位根因、快速排障的要求??捎^測性理論為復雜系統的根因分析提供了系統化的支撐,現代可觀測系統通常具備指標、日志、分布式鏈路追蹤三大核心能力,不僅能發現系統的問題,還能分析引起問題的根本原因。應用交付上,應用交付上,如何構建代碼管理和持續集成、持續部署一體化流程,實現系統自動化部署、藍綠發布和灰度發布,也是運維體系中的一個重要環節。云掣科技云運維服務白皮書(2023)第 3 頁(三)大數據系統運維(三)大數據系統運維隨著數字化轉型的深入開展,數據作為企業的核心資產,重要性更加突出。大數據平臺的構建和使用,已經成為各個行業的基本需求。
13、大數據系統的構建和運維,需要解決平臺選型、數據安全和隱私、平臺運維等幾方面的問題。大數據平臺選型:大數據技術棧下,組件繁多,包括底層的計算平臺、調度系統、存儲引擎、數據分析引擎等,不同組件之間需要選擇合適的版本,并解決組件間的兼容性問題。數據安全和隱私:大數據系統中存儲了企業內部各方面的重要數據,需要保障各個層面的數據安全性,包括大數據存儲安全、大數據傳輸安全、大數據處理安全、大數據使用安全,可以通過數據加密、訪問控制、身份認證、權限控制等方法實現。大數據運維不僅包括集群部署、版本升級、服務啟停、監控、告警、作業調度等基礎的運維工作,還需要負責性能調優、資源伸縮、故障處理等工作,以確保大數據的
14、穩定高效運行。企業普遍缺乏掌握大數據技術的專業化人才,面對龐大的 Hadoop生態圈和不斷的技術發展,大數據運維變得越來越困難。(四)云上安全(四)云上安全使用了云計算,安全問題依然不可忽視。雖然云廠商提供了各類安全產品,但是如果企業缺乏相關的安全制度,云上系統依然會存在安全隱患。以下情況都會導致安全問題:操作系統和系統應用存在漏洞,未及時修復,容易被黑客利用。操作系統和數據庫存在弱密碼甚至無密碼的情況,一旦被惡意軟件掃描,容易被滲透。未采用合適的安全產品,或者未正確配置安全產品。比如未正確設置網絡訪問策略、白名單,內部資源暴露在公網,被外部惡意掃描、攻擊。未對暴露在公網的服務配置 DDoS
15、防護、Web 應用防火墻策略,導致 SQL 注入、Webshell、XSS 攻擊等風險。云掣科技云運維服務白皮書(2023)第 4 頁缺乏有效的安全事件響應機制。當遇到各類安全事件時,未能及時響應處理,導致事件的影響時間加長,影響面擴大。常見的安全事件如 ssh 弱口令爆破、勒索病毒、挖礦病毒、DDoS 攻擊等。內部人員安全意識薄弱,容易出現信息泄漏,比如將明文賬號密碼上傳到代碼版本控制系統,被外部黑客利用。(五)成本控制和優化(五)成本控制和優化和傳統 IT 規劃相比,云有著自己不同的特點,成本優化不能只追求低成本。通常來說企業需要跟隨業務發展階段,綜合考慮云資源的性能、穩定性和成本,并在這
16、三者中找到當前階段的最優解。它是一個持續優化的過程。云提供了極致的彈性,如 OSS 和 SLS 提供無限的存儲能力,MaxCompute 提供了按需擴展的計算能力,這給業務帶來了極大的便利。這些資源通常按使用量來計費,但是當業務產生異常時,可能會消耗大量計算資源、存儲資源、網絡流量,從而產生巨額的資金消耗。典型的問題包括:存放在 OSS 的圖片鏈接被盜用,大量訪問帶來的公網出口流量費用。日志類存儲沒有設置保留周期,沒有及時清理過期日志數據,導致大量占用,而日志類產品往往按占用的空間收費。即使閑置的資源也會產生費用。如彈性 IP、負載均衡設備、塊存儲設備等,即使沒有使用,也會產生費用。三、云運維
17、服務概述三、云運維服務概述云運維服務是由云托管服務延伸而來的覆蓋企業上云全流程的云服務,通常包括咨詢階段服務、建設階段服務和運營階段服務。云運維服務可以幫助企業實現云計算的高效、安全、可靠和靈活地使用,提升企業的數字化能力和競爭力。云運維服務商通常需要具備幾大核心能力:1、技術能力。云運維服務商通常需要具備幾大核心能力:1、技術能力。云運維服務提供商首先需要有一批懂云計算技術和云上應用系統架構的架構師和運維工程師,一個能力強大的服務團隊是做好云運維服務的基本要求。技術團隊需要熟悉云上應用整體架構,熟悉各類云產品(如負載均衡、云服務器、數據庫、容器、中間件、網絡、安全產品、大數據引擎)的使用和配
18、置。云掣科技云運維服務白皮書(2023)第 5 頁2、理論指導能力。2、理論指導能力。云運維服務提供商需要有一套理論體系和標準化的方法論,指導企業在上云和云上運維各個階段的具體實踐。上云階段,使用遷云體系方法來指導遷云工作有序開展,保障各系統能平滑地切換到云上。在企業用云階段,使用運維服務管理體系指導企業云上運維,以保障云上系統穩定、安全、高效的運行,以及業務團隊的需求和新的應用版本能高效率地交付。3、產品和工具能力。3、產品和工具能力。云運維服務提供商在服務的交付和實施過程中,需要借助產品和工具來提升效率,提高云管理的整體水平。在遷云階段,需要使用各類系統遷移和數據遷移工具產品,云上運維階段
19、,需要使用到多云管理系統、可觀測監控系統、應用持續集成和持續發布平臺、運維管理平臺等工具產品。(一)技術能力(一)技術能力云計算技術發展迅速,涉及的技術和產品非常廣泛。從業務系統的架構上看,不同的系統基于各自的業務需求和技術架構特點,使用到的基礎組件通常會包括服務器、數據庫產品、緩存和消息中間件、應用中間件、負載均衡、文件存儲以及安全防護類產品,采用云原生架構的企業,還會使用到容器云如 Kubernetes 技術。從云的形態上,用戶可采用自建專有云、使用各廠商提供的公共云、采用多云架構、使用公有云和自建 IDC 的混合云。在自建專有云的環境下,除了使用云平臺提供的產品和服務,客戶還需要管理整個
20、專有云底座,包括機房和服務器、網絡設備和線路等軟硬件環境。多云和混合云架構下,多個環境之間的網絡如何打通、各個網絡節點之間傳輸數據如何保證數據的安全性,網絡和安全策略的配置也是需要重點考慮的問題。有的企業采用一些專用系統,如傳統的 ERP 系統、OA 系統、數據庫集群,還需要考慮這些系統和云的兼容性。當前,在數字化轉型的大趨勢下,很多企業將大數據分析平臺建設在云上。隨著數據的重要性不斷提升,如何運維好大數據平臺,保障其性能和穩定性,也是很多企業面臨的問題。在面對復雜多變的云計算技術和企業多方面運維管理需求的情況下,云運維服務廠商的團隊需要具備比較完善的技術能力,才能更好地解決客戶的問題。下列技
21、術能力,在云運維服務中比較關鍵:云掣科技云運維服務白皮書(2023)第 6 頁云原生技術能力網絡架構規劃能力應用運維架構能力數據庫能力大數據運維能力基本的安全運維能力一體化應用和系統監控能力(二)服務規范和體系(二)服務規范和體系云運維服務廠商的服務需要遵循一定的規范體系。1上云階段1上云階段企業的系統搬遷到云上,需要依據一定的原則、采取一定的策略、按照一定的步驟來進行。遷云的核心步驟分為系統調研、可行性評估、方案設計、系統改造、功能和性能測試、系統割接或回滾、系統交付和護航。系統調研:調研應用的系統架構、數據庫信息、系統整體工作負載、系統底層部署架構、商業軟件依賴等內容。特別需要調研系統是否
22、使用了傳統行業專業的設備或軟件,如加密狗。通過調研,可以初步評估出系統是否具備上云條件、上云改造難度、云平臺匹配度??尚行栽u估和方案設計:根據前期的調研并結合云平臺特性,對客戶應用做上云可行性分析,并為應用系統構建新的系統架構圖和遷移的改造計劃。系統改造:結合云上環境與產品對原有業務系統進行架構等方面改造。功能和性能測試:在系統上線前,需要對其進行充分的功能驗證和性能測試,評估是否滿足業務。系統割接上線:將業務系統的流量切換到云上系統。系統割接包括切換前的準備工作。系統交付:流量成功切換到云上系統后,正式進入運行和后期運維階段,交付后的技術問題,由專業的售后團隊解決。云掣科技云運維服務白皮書(
23、2023)第 7 頁2云上運維階段2云上運維階段在云上運維階段,有幾個主要的任務:保障業務系統穩定、高效、安全的運行,有序交付系統變更。1、問題發現和恢復能力:1、問題發現和恢復能力:監控是通過一系列的工具和方法,對系統的運行狀態、性能、安全等方面進行實時或定期的檢測和分析,以及在發現異?;蚬收蠒r及時報警和處理。傳統的監控重在發現系統異常。隨著企業對系統穩定性和可用性要求的不斷提高,我們不僅要快速感知系統異常,也要能快速定位系統產生問題的根源,從而實現快速恢復??捎^測性理論體系的出現,就能夠幫助我們在復雜環境中了解上下文,并快速指出問題現象和問題的根本原因,有助于我們回答“何時何地正在發生什么
24、”以及“為什么會發生該事件”這兩個問題。特別是隨著微服務和云原生技術的深入應用,業務系統架構多樣化,調用鏈路更長,就越發地需要通過日志、指標、分布式跟蹤等機器數據進行關聯分析,構建完整的可觀測模型,從而實現故障診斷、根因分析和快速恢復。2、流程制度:2、流程制度:在運維工作高效開展方面,ITIL 體系中的流程和管理方法有重要指導作用。企業云上運維管理流程包括事件和問題管理、故障管理、變更管理、應用發布管理。事件和問題管理:問題是指在日常運維過程中,由客戶提出或主動發現的已知產品缺陷或不正確配置、待解決事項。問題管理的核心目的是將已知問題進行統一跟蹤管理,杜絕問題遺失,防范由于存在薄弱環節或缺陷
25、導致事故的發生,進而將對業務產生的負面影響減小到最低。故障管理:故障管理的主要目標是規范故障處理機制,提高響應速度,及時有效地解決問題,加強對相關問題的跟進與改善,實現故障上報、處理等流程環節的規范化、標準化、有序化管理。變更管理:規范變更的執行制度和流程,避免因變更引起故障。信息系統是由業務系統程序、中間件、服務器、數據庫、網絡、存儲等組成的,同時還有周邊關聯業務系統、監控系統等,因此任何的變更應提前申請,評估變更內容、涵蓋范圍、執行方案、參與方等重要信息,保障業務系統、基礎環境的穩定。應用發布管理:建立一套標準的發布規范與流程,高效管理所有生產環境的發布活動,保證發布以最小代價得以實施。通
26、過規范和標準化發布流程,減少交云掣科技云運維服務白皮書(2023)第 8 頁叉溝通成本;加強應用發布管理,有效控制產品發布過程,將發布風險控制在盡可能小的范圍;通過有計劃/受控的發布操作,隨時掌握軟件開發進度和發布計劃。規范發布準備工作和發布內容,對齊生產環境配置項,提高發布成功率。有效控制和追蹤產品版本,確保所有發布操作可監控、可追溯、可回滾3、安全管控:安全管控:安全管控方面,需要從權限管理,訪問控制,安全審計,主機和系統安全,應用安全、數據安全等維度構建安全體系。(三)產品和工具支撐(三)產品和工具支撐產品和工具是支持云運維服務的重要條件。各家云運維服務提供廠商一般都會基于自身的特點,采
27、用或提供相關的產品。從使用云的階段來分:遷云階段會涉及評估、應用和系統遷移、數據遷移等具體的工作,遷移類工具產品需要具備各種場景的遷移能力,如操作系統鏡像遷移、各類數據庫的遷移、大數據系統數據和任務遷移、對象存儲文件遷移。數據庫遷移是遷云工程中的一項重點工作。異構數據庫之間的結構轉換、全量數據遷移、實時增量數據遷移、數據一致性校驗是數據庫遷移產品需要具備的核心能力。在云上運維階段,會涉及多云管控平臺、多云可觀測監控平臺,在構建基于云原生的系統架構時,通常會使用到持續集成和持續發布相關工具和產品。有的企業也會在云平臺之上,提供特定領域的運維管理平臺,如大數據集群管理平臺。另外還有安全管控方面,堡
28、壘機和數據庫統一管理平臺也是必備的產品。四、數據化可觀測運維解決方案四、數據化可觀測運維解決方案隨著企業分布式應用、云計算的不斷深入發展,業務系統的邏輯結構變得越來越復雜,面對企業運維復雜的環境和海量運維數據,在日常運維和生產運營中,會面臨以下挑戰:(1)多云,多系統,多服務,多數據的中臺架構出現,單獨靠傳統的運維人工分析已經無法適應,導致運維故障定位難,故障恢復時間長,需要新的故障處理手段;云掣科技云運維服務白皮書(2023)第 9 頁(2)云平臺提供的運維監控能力,只能針對本平臺的單一數據來源監控,無法滿足多云的資源監控和業務邏輯監控,需要提供全鏈路的監控手段;(3)故障發現,精準告警,容
29、量水位預估等運維事項需要跨平臺,跨數據域進行數據融合;多端的運維事件處理,需要平臺和流程來支撐;(4)運維數據種類繁雜,數據標準不統一,需要統一數據模型,利用數據化分析手段解決運維問題。傳統的人工運維及其運維工具已滿足不了企業復雜的 IT 業務運維場景。我們需要一種新的技術手段,用于實時追蹤,及時發現和解決問題。數據化可觀測運維思想逐漸被各大企業重視,利用大數據技術來收集、清洗、分析數據,同時結合指標、鏈路等挖掘出更大的價值,讓技術驅動業務已成為現實,也是當下企業的主流方向。(一)可觀測理論(一)可觀測理論近幾年計算機相關技術發展迅速,涌現出了微服務、容器化、自動彈性伸縮服務等技術,從根本上改
30、變了以往軟件架構和運行的方式。這帶來了敏捷開發、架構松耦合、易擴展和管理等好處,可以更高效地利用資源,但同時也導致應用的分散、龐大、調用關系復雜等問題,極大地加劇了開發和運維人員分析問題的難度。因此迫切得需要對已有的監控系統進行變革,這個變革者就是可觀測。什么是可觀測性?可觀測性是指通過系統外部的輸出來推斷出其內部的健康狀態的一種方法。所以在當前復雜場景下可觀測性是安全生產的必要手段。通過建設可觀測性平臺,高效全面地收集系統運行狀態數據,在此基礎上制定完善的告警策略,可大大提高系統故障時的響應速率和提前應對未知問題,降低運維人員排查成本,增強系統穩定性。目前業界將可觀測性分解為三個更具體方向進
31、行研究,分別是:事件日志、鏈路追蹤和聚合度量。三個方向各有側重,又不是完全獨立。云掣科技云運維服務白皮書(2023)第 10 頁1可觀測和傳統監控的區別1可觀測和傳統監控的區別傳統監控更加關注基礎設施的資源情況,而且監控的手段和工具繁多,并且過于依賴運維工程師的經驗和已經發生過的事件去設定監控項,這些情況造成了傳統監控的數據割裂、學習成本高、自身維護復雜等一系列問題,進而導致其更擅長于發現已知問題,但分析問題慢、定位故障難。而可觀測追求的是監控工具的統一、數據的全面性和關聯性,故可觀測平臺通常只有 1 個平臺,且會采集業務系統所在環境的各類數據,包括前端用戶訪問數據、網絡鏈路、分布式應用追蹤、
32、業務測數據等,更會從業務、應用多種視角,關聯多種類型數據,進行全鏈路監控,并會借助算法和專家經驗來輔助分析及定位。因此相對而言可觀測性是從全量全面數據入手,分析數據之間的關聯關系,最終解讀出該系統的健康情況,以輔助決策人員應對未來可能面臨的未知問題。(二)統一運維可觀測套件產品核心功能(二)統一運維可觀測套件產品核心功能基于可觀測的理論,云掣科技打造出了統一運維可觀測套件產品,這是一款開箱即用的數據化運維平臺,以數據統一采集、統一處理為基礎、以智能算法、全鏈路分云掣科技云運維服務白皮書(2023)第 11 頁析為導,打造全棧統一的可觀測平臺,實現系統運行深度感知,故障及時發現、快速恢復,保障企
33、業業務穩定高效運行。目前最新版本的核心功能如下:1端到端全鏈路監控1端到端全鏈路監控為了更完整更有邏輯性地展示應用組件之間的關系,并快速反應出組件健康情況,云掣的統一運維觀測套件產品從 web 網站前端 API 請求到后端應用調用鏈進行關聯查詢,包括關系型數據和非關系數據庫的調用分析、應用性能統計指標異常和錯誤分析等,從而構建出端到端的全鏈路監控能力。示意圖如下:2全息業務監控2全息業務監控全息業務監控可通過對應用進行業務及架構打標,實現服務業務應用架構可視化,展示業務系統間調用關系、各個業務間請求量、調用次數、各業務提供的接口數量,結合以上信息可核算各業務服務價值,分析業務中臺業務效能;兼具
34、架構感知能力;作為業務中臺能力中心的總控入口,可查看業務中心詳情,包括監控告警、能力描述、出參、入參等信息。同時可作為服務能力管控入口,實現監、管、控一體。云掣科技云運維服務白皮書(2023)第 12 頁在業務分層架構圖中展示出業務模塊之間的調用關系和實時標識異常服務,并支持下鉆,可以快速進行根因定位。云掣科技云運維服務白皮書(2023)第 13 頁3應用監控3應用監控產品支持應用監控,能追蹤每一個請求在各個應用組件中的路徑,還具有自動發現應用拓撲、自動發現并監控接口、異常捕獲分析、多維排查與分析和在線診斷功能。應用總覽模塊可查看應用整體狀態服務調用棧中可發現異常接口云掣科技云運維服務白皮書(
35、2023)第 14 頁4資源監控4資源監控產品支持硬件設備監控(服務器/安全設備/存儲設備)、網絡設備監控(交換機/路由器)、主機監控(操作系統/進程)、容器監控、數據庫監控、中間件監控。5前端監控5前端監控產品支持監測用戶在不同終端上瀏覽 Web、H5、微信小程序或支付寶小程序的過程中的用戶體驗性能指標,無需埋點,支持多種接入方式靈活接入,實現端到端的性能分析。支持頁面、接口、瀏覽器、操作系統、設備、運營商、網絡、地區等多個維度對網頁性能進行分析。云掣科技云運維服務白皮書(2023)第 15 頁6智能告警6智能告警產品支持快速接入各類告警信息,通過自動去重、規則壓縮、通過智能算法減少告警噪音
36、,避免告警風暴。通過配置分派、排班、通知策略等功能,快速實現告警流程化管理,幫助運維團隊更快響應告警,恢復告警,提升告警管理能力。(三)運維可視化解決方案(三)運維可視化解決方案隨著云計算、大數據、人工智能等新興技術的興起及運用,無論是通訊、金融、教育,還是交通、政府、企業等行業,都得到飛速發展,但在高速發展的同時,各行業巨大的 IT 維護和管理成本也在與日俱增,存在監控工具分散、運維數據龐雜、可視化設計難等痛點,現有基礎設施監控系統的監控范圍與顆粒度已無法滿足當前日益增長的監控管理需求,缺乏自動化技術手段對業務系統進行實時監控,存在故障無法及時預警的風險。如何先于用戶發現問題,提前處理,避免
37、故障的蔓延,提升客戶感知?對于傳統企業來說,數據是數字化的基石,而打通數據孤島,構建一體化監控體系,實現 IT資源的統一管控是數字化轉型成功道路上的第一步,系統運行的可觀測性也愈發關鍵!針對以上痛點,云掣 YunChe 秉持“成為持續進步的可觀測運維專家”的愿景,為更好地給企業賦能,幫助運維/運營人員實現對系統和業務的深度掌控,基于深度的行業分析以及實踐經驗總結,推出運維可視化解決方案。數據可視化大屏是運維可視化方案的一種具體實現方式,通過將多個數據源的數據進行整合,展示在大屏上,從而讓運維人員能夠更直觀清晰地了解系統的運行狀況。云掣科技云運維服務白皮書(2023)第 16 頁例如,他們可以通
38、過查看服務器的負載圖表來了解服務器的負載情況,通過查看磁盤的使用率來了解磁盤空間是否正常,通過查看網絡拓撲圖來了解網絡的拓撲結構等等。而在實現數據可視化大屏的時候,需要選擇適合自己公司和系統的工具和技術。近年來,易知微深耕數字孿生領域,擁有較完備的可視化產品體系和項目交付能力,產品緊密結合用戶需求,形成了一系列行業可視化(數字人)決策產品,包含有EasyV 數字孿生可視化平臺、數字孿生融合渲染引擎 EasyTwin、地圖可視化工具EasyMap 等數字孿生系列產品以及 AIGC 數字人定制、三維建模等產品服務。并以自主研發的數字孿生可視化低代碼搭建平臺 EasyV 為核心,結合 WebGL、3
39、D 游戲引擎、GIS、BIM、CIM 等技術,協同各個行業的生態伙伴,圍繞著數字孿生技術、數字駕駛艙和行業應用,共同建設數字增強世界,幫助企業及個人更低成本、高效率實現數字孿生可視化場景,還原更真實的場景,搭載實時業務數據,實現指揮調度、智能決策等需求。至今,易知微已經為 3000+企業客戶提供數字孿生可視化平臺與應用,覆蓋智慧城市、數字政府、智慧園區、智慧工廠、智慧交通、智慧港口、智慧水利等眾多行業領域,包括杭州東站、寧波舟山港、長江科學院、國家電網、移動云、中交建、中鐵建、融創、云上貴州、廈門象嶼、天津火箭、上海電視臺、金華防汛大腦、良渚古城遺址公園、李寧、浙江大學等典型案例。云掣科技云運
40、維服務白皮書(2023)第 17 頁1業務全景監控1業務全景監控針對實際業務場景設計業務數據流模型,并提煉出核心業務指標,結合業務預警通知。實現業務健康狀況實時感知,提升運營決策效率。2核心數據庫運維監控2核心數據庫運維監控以數據中心、云平臺、網絡設備、服務器、安全設備等物理資源為對象,根據不同視角的運維監控需要,提煉出有價值的指標模型,對物理資源狀態及運行情況進行有效監控。通過數字孿生模擬技術,實現 IT 資源健康快速感知。云掣科技云運維服務白皮書(2023)第 18 頁3云原生 K8S 集群監控3云原生 K8S 集群監控它可以通過不同的指標,例如 CPU、內存、網絡、存儲等,實時監控集群的
41、運行情況。同時,大屏也提供了數據可視化的功能,可以通過繪制曲線圖、柱狀圖等方式來展示監控的數據變化情況,讓用戶可以更直觀地了解 K8S 集群的運行情況。4云運維監控4云運維監控云計算技術的廣泛應用已經促進了云運維監控大屏的發展,可以通過云運維可視化監控大屏,方便地監測云服務器(ECS)、負載均衡器(SLB)、關系型數據庫(RDS)和對象存儲服務(OSS)的運行情況。這些監控信息可以提供給關鍵負責人與技術團隊,幫助減少停機時間和解決故障,提高云服務的可用性和穩定性。云掣科技云運維服務白皮書(2023)第 19 頁5網絡安全攻擊態勢5網絡安全攻擊態勢通過大屏展示,可以實時清晰地看到各類攻擊來源地、
42、攻擊目標、類型、等級等信息,幫助決策者全面了解當前安全形勢,提高應急響應的效率,并做出相應決策。6數據中心運維監控6數據中心運維監控為確保數據中心的正常運行,監控大屏是必不可少的一個組成部分。數據中心運維監控可視化大屏可以實時顯示核心線路流量利用率、網絡設備監控情況、網絡設備利用率、物理服務器異常等關鍵指標,通過運維監控大屏,管理人員可以實時監測數據中心的整體運行狀況,快速并準確地掌握節點運行狀態,并第一時間發現異常情況,以保證數據中心的高效、順暢運行。云掣科技云運維服務白皮書(2023)第 20 頁五、云運維服務解決方案五、云運維服務解決方案按客戶使用云的階段和使用云的實際需求,云運維服務供
43、應商提供了各種服務,包括遷云服務、應用系統運維托管服務、數據庫運維托管服務、大數據運維托管服務等。(一)遷云服務(一)遷云服務遷云服務為客戶提供業務系統上云及遷移服務,包括企業云上架構規劃與設計、上云方案設計、云上技術選型、技術咨詢與支持等服務。云運維服務商對 IT 系統架構和遷移技術有深入研究,積累了豐富的系統上云和遷移的最佳實踐,從而為業務系統云化提供強有力的技術服務保障。1云上架構設計1云上架構設計(1)網絡架構設計(1)網絡架構設計云網絡架構設計主要涉及專有網絡(VPC)網絡策略設計、跨地區網絡打通、線下IDC 和云上網絡打通、多個云廠商之間網絡打通、VPN 接入和配置。網絡架構設計與
44、規劃時,需要考慮云上云下 IP 地址劃分、網段規劃、網絡訪問策略配置。(2)應用架構設計(2)應用架構設計應用架構涉及應用整個訪問鏈路上各個組件的選型和配置。包括應用的流量入口負載均衡器(SLB),應用程序可擴展性設計,應用服務調用架構設計,應用冗災設計,數據存儲層產品的選型和配置。(3)數據庫架構設計(3)數據庫架構設計云上數據庫架構可選關系型數據庫 RDS、云上自建數據庫等多種方案。RDS 選型需要選擇合適的數據庫引擎、版本和高可用架構。自建數據庫需要設計部署方案、高可用容災方案、數據庫備份恢復方案等。云掣科技云運維服務白皮書(2023)第 21 頁2遷移實施2遷移實施(1)系統調研(1)
45、系統調研遷移實施包含系統調研、風險評估、應用部署、數據遷移、功能和性能測試、系統割接交付等核心步驟。系統調研通過調研表、訪談、系統數據收集、應用系統調研等流程和方法,充分理解系統業務和應用現狀,為應用系統遷移方案制定、實施和驗證提供數據支撐。(2)風險評估(2)風險評估基于系統調研階段收集的信息,結合云平臺架構特點,對系統上云的風險進行評估。風險評估的內容包括系統遷移上云的可行性、云平臺兼容性評估、性能風險評估、系統改造風險評估、資源風險評估。通過風險評估推算出遷移和改造的工期和技術難點。(3)應用遷移(3)應用遷移基于應用特點和業務需求,選擇適當的應用遷移部署方案。鏡像遷移通過把源主機上的操
46、作系統、應用程序、本地數據打包到一個虛擬磁盤文件,將虛擬磁盤文件上傳為云平臺的自定義鏡像。應用部署通過在云上服務器的操作系統中直接部署應用程序的方式將系統搬遷到云上。(4)數據遷移(4)數據遷移數據主要可分為文件數據(如圖片、視頻等)、數據庫數據、應用緩存數據。根據不同數據的特點和用戶訪問數據的場景,數據遷移工作包括全量數據遷移、增量數據遷移,遷移完成后,還需要驗證數據的準確性。(5)系統測試(5)系統測試根據系統設計中的測試用例來完成功能、性能和數據完整性校驗工作。功能測試對云上新系統各功能進行測試驗證,檢查產品是否滿足用戶要求。性能測試通過自動化測試工具模擬各種工作負載,測試系統的容量和并
47、發度。云掣科技云運維服務白皮書(2023)第 22 頁(6)系統割接(6)系統割接系統割接階段要完成新老應用系統的割接,確保遷移上云后的應用系統可以穩定、高效地運行在云平臺上。系統割接過程中可能發生各種問題,需要充分預計評估各類風險,準備全面充分的預案。(二)應用系統運維托管服務(二)應用系統運維托管服務應用系統運維托管服務的目標是為企業客戶提供一站式的管家式服務,服務范圍涵蓋了一個企業采用云計算技術來運行業務系統面臨的各個典型場景,包括云產品運維服務、系統運維服務、應用運維服務、網絡運維服務、基礎安全服務。1云產品運維服務1云產品運維服務各個云廠商提供的云產品種類繁多,各產品都有各自的特點和
48、適用場景,云運維服務廠商基于自身對云計算技術的理解,以及對各個云廠商云產品的實際使用經驗,提供云產品運維服務,包括云產品選型、云產品咨詢、云產品配置、云產品問題處理等相關服務。云資源選型:云資源選型:基于客戶需求,規劃云產品資源配置清單,并估算所需的成本。云產品咨詢:云產品咨詢:對云產品使用和云端通用架構等相關問題提供咨詢和技術支持,包括對云服務器、負載均衡、對象存儲、關系型數據庫、VPC 等常用產品的咨詢和技術支持。云產品配置:云產品配置:基于客戶需求開通相關云產品,對云產品進行初始化配置。云產品問題處理:云產品問題處理:協助處理使用各云產品遇到的各類問題和故障。2系統運維服務2系統運維服務
49、提供針對基礎資源和底層操作系統、存儲系統的運維服務,包括系統配置、故障協助、系統優化等。系統配置:系統配置:系統基礎服務配置、資源容量擴縮容、配置數據備份策略等。故障協助:故障協助:分析和處理系統負載過高、內存溢出、磁盤空間異常、網絡訪問異常等相關問題。云掣科技云運維服務白皮書(2023)第 23 頁系統優化:系統優化:對操作系統資源或配置進行優化,如 CPU、內存、磁盤擴容,網絡協議配置優化等。3應用運維服務3應用運維服務提供傳統架構和云原生架構應用系統運維服務。提供常用應用軟件環境搭建、日常變更、組件升級優化等服務。支持的軟件環境和組件包括網絡服務類應用(如 FTP、Nginx、Tomca
50、t、PHP 等)、中間件組件(如RabbitMQ、Kafka、RocketMQ 等)、存儲類組件(如 Elasticsearch、Ceph 等)。對各類應用組件的配置進行優化。協助分析和處理應用系統和各軟件的各類問題和異常。提供云原生架構下持續集成和持續部署架構規劃和實施,包括代碼管理、持續集成、持續部署。代碼管理:代碼管理:包括源碼管理系統、代碼安全掃描分析工具、代碼審核工具的集成和配置。持續集成:持續集成:使用 Jenkins 和 Gitops 等設計和實現軟件構建流水線。持續部署:持續部署:包括鏡像倉庫規劃、服務自動化部署、藍綠發布和灰度發布等。4網絡運維服務4網絡運維服務提供網絡規劃、
51、網絡環境搭建、網絡類故障協助處理等服務。網絡規劃:網絡規劃:包括 VPC 網段分配、公網出口和入口規劃、混合云網絡規劃。根據業務特征和需求,選擇 VPN 或物理專線。網絡環境搭建:網絡環境搭建:包括 VPC 網絡創建和路由配置、VPN 調試和配置、物理專線開通和配置等。網絡故障協助處理:網絡故障協助處理:協助處理網絡層面的各類問題,包括 VPC 網絡不通、VPN異常、專線不通或網絡丟包等故障。5基礎安全服務5基礎安全服務基于企業需求,提供安全架構、漏洞修復、安全事件處理等保測評、滲透測試等安全服務。云掣科技云運維服務白皮書(2023)第 24 頁安全架構:安全架構:云上安全架構規劃和安全產品選
52、型。安全策略配置(堡壘機、WEB 應用防火墻、防火墻、安全組、白名單、日志審計、主機安全等產品和策略配置)。制定安全策略(密碼策略、用戶權限策略等)。漏洞修復:漏洞修復:評估各類漏洞風險。定期修復系統級別漏洞(windows、linux)。配置基線策略,協助修復各類基線檢查漏洞。協助客戶修復各類應用漏洞。安全事件處理:安全事件處理:處理云上系統各類安全告警和安全事件,包括挖礦軟件清理、系統加固。DDOS 攻擊事件處理。web 攻擊事件處理(如 webshell、訪問限制)。主機安全事件處理(異地登錄、ssh 暴力破解等、異常進程和端口活動)。信息泄露事件處理(如 ak 泄漏、賬號泄露)。等保測
53、評:等保測評:提供云上系統安全架構方案(產品、架構、配置策略)。等保測評不符合項改進和修復。滲透測試:滲透測試:對關鍵業務系統進行滲透測試。評估滲透測試結果,評估各漏洞風險。提供安全加固和修復漏洞的方案和實施。6成本優化服務6成本優化服務企業需要合理地控制 IT 相關的投入,提升利潤。成本優化服務會在資源的性能、穩定性和成本中尋找符合當前階段的最佳選擇,包括云上資源管理,分析資源運行水位,提供升降配建議;識別空閑資源,和提供釋放或復用資源的建議;基于云產品、計費項、計費方式等多個維度,分析云資源費用消耗情況,及時發現異常的消費情況,通過優化使用方式、配置合理的資源包等形式,降低使用云的成本。成
54、本優化是一個跟隨業務發展腳步不斷迭代的過程,需要定期分析和持續優化的。(三)數據庫運維托管服務(三)數據庫運維托管服務數據庫運維托管服務為企業提供專業的數據庫服務,保障企業業務數據庫穩定高效的運行,保障數據安全,解決企業使用數據庫過程中遇到的各類問題。數據庫運維托管服務支持的數據庫類型包括各個云廠商提供的關系型數據庫服務(RDS)和云上自建數據庫。支持的數據庫引擎包括主流商業數據和開源數據庫,包括 Oracle、SQLServer、MySQL、PostgreSQL、MongoDB 等。云掣科技云運維服務白皮書(2023)第 25 頁服務內容主要包括數據庫體系規范建設、數據庫上線審核、數據庫優化
55、、故障緊急救援、高可用架構設計、數據庫容災備份。數據庫體系規范建設:數據庫體系規范建設:數據庫體系規范包括數據庫開發規范、數據庫運維規范、數據庫變更規范。數據庫上線審核:數據庫上線審核:數據庫 80%以上的性能問題都是由數據庫變更引起,對變更計劃進行審核,按照專業建議進行變更,可以降低數據庫性能異常風險。針對即將上線的 SQL 及數據庫變更,提供上線審核服務,降低數據庫變更風險。數據庫優化:數據庫優化:提供數據庫配置參數優化、業務表結構設計優化、索引優化、慢SQL 優化,提升數據庫運行效率。故障緊急救援:故障緊急救援:數據庫緊急救援服務旨在快速恢復企業線上數據庫的故障,包括數據庫無法訪問、數據
56、庫性能瓶頸、數據丟失、服務不可用等場景的緊急救援,用專業的修復方案幫助用戶快速解決數據庫緊急問題。高可用架構設計:高可用架構設計:基于客戶業務需求,選擇合適的數據庫高可用架構,并評估資源需求。提供詳細的高可用架構方案,包括服務器和網絡規劃、數據庫高可用技術選擇。高可用環境部署和交付,進行功能測試驗證。提供高可用環境的后續維護,包括高可用組件監控、巡檢,保障組件功能穩定運行。定期進行高可用容災演練。數據庫容災備份:數據庫容災備份:根據客戶需求和數據庫運行情況,制定備份策略,包括備份周期、備份方式、備份存儲策略等。提供備份管理平臺,定期巡檢備份任務。對于數據庫故障、誤操作、業務處理錯誤導致的數據異
57、常,提供數據恢復支持。定期進行備份恢復演練,驗證備份和恢復方案的有效性。(四)大數據運維托管服務(四)大數據運維托管服務大數據運維托管服務是基于 ITIL 理論,結合客戶業務發展情況和服務需求,由專家工程師以遠程和短期現場支持的靈活方式,為客戶提供大數據集群的監控服務、大數據平臺運維服務、基礎運維服務和大數據集群安全保障服務。(1)監控服務(1)監控服務提供對服務器基礎資源、Hadoop 集群重要組件(包括 NameNode、DataNode、JournalNode)、YARN 集群、Hive、HBase、Spark、Flink、Elasticsearch、Kafka、Trino 等其他大數據
58、集群相關組件以及用戶任務的核心指標的監控和告警。云掣科技云運維服務白皮書(2023)第 26 頁(2)大數據集群運維(2)大數據集群運維包括規劃部署、開發支持、任務調優和組件升級等服務內容。規劃部署:結合業務需求,選擇配套的大數據組件,評估和規劃相關資源,各大數據組件的規劃和部署。開發支持:提供各大數據組件使用過程中遇到的各類問題的技術支持。任務調優:各大數據組件參數調優(包括 JVM 參數配置、資源配置等)。Trino、Hive、HBase、Elasticsearch、Impala 等數據庫相關組件語句調優(慢任務、數據傾斜等調優)。組件升級:通過遠程或現場的方式,提供組件版本和缺陷漏洞的升
59、級修復。(3)基礎運維(3)基礎運維提供技術咨詢、問題處理、故障支持、網絡服務、操作系統運維。技術咨詢:提供大數據組件功能咨詢、大數據組件規格選型和使用技術咨詢。問題處理:各大數據組件的日常問題響應、排查和處理。故障支持:各大數據組件運行故障緊急響應,故障排查、處理。網絡服務:大數據平臺組件涉及網絡問題協助排查、處理,如網絡延遲,丟包等協助排查。操作系統運維:根據大數據組件需求,對操作系統相關參數進行優化調整。服務器 CPU、內存、磁盤、網絡 IO 等基礎資源監控告警配置。操作系統 CPU、內存、磁盤、網絡 IO 等狀態異常處理。根據大數據業務現狀,對資源進行優化,如 CPU、內存、磁盤擴容優
60、化。(4)大數據集群安全保障(4)大數據集群安全保障包括大數據集群安全和高可用架構。安全架構:通過 Kerberos 和 LDAP 實現賬號權限管理,幫助客戶對平臺用戶賬號權限進行管理限制,協助客戶進行平臺權限體系建設。協助客戶對賬號進行各種賦權操作(賦權、減權)。通過 Ranger 實現細粒度數據安全,包括數據權限管理、數據脫敏管理、用戶審計。高可用架構:大數據平臺核心組件的高可用部署,包括 HDFS、Zookeeper、HBase、Hive、Yarn、Kafka、Kudu、MySQL 等組件。云掣科技云運維服務白皮書(2023)第 27 頁六、客戶案例六、客戶案例(一)案例 1、統一運維可
61、觀測套件產品的全鏈路監控案例(一)案例 1、統一運維可觀測套件產品的全鏈路監控案例1項目背景1項目背景某市新型冠狀病毒肺炎疫情防控工作領導小組開會明確全面復工復產時間點和任務安排,大數據中心要求保障防疫相關的掃碼等服務系統穩定運行,支撐人民群眾有序復工復產。復工復產迫在眉睫,加固健康碼等服務系統穩定性。確保全市民眾通過健康碼有序復工復產。成為市大數據中心當前重保的第一要務。2客戶痛點2客戶痛點系統故障頻發,且無法第一時間發現問題,更多依賴人工上報和客戶投訴。系統存在瓶頸,訪問流量高峰期容易出現系統變慢、無法訪問等問題??蛻粝到y復雜、底層服務廠商眾多,缺少端到端的全鏈路監控工具,出現故障后定位問
62、題困難。缺乏系統化體系化的故障處理機制,無法有效協同各廠商快速處理故障。故障發生后,存在各廠商相互推卸責任的現象,影響故障恢復時長。3核心需求3核心需求保障系統核心業務的穩定性,實現業務絲滑順暢,有效支撐全市民眾有序地復工復產;第一時間發現問題,發現問題時及時響應、快速故障定因、定位、定責,形成標準化的梯隊,確保故障快速發現,快速恢復。4全鏈路監控方案建設4全鏈路監控方案建設(1)(1)前期梳理前期梳理架構梳理云掣科技云運維服務白皮書(2023)第 28 頁輸入:清楚客戶現有的業務鏈路,從各個業務開始端到后端業務走過的業務流,各個業務鏈路上應用開發語言、框架、QPS 評估。輸出:確定統一運維可
63、觀測產品的部署架構,各個應用的監控手段、監控覆蓋范圍。關鍵接口梳理輸入:應用的拓撲架構,各個應用核心的業務接口、使用中間件情況、核心應用部署的服務器。輸出:大屏、中屏的基礎設計故障等級梳理輸入:應用的拓撲架構,各個應用核心的業務接口、使用中間件情況、核心應用部署的服務器。輸出:大屏、中屏、小屏的基礎設計。大屏是以業務指標建立起來的業務視角,支撐業務方決策;中屏是應用視角,建立應用的全景監控,方便快速定位問題;小屏是給值班工程師盯屏使用,作用是及時發現故障和同步故障信息,便于團隊間協作。(2)建設方案(2)建設方案全鏈路方案通過全鏈路監控平臺實現客戶業務平臺監控運維的數字化、標準化、統一化,使后
64、端業務系統的性能看得見、異常告得出來、問題定位得到。云掣科技云運維服務白皮書(2023)第 29 頁平臺業務 APP 端到端監控方案客戶不僅需要從平臺之間的全景監控同時需要對各個應用監控,平臺應用的監控主要涉及網絡保障、分鐘級監控,監控范圍包括應用所有服務調用,支持多種告警渠道。應用監控探針對接圖(3)全景觀測實時告警(3)全景觀測實時告警根據實際情況的考察結果后續以小屏、中屏、大屏建立三屏一體的可觀測體系。云掣科技云運維服務白皮書(2023)第 30 頁5結果與價值5結果與價值1、實現核心業務指標可視化,實時展現系統運行情況,以全局視角觀察業務的運行狀態。2、全面接入整個應用鏈路上的各個組件
65、監控數據,包括前端頁面和 APP、后端服務、底層基礎資源,實現了系統的全鏈路監控和告警。任何組件的異常都能快速發現。3、通過鏈路追蹤技術,能精確定位到系統異常的根本原因,幫助系統快速恢復。這個項目中,通過充分利用可觀測套件產品的全鏈路監控能力,有效地保障了客戶防疫相關系統的穩定運行,幫助復工復產工作有序開展。(二)案例 2、知名證券機構核心大數據平臺升級之路(二)案例 2、知名證券機構核心大數據平臺升級之路1項目背景1項目背景在金融領域中,數據處理一直是 IT 系統中非常重要的一部分,證券發行、登記、托管、交易、結算的各個環節都有大量的數據產生。Hadoop 作為海量數據處理的關鍵技術框架,自
66、誕生以來就改變了企業對數據的存儲、處理和分析的過程,因具備開源低成本、高可靠等特性,在證券行業得到了廣泛的應用。某綜合類證券機構,早年以 Hadoop 平臺為基礎,結合多種大數據處理技術,構建了大數據專用存儲與處理系統。但隨著實際應用的加深,系統也暴露出一系列亟須解決的問題。為了能快速構建高質量的新大數據處理平臺,支撐業務靈活發展,且保證系統在安全性、合規性、穩定性、網絡質量等方面符合監管的嚴格要求,該證券機構選擇了云掣科技云運維服務白皮書(2023)第 31 頁在金融行業有豐富實踐經驗,且在大數據運維領域有成熟解決方案的運維服務商云掣科技為其完成新平臺的規劃設計和原平臺到新平臺的數據遷移。2
67、核心需求2核心需求由于初期采用開源 Apache Hadoop 框架建設的分布式計算平臺已運行 2 年之久,集群性能每況愈下。需要基于 Cloudera 的 Hadoop 發行版 CDH(ClouderasDistribution Including Apache Hadoop)構建新平臺,遷移核心業務,逐步替代老舊Apache Hadoop。3主要難點3主要難點跨大版本從 Apache Hadoop 遷移到 CDH,涉及 Hadoop 生態圈多個組件的升級,由于Hadoop 組件的版本跨度較大,面臨組件兼容性及數據準確性的挑戰。云掣科技云運維服務白皮書(2023)第 32 頁組件集成因業務需
68、要,除了要根據選定的 Hadoop 版本安裝匹配的組件,還需要額外集成Elasticsearch、Presto、Flink、SparkSQL,按照 CDH 的集群管理規范,定制組件包。安全訪問控制雖然 CDH 自帶授權管理工具 Sentry 實現數據安全訪問控制,但沒有管理后臺,維護成本較高,且 Cloudera 已官方宣布不再維護 Sentry,推出的商業收費版 CDP 也改為集成 Ranger。因此現需要在免費開源發行版 CDH 中也集成 Ranger,做到全局配置聯動,實現對 Hadoop 生態組件如 HDFS、Yarn、Hive、HBase 等進行集中式安全管理。在這個方案中對 CDH
69、 底層腳本做適配改造是一大難點。云掣科技云運維服務白皮書(2023)第 33 頁4解決方案4解決方案深入了解該證券機構的需求后,云掣大數據運維團隊按照標準的流程分步完成調研評估、規劃設計、遷移實施、持續優化各個階段的遷移任務。架構設計根據可用的基礎計算資源,規劃 CDH 集群規模和數據節點容量,新集群組件組合部署方案。新集群根據節點功能角色,劃分為日志分析平臺和大數據平臺 2 個集群。新老集群之間萬兆網絡互通,進行數據同步傳輸。數據遷移盤點待遷移的數據資產,根據數據的類型和體量,采用 Hive 元數據遷移、HDFSDistCp(分布式拷貝)數據遷移、HBase 快照遷移等多種遷移方式,同時做好
70、全面的數據遷移性能壓測。云掣科技云運維服務白皮書(2023)第 34 頁使用 DistCp 方式遷移自帶校驗會出現諸多報錯,云掣大數據運維專家采用WebHDFS 協議遷移,效果較優,最終通過 CRC 校驗。針對大版本遷移對數據準確性帶來的不確定性,成立專門數據校驗小組,由云掣大數據運維團隊與證券機構工作人員共同完成精確到 Hive 表、字段的 PB 級全量數據校驗。平臺建設盤點生產環境各組件部署節點 IP、應用服務端口、應用日志信息、組件監控指標、API 接口規范、安全端口范圍、系統啟停維護標準等信息,進行新平臺建設細節規劃。組件集成在 CDH 中集成 Flink、Presto SQL、Ela
71、sticSearch 等第三方組件,根據 CDH 規范,將組件源碼包編譯為 parcel 包,此外通過 csd 腳本實現組件啟停邏輯和可調參數暴露。Hive 組件雖然遷移前后版本一致,但也做了向上兼容的改造,支持語法規則收斂、字段隱式檢驗禁止等特性。安全訪問控制將 Ranger 權限開啟的相關配置植入到 CDH 各組件對應的服務目錄,實現Ranger 與 CDH 各組件集成,做到 HDFS、HBase、Kafka、PrestoSQL 的數據安全訪問限制,結合 YARN 的自定義資源池、Elasticsearch 自帶的安全控制來進行整個權限體系的補充,滿足大數據主要數據存儲場景的數據安全管理。
72、云掣科技云運維服務白皮書(2023)第 35 頁資源管理開啟節點 Cgroup 機制,限制、記錄、隔離各應用服務對應進程組所使用的物理資源。定義 Yarn 的動態資源池管理,根據業務劃分資源隊列,指定項目可用的資源,達到資源分配,任務管控的目的。配置 PrestoSQL 的資源組,從資源分配的角度來控制集群的整體查詢負載,保障重要任務優先獲取資源。系統調優集群升級過程中及試運行階段,對集群運行進行多場景測試,針對性優化中文亂碼、數組越界、查詢報錯、通信超時、字段轉換失敗、任務提交卡頓、元數據異常、參數解析異常等問題。監控完善從集群資源、組件性能、角色狀態等多個維度梳理監控指標,在 Cloude
73、raManager控制臺配置需暴露的端口和 API,通過 Open-Falcon 監控平臺采集 CDH 集群的監控數據,實現統一的監控告警,使用 ELK 架構采集日志數據,實現日志查詢,完成整個監控架構。5項目成果5項目成果歷時 3 個多月,云掣順利幫助該證券機構完成跨大版本的 Hadoop 平臺升級和數據遷移。新集群能夠兼容常見的開源組件,有豐富 API 接口,充分滿足業務靈活發展的需求,為提供交易、投融資、財富管理等全方位的優質金融服務打下了穩定的基礎。且通過運維平臺管理集群,實現統一監控預警,自動擴容,相比升級前,維護成本大大降低。云掣大數據運維團隊在項目實施過程中的技術實力得到了該證券
74、機構的高度認可,將繼續為該證券機構提供新集群后續的擴容方案以及持續的專業技術保障服務。云掣科技云運維服務白皮書(2023)第 36 頁(三)案例 3、基于 EasyMR 的大數據運維實踐(三)案例 3、基于 EasyMR 的大數據運維實踐1項目背景1項目背景客戶是一家集團型企業公司,以酒店旅游和主副食品為核心業務,業務涵蓋了酒店、旅行社、食品加工、食品貿易與物流、零售連鎖、餐飲、汽車服務等多個領域。隨著業務發展,客戶需要對多個業務領域的數據集中分析,使用即席查詢功能,快速獲取查詢結果,用數據支撐業務決策。2客戶需求2客戶需求在業務上劃分測試和生產兩套環境,不同環境對查詢數據權限進行區分,實現環
75、境隔離。引入安全機制,對賬號和訪問權限進行統一管控。提供大數據組件統一管理和監控平臺,配置告警,方便在集群組件出現問題時及時處理。3解決方案3解決方案基于客戶需求,采用了 EasyMR 產品加大數據運維托管服務的方式。(1)EasyMR 產品(1)EasyMR 產品EasyMR(大數據基礎平臺)面向企業、政府、高校、第三方服務商,提供大數據產品部署、擴縮節點、日志診斷、集群運維、監控告警一站式服務,可實現產品安裝部署、節點擴容縮容、產品版本升級/回滾、集群/服務/主機監控、實時告警等功能,致力于最大化地節省運維成本,降低線上故障率與運維難度,為客戶提供安全穩定的產品部署與監控。云掣科技云運維服
76、務白皮書(2023)第 37 頁1 1產品架構產品架構2 2功能模塊功能模塊該平臺的核心模塊包括集群管理、組件部署、服務運維、主機運維、組件管理、集群巡檢、監控告警。集群管理:提供自建主機集群,接入主機資源,做好產品部署基礎設施資源準備。組件部署:平臺提供產品級別自動部署與手動部署雙部署模式。自動部署通過上傳產品線定義組件部署流程,平臺解析篩選相關組件,根據定義的主機角色實現自動資源自動編排,平臺根據依賴關系完成組件的順序部署,大大節省了運維逐個部署、資源配置的時間。手動部署基于單個組件進行部署,手動編排資源與修改服務配置,平臺根據設置完成部署,相較于傳統部署模式,同樣節省了運維在部署上的時間
77、成本。服務運維:管理已部署服務的運行狀態與健康狀態,支持已安裝服務組件的配置變更、服務啟停以及服務的滾動重啟。主機運維:提供服務所在主機的運行狀態監控,包括內存、磁盤等的使用情況,主機告警列表提供問題指標的圖表趨勢快速跳轉定位。組件管理:已上傳組件列表管理,對已部署組件支持重新部署、組件級別升級/補丁包升級、組件回滾、平滑升級等管理操作,支持部署歷史與部署日志查看,記錄不同部署狀態下的日志內容用于分析與定位問題。集群巡檢:集群維度巡檢報告,統計集群內主機資源指標運行情況、服務運行情況,方便運維及時關注部分核心指標,隨時導出分享查看。云掣科技云運維服務白皮書(2023)第 38 頁監控告警:集成
78、 grafana 監控圖表,全方位統計與監控主機、服務核心指標運行狀態與趨勢,配備指標告警功能,支持多通道模式發送告警通知,及時對接到接收人,做到近實時響應。(2)大數據運維托管服務(2)大數據運維托管服務1 1即席查詢即席查詢使用 Impala 進行即席查詢,滿足開發之前業務習慣。部署多個 impalad,不同業務分別使用不同 Impala 鏈接,業務之間進行資源隔離,方便及時發現和定位問題??苫跀禇_M行統一開發調度。2 2安全方案安全方案集成安全組件 LDAP,使用輕型目錄訪問,以樹狀分層結構排列,統一維護管理主機以及 Ranger 中的用戶及用戶組,方便不同業務之間進行用戶隔離。集成安
79、全組件 Ranger,通過給不同用戶角色組設置不同 policy 權限來訪問庫、表、字段以及 udf;方便用戶與權限之間進行隔離。3 3運維服務運維服務基于云掣 EasyMR 平臺,對 Hadoop 集群和 Impala 組件進行管理,降低運維成本的同時運維提高效率。4項目成果4項目成果支撐客戶進行即席查詢,快速做出數據決策,提升市場競爭力。提升客戶數據安全性,不同業務數據庫之間進行權限隔離,方便管理。組件頁面化管控,提升運維效率,穩定性大幅上升。對 Impala 組件進行資源隔離,提升集群資源利用率。(四)案例 4、混合云網絡建設(四)案例 4、混合云網絡建設1項目背景1項目背景云計算經過十
80、余年突飛猛進的發展,已經迎來新的黃金十年,進入普惠發展期。據相關機構調研,隨著產業結構持續優化,服務部署形態趨于多元化,融合了私有云安全性和公有云開放性的混合云,已成為企業用戶的新寵。云掣科技云運維服務白皮書(2023)第 39 頁對于傳統企業來說,混合云解決方案的應用,既能保留現有的機房和設備,用以支撐對安全性和可控性要求較高的業務;又能滿足變化較快業務的上云訴求,減少基礎設施投入成本。構建混合云,并不是簡單將公有云和私有云進行集成拼裝,而是要建立公有云和私有云之間的數據通路,實現應用和數據跨云、跨地域的自由遷移。此時網絡的重要性就體現出來了。如何建立安全高效的網絡傳輸通道,是大多數企業在構
81、建混合云過程中面臨的一大挑戰。作為全球最具價值汽車品牌的百強成員,某車企在構建混合云網絡的過程中就遇到了難題。亟需經驗豐富的云運維服務商提供專業的技術支撐,來彌補云廠商在混合云網絡規劃和數據傳輸方面的服務空白。2客戶需求2客戶需求該企業云下共有四個數據中心,分別建設在北京和南昌,已通過物理專線實現互聯,現因業務上云需求,計劃在北京和杭州地域的公有云數據節點部署業務系統,需要打通原 IDC 機房與云上網絡,云下云上鏈路連通后,將拆除云下數據中心間的物理連接。改造前網絡架構:改造后網絡架構:云掣科技云運維服務白皮書(2023)第 40 頁3主要難點3主要難點多地域網絡互聯互通構建網絡專線非常復雜,
82、需要綜合考慮四個數據中心的現有網絡拓撲結構、連接通路、流量收斂等因素進行規劃設計,以防止出現云上云下路由沖突、網絡環路等情況。精準路由策略控制在整個混合云網絡中,一端的數據傳輸到另一端,邏輯上有多條路徑可以選擇,如何設置合理的路由優先級、協議參數、路由屬性來指定數據傳輸的最佳路徑,極其考驗運維人員的專業能力,稍有不慎,將會導致網絡故障,甚至引發網絡癱瘓。4解決方案4解決方案云掣對該集團的整體網絡現狀進行了深入調研,結合業務需求,規劃網絡互通方案,設計整體架構:云上網絡隔離:北京和杭州數據中心分別創建 VPC 專有網絡,實現不同鏈路之間相互隔離,滿足企業對數據安全性的要求。云上網絡聯通:通過云企
83、業網在云上北京和杭州兩個地域專有網絡間搭建私網通信通道,避免繞行公網。云上云下互通:通過高速通道接入云企業網,打通本地數據中心和阿里云的連接,實現全網資源互通。云掣科技云運維服務白皮書(2023)第 41 頁(1)實現過程(1)實現過程在前期調研的基礎上,針對具體實現路徑制定詳細的執行方案,分步實施:規劃設計:依據云上云下在用網段、接入點 IP 限制、網絡設備型號等實際情況,制定四地互聯及網絡線路容災方案。技術實施:主要包括云上各接入點邊界路由、高速通道、線下網絡設備、主備物理專線等詳細配置說明及回滾方案。運行優化:整體包括網絡互通測試驗證、鏈路質量測評優化,新線路上線、原專線拆除相關配置驗證
84、操作。5項目成果5項目成果快速構建了一張混合云網絡,覆蓋全集團生產線。新的數據通路既具備高速穩定安全的鏈路質量,又滿足業務遷移和數據備份的需要。解決了遠距離公網數據傳輸造成的延時大、數據同步困難問題。使用雙路專線做備份冗余,具備容災能力,一旦有故障,可秒級切換,業務無感知。(五)案例 5、知名房企數據化可觀測運維實踐(五)案例 5、知名房企數據化可觀測運維實踐1項目背景1項目背景伴隨著“云+”時代的到來,通過上云實現企業數字化轉型已經成為眾多行業的共識。工信部發布的推動企業上云實施指南(20182020 年)一文中提出了企業上云的工作目標,到 2020 年,云計算要在企業生產、經營、管理中應用
85、并廣泛普及,全國新增上云企業 100 萬家。云技術會自上而下、由點到面地部署和應用開來。同理,任云掣科技云運維服務白皮書(2023)第 42 頁何企業都不能對信息化和數字化趨勢視而不見。某地產集團有限公司是國內知名企業,專注開發系列城市優質房產品,具有國家一級開發資質,已連續多年名列中國房地產公司品牌價值 TOP10,中國房地產百強企業綜合實力 TOP10,被金融機構評為 AAA級信用單位。2業務需求2業務需求客戶有 ERP、BI、OA、CRM 等 30+業務系統運行在云端,涉及云產品種類較多;隨著業務擴展,系統壓力越來越大,監控不全面,故障頻發,無法快速定位和處理,運維管理面臨嚴峻挑戰??蛻?/p>
86、急需懂云的運維服務商進行系統維護和治理,基于豐富的企業服務經驗和一體化數據化運維管理能力,云掣科技贏得了客戶的信賴,承接了客戶云業務系統的運維管理工作。3解決方案3解決方案專家服務團隊對客戶的業務系統進行了全面梳理分析,從云資源耗費、網絡安全、數據庫性能、服務器運行狀態、業務穩定性、服務連續性等方面,基于自研數據化運維平臺為客戶制定了個性化企業運維解決方案:1、統一接入混合云環境中的網絡設備,安全設備,容災設備,云上資產,應用日志等系統運維數據??蛻舻臉I務一部分在線下 IDC 機房,一部分業務在公有云環境,基于 EasyDO 實現了運維數據在一個平臺的統一管理,從多個維度全面監控系統及業務的運
87、行狀態。云掣科技云運維服務白皮書(2023)第 43 頁2、對接入數據進行清洗解析,格式化處理,根據不同業務場景提取關聯數據進行分析。采集器支持豐富的數據源,服務團隊分階段對各系統及設備安裝采集器,并將相關數據接入到數據化運維平臺,可實時檢索分布在不同機房內的多臺服務器和其他設備上的日志數據。3、可視化展現系統訪問量,用戶訪問趨勢,模塊訪問占比,設備電壓溫度,鏈路狀態,異常感知等關鍵指標。4、梳理判斷業務健康的核心指標,進行全面監控,添加告警,提前預警,減少故障,為業務保駕護航。任何異常情況,運維平臺都會及時告警給相關負責人員,服務團隊以最快的速度響應并處理異常。5、優化云資源安全規則,定期對
88、系統進行基線加固,修復服務器漏洞。6、配合業務方進行日常變更,提供云運維服務周報,云資源安全月報。云掣科技云運維服務白皮書(2023)第 44 頁4客戶收益4客戶收益基于云掣提供的數據化可觀測運維服務實現了云上云下資源的統一管理,減輕運維壓力,降低運營成本,具體如下:1、整體業務架構經過細致梳理,形成數據可采集,異??煞治?,優化可持續的良性循環,線上業務系統穩定性,安全性以及連續服務能力性得到明顯改善。2、通過體系化監控和運維管理,實現故障發生頻率、故障恢復時間、故障影響面3 連降,系統可用性提升至 99.95%。該企業將與云掣一起抓住云時代的機遇,利用云技術加速創新,并聚焦于業務模式的豐富拓
89、展。(六)案例 6、FinOps 實踐云成本優化案例(六)案例 6、FinOps 實踐云成本優化案例1云上資源費用問題1云上資源費用問題引起云上費用浪費主要有幾方面的原因:各類云資源(如服務器、數據庫)規格高,但資源利用率低。而這些資源都是按資源規格收費的。云提供了極致的彈性,如 OSS 和 SLS 提供無限的存儲能力,MaxCompute提供了按需擴展的計算能力,這給業務帶來了極大的便利。這些資源通常按使用量來計費,但是當業務產生異常時,可能會消耗大量計算資源、存儲資源、網絡流量,從而產生巨額的資金消耗。閑置資源也會產生費用。如彈性 IP、負載均衡設備、塊存儲設備等,即使沒有使用,也會產生費
90、用。云通常會提供豐富的計費方式,按量使用的資源可以通過資源包等形式來降低成本。如果沒有采購合適的資源包,或者資源包額度不足、資源包到期未及時續費等,都會導致額外的云費用。云掣科技云運維服務白皮書(2023)第 45 頁2統一運維可觀測套件產品成本優化模塊2統一運維可觀測套件產品成本優化模塊統一運維可觀測套件產品是一款開箱即用的數據化運維產品,為企業提供運維數據統一采集、統一存儲、智能分析、全景監控能力,保障企業業務穩定高效運行,提供系統性能和成本優化建議,降低企業 IT 運維成本?;诳蛻羰褂迷频膶嶋H情況,結合云上費用消耗的特征,統一運維可觀測套件產品專門設計了云成本優化模塊。(1)數據采集(
91、1)數據采集統一運維可觀測套件產品支持云集成,通過云廠商提供的開放接口,將各類數據集成到平臺,主要包括如下幾類數據:云資源信息(如服務器、數據庫、存儲、負載均衡等資源)的規格、配置。資源的水位信息(如網絡流量、空間用量、CPU 和內存負載等)。云賬單信息。資源包和資源包抵扣信息。(2)資源水位分析(2)資源水位分析分析核心資源水位,基于一定的規則,對于長期水位較低的資源,提供對應的降配建議。對于持續高水位運行的資源,提供升配建議。對于空閑資源,則提供釋放資源的建議。(3)賬單分析(3)賬單分析統一運維可觀測套件產品采集了云資源費用賬單?;谠飘a品、計費項、計費方式等多個維度,分析費用消耗情況。
92、提供了異常費用監控功能,可及時發現異常的費用消耗。提供費用分析功能,可快速定位產生費用的原因。3成本優化真實案例3成本優化真實案例某客戶阿里云賬號下 SLS(日志服務)每月消費費用較高,通過分析 SLS 賬單發現,SLS 消費費用中占比較高的兩項費用為索引流量費和存儲費。成本優化主要可以從如下角度出發:云掣科技云運維服務白皮書(2023)第 46 頁索引/存儲量是否有優化空間?目前 SLS 為按量計費,費用本身是否有優化空間?1)索引流量費用優化SLS 費用消費情況如下從費用組成可以看到,主要為:索引流量費以及存儲費用。經分析,索引流量是按照日志(未壓縮)被構建或重建索引所產生的索引數據量計算
93、索引流量。進一步分析發現,目前賬號下基本所有日志庫均開啟了全文索引。和業務方溝通,只保留 content 字段作為索引字段,將全文索引關閉。關閉之后,索引費用有明顯下降趨勢,降幅在 30%左右。2)SLS 整體計費方式優化目前 SLS 費用為按量計費方式,SLS 現在已經推出了全新套餐包計費模式。支持抵扣日志服務所有的計費項,包括存儲、索引流量、讀寫流量、請求、加工、投遞、告警通知(短信、電話)等。只需要購買一種資源包,即可覆蓋日志服務所有計費項。如果每個月花 1 萬的話,那就可以采購 10000 CU 的等級的套餐包。根據客戶的歷史消耗情況,采購相匹配的資源包,此項費用降幅達 30%左右。綜
94、合上述兩項優化措施,優化后 SLS 整體費用下降達 45%。4案例總結4案例總結經過分析日志服務費用的占比明細,提煉出了完善的費用優化方案,既降低了計費項數量又轉換了計費方式,進一步降低了此項目的費用成本。云掣科技云運維服務白皮書(2023)第 47 頁由于業務應用存在可變因素,可能會不定期上新應用,由于針對新上應用需要定期關注 SLS 配置,比如日志存儲時長、索引配置等,避免產生不必要的費用;除此之外,需要定期巡檢套餐包使用情況,確保采購的套餐包相對比較適配實際使用量。(七)案例 7、某煙草集團互聯網營銷平臺升級之路(七)案例 7、某煙草集團互聯網營銷平臺升級之路1項目背景1項目背景某煙草集
95、團集卷煙生產銷售、煙草物資配套供應、科研以及多元化經營等為一體,在卷煙產銷總量、全國市場覆蓋率、國際市場銷量等多項指標上均位居行業前列。該集團基于微信服務號運營,策劃了以煙包二維碼為載體,通過單品活動項目探索了煙草互聯網營銷的轉化路徑,初步建立了與渠道、終端、消費者的連接。隨著營銷活動場景的不斷豐富,業務結構復雜性不斷提升,預計未來 510 年,每日獨立訪客將達到目前的 5-7 倍,為了支撐未來業務的高速增長和多業態經營,需要從業務、技術和管理多個方面,對集團的互聯網營銷平臺進行重構升級。2核心需求2核心需求建設新一代互聯網營銷公共服務平臺,進行業務創新,需要根據新系統的設計,將原有分散的用戶
96、基礎數據、用戶行為數據、活動模型數據、資源類目數據、積分數據、交互事件數據、二維碼數據等數據進行整理、補充、完善后,遷移整合至新營銷平臺的共享服務中心。以便前端應用靈活調用,達到業務快速迭代創新的目的。3主要難點3主要難點1、異構遷移數據模型是數據遷移的重要基礎,新平臺各服務中心重新設計了數據模型。需要根據數據模型的變化情況,從不同的源庫獲取數據,進行拆分重組,形成新的目標數據庫。新老平臺數據模型的巨大差異,增加了整個遷移復雜度,主要涉及以下方面:多表合并:老平臺多個系統的多張表,按照業務邏輯合并為一張表。多表拆分:多個系統的核心業務大表與其他表關聯,在新平臺拆分為多張表。云掣科技云運維服務白
97、皮書(2023)第 48 頁字段轉換規則:目標表的新增字段由源數據表的特殊字段(JSON)轉換而來,確認對應的轉換規則。字段默認賦值:目標表的新增字段在源數據表中并不存在,要按照具體的業務邏輯規則計算出字段的默認值。2、業務邏輯復雜原平臺建設初期,業務仍在探索階段,不同開發服務商的建設標準不統一,導致系統孤立建設,功能重復、且存在數據結構設置不合理的情況。隨著用戶體量的增加,用戶體驗變差。新平臺從融合統一的角度進行深度設計,業務結構重組必然帶來底層數據的合并治理,讓數據遷移難度大幅增加。以用戶身份不一致問題為例,用戶與賬號、角色之間存在一對多的關系。在數據遷移的過程中,需要梳理多個系統中同一個
98、真實用戶的多個賬號,多個賬號對應的不同角色,角色相關的積分、訂單、兌獎等數據信息,進行組合、重構,變為新系統中的一個賬號體系。3、數據體量大原平臺有上億用戶量,用戶積分數據量達 10 億。數據遷移量大,要進行大量的計算重組,而可停機時間短,毫不夸張地說每一個系統的數據遷移都是一場與時間賽跑的戰役??简炦w移流程的可控程度,更考驗遷移團隊的風險應對能力。4解決方案4解決方案云掣數據庫專家對現有的各業務系統數據做了詳細的調研與分析,制定數據遷移方案,并完成整體的數據遷移任務。(1)數據調研(1)數據調研盤點待遷移數據源端數據庫實例數量、類型、數據架構、各系統的數據模型。確定本次遷移涉及的阿里云產品主
99、要包含:云數據庫 MySQL表格存儲 Tablestore(OTS)云掣科技云運維服務白皮書(2023)第 49 頁實時分布式搜索與分析引擎 Elasticsearch云原生數據倉庫 AnalyticDB(ADS)(2)方案設計(2)方案設計1 1數據備份方案數據備份方案在遷移前,配置合理的數據備份策略,確保數據備份的有效性。云數據庫 MySQL 使用產品默認備份功能,配置合理的備份策略,實現全量數據和 binlog 日志增量備份。表格存儲 Tablestore 通過將全部數據同步到數據中臺實現備份。AnalyticDB 使用產品自動備份功能,通過數據快照實現集群全量備份,Redo 日志實現增
100、量備份。Elasticsearch 使用 snapshot API 進行對集群打快照,實現備份。2 2遷移工具選型遷移工具選型確定好遷移范圍之后和一致性約束原則之后,分階段進行遷移工具和測試工具的開發,并嚴格制定對應的時間區間。由于改造目的是將多系統進行統一合并,涉及不同系統間的數據打通融合,且數據量達到了十億級。需要選擇具備支持豐富異構數據源,且能夠進行數據治理,滿足離線、實時同步等多種場景的數據加工平臺。DataWorks 平臺對數據傳輸、轉換和集成等操作的能力,可滿足實際需求。云掣科技云運維服務白皮書(2023)第 50 頁3 3數據遷移方案數據遷移方案同構數據遷移使用阿里云的 DTS
101、數據傳輸服務進行結構遷移、全量數據遷移及增量數據拉取,將停服時間降低到分鐘級別。異構數據遷移使用 DataWorks 對數據進行清洗,再經過 DataX 抽取數據,依據數據庫源端與終端的不同,主要涉及以下幾種類型的異構遷移。1、MySQL 到 Elasticsearch 異構遷移由于老平臺在建設初期,對業務后期發展的功能考慮不夠充分,導致現有部分搜索業務直接查詢 MySQL。由于關系型數據庫在全文搜索的場景下有明顯的劣勢效,需要對數據做拆分。將涉全文搜索的數據遷移到 Elasticsearch,核心業務數據仍使用 MySQL 存儲,同時針對核心大表查詢性能差的情況做分庫分表處理。從 MySQL
102、 遷移到 Elasticsearch 需要先從業務邏輯上梳理來自兩個不同系統數據表中字段的對應和融合關系,將源數據同步到數據平臺。經過清洗后匯聚成多張 Elasticsearch 所需的寬表,再根據現有數據量和未來預計增量確認好 Elasticsearch 的分片數。最后確認清洗后表字段和 Elasticsearch 字段的對應關系,同步已完成清洗的表到Elasticsearch 索引。針對核心業務大表,再進一步進行分表處理。2、AnalyticDB 到 Elasticsearch 異構遷移老平臺因業務模塊分批建設,日志數據的搜索查詢,分別采用了云原生企業級數據倉庫服務 AnalyticDB
103、和 Elasticsearch 實現,新平臺統一使用 Elasticsearch,需要對AnalyticDB 和 Elasticsearch 的數據進行合并。云掣科技云運維服務白皮書(2023)第 51 頁與 MySQL 到 Elasticsearch 的異構遷移類似,經過確認字段對應關系,數據清洗,匯聚成寬表,確認分片,數據同步多個環節后,完成遷移過程。3、Tablestore 到 MySQL、Elasticsearch 異構遷移老平臺部分業務高度依賴阿里云表格存儲 Tablestore(OTS),但隨著業務的快速發展,出現了明顯的性能問題。新平臺架構設計做了優化,需要按照新的業務邏輯對OT
104、S 的數據進行拆分遷移:Elasticsearch:存儲需要全文搜索的數據,例如訂單數據。Tablestore:存儲其他用戶登錄日志等相關。MySQL:存儲用戶強相關的數據,同時做分表處理。云掣科技云運維服務白皮書(2023)第 52 頁4 4數據同步方案數據同步方案在整個遷移過程中有兩個環節涉及數據同步,第一個環節是從源數據庫同步數據到 DataWorks,在 DataWorks 中對數據進行加工處理,存儲到中間庫,第二個環節是從中間庫同步數據到目標庫。以用戶表的拆分為例,整個遷移過程如下圖所示:存量數據同步存量數據同步1、確定存量數據遷移時間點。2、使用 DataWorks 進行數據清洗,
105、將清洗后的數據存入中間數據庫。3、通過數據集成工具將中間數據庫的數據同步到目標數據庫。增量數據同步增量數據同步1、根據存量數據遷移時間戳,篩選出新增需要遷移的數據。2、采取和存量數據相同的邏輯,對數據進行清洗,存入中間數據庫。3、最后通過數據集成工具按照增量的方式將中間數據庫的數據同步到目標數據庫。數據校驗方案數據校驗方案遷移操作過程中的任何誤差都可能導致數據不一致,影響數據質量,從數據完整性和一致性兩個方面進行數據校驗。數據完整性數據完整性從數據對應關系,新舊數據在相同時間段內的數據條目數等維度確定對應的約束性原則。以 RDS 的完整性校驗為例:同構遷移數據使用 DTS 自帶的驗證功能抽樣驗
106、證,重要的表使用腳本取模函數確認無誤。異構遷移的數據首先確認清洗重構的邏輯無誤,云掣科技云運維服務白皮書(2023)第 53 頁遷移前后數據對比行數對比無誤,拆分前后數據量一致,并抽樣用戶相關所有表在經過清洗加工后符合預期。數據準確性數據準確性依賴于模擬真實的業務場景下的用戶行為,由研發、測試、運營共同配合校驗。例如遷移后的訂單數據,對應的買家和商品關聯數據在遷移之后必須也保持完整,如果遷移的一個訂單到新系統之后被拆分為幾個子訂單,拆分的子訂單聚合之后也應該能夠完整地復現出舊訂單相關數據。5 5數據回滾方案數據回滾方案針對遷移過程中的增量數據問題以及其他可能的異常情況,制定對應的數據回滾方案。
107、以 MySQL 和 Elasticsearch 的回滾為例,根據新老系統表結構映射關系,進行新系統到老系統的逆向同步。同步完成后,通過分析清洗日志,對比清洗數據及目標數據量,同時進行抽樣檢測來實現回滾數據的遷移完整性校驗。云掣科技云運維服務白皮書(2023)第 54 頁(3)遷移實施過程(3)遷移實施過程依據標準的遷移流程,按照業務優先級分階段進行用戶、積分、品規、掃碼、活動、內容、商城、系統各中心的數據遷移。需要提前準備好拆分和重組腳本,并通過充分的測試保障腳本正確性,完成特殊情況的處理。數據安全保障數據安全保障數據安全是數字經濟時代下企業高質量發展的首要保障,在數據遷移過程中,從數據備份、
108、訪問控制、權限審批、數據審計、安全漏洞多個方面入手,加強數據保護。5項目成果5項目成果成功完成了單表 10 億級數據量的異構遷移,多賬號多角色的用戶去重去冗余,實現了統一用戶標識,為提取用戶標簽,實現用戶畫像打牢數據基礎。有效地解決了集團不同區域營銷系統不統一,用戶多重身份的運營難點。云掣科技云運維服務白皮書(2023)第 55 頁(八)案例 8、數據庫高可用架構建設(八)案例 8、數據庫高可用架構建設1項目背景1項目背景某互聯網+健康醫療整體解決方案提供商,通過構建線上實名認證卡管系統、虛擬賬戶結算管理系統、移動互聯網平臺、遠程運維監控平臺、預約掛號系統平臺,并輔以線下排隊及信息發布終端、自
109、助服務終端、健康數據采集終端、診間結算設備,提供從咨詢、預約、一卡就診、電子病歷管理、診間支付等就診全流程優化服務,打造線上+線下的智慧醫院 o2o 閉環服務生態系統,致力于為患者提供就診全流程優化服務。2客戶需求2客戶需求智慧醫療在實現醫院和患者便利的同時,對后臺系統的性能有了更高的要求。每一次故障,都會對醫院造成極大影響,處理不及時會嚴重影響患者的治療。為了將故障對系統的影響降至最低,客戶尋求業界專家對數據庫系統做同城雙機房高可用容災,云掣科技數據庫團隊為客戶提供了數據庫高可用集群解決方案及數據庫運維服務,為智慧醫療保駕護航。3解決方案3解決方案基于該智慧醫療系統業務實際情況,云掣科技提供
110、了成熟穩健的“MHA+ProxySQL+Keepalived”高可用架構方案:使用千兆光纖物理專線連接同城雙機房,確保網絡連接質量和數據傳輸速度?;趯>€構建大局域網,降低網絡環境復雜度,保障數據傳輸的安全性。主機房部署雙節點,限制服務器級故障轉移在同機房內切換,保障恢復速度。備份實例使用級聯復制,隔離于業務系統之外,提供日常報表查詢及數據庫備份服務。云掣科技云運維服務白皮書(2023)第 56 頁當主機房 A 癱瘓,所有功能模塊會全部轉移到容災機房 B,繼續對外提供服務?;谠瞥笖祿爝\維管控平臺,對數據庫進行監控,降低運維成本的同時運維提高效率。數據庫運維服務4客戶收益4客戶收益數據庫系統
111、作為智慧醫療體系中重要的后端支撐,自上線以來在實踐中一直穩定運行,保障了廣大患者就醫的便利性。極大提升故障恢復效率,由服務器硬件引發的故障,實現了分鐘級別切換到備庫,保障了業務的穩定運行,使患者獲得更好就醫體驗。云掣科技云運維服務白皮書(2023)第 57 頁數據庫在整個系統中屬于比較脆弱的一環,雖然可以做到高可用,但使用不當、性能問題同樣會造成嚴重的后果,仍需要有專業的 DBA 持續運維。云掣科技以完善的運維方案協助客戶提高數據庫穩定性。七、云運維服務展望七、云運維服務展望根據 IDC 的預測,中國第三方云運維服務在 2020 年到 2025 年間將保持 40.6%的復合增長率,2025 年
112、市場規模預計達到 37.4 億美元。云運維服務的服務范圍已經從最初的托管運維服務,逐漸拓展到遷移部署和咨詢規劃,再到安全防護和應用優化。云原生技術的運用將更加深入、廣泛,AIOPS 在運維中會起到更重要的作用。云運維服務廠商需要在云原生、AIOPS 等新興領域進行投入,掌握相關技術,提升產品和服務的能力,以更好地滿足企業客戶數字化轉型過程中,對 IT 系統效率、成本、穩定性、可擴展性等各方面的需求。(一)云原生技術運用更加深入(一)云原生技術運用更加深入1、應用架構更適合云原生當前很多應用雖然已經在云上,但依然使用了傳統的應用架構。隨著云原生技術的廣泛使用,未來應用架構設計上,會基于云原生的特
113、點進行升級改造,使用微服務化、服務網格等技術,更充分地利用云原生來實現應用系統的擴展性,達到成本和效益的平衡。2、數據庫和大數據集群云原生化應用系統因其無狀態的特點,非常適合運行在以 Kubernetes 為代表的容器化集群中。隨著計算與存儲分離技術架構的成熟,以數據庫、大數據集群為代表的有狀態服務,也能實現容器化,運行在云原生架構下。云原生可以實現自動化管理、部署和擴展,實現快速部署和升級,提高開發效率和運維效率。此外,云原生技術可以通過引入可觀測技術,實現自動化監控和分析,快速發現和解決問題,提高數據庫和大數據集群的性能和穩定性。3、基礎設施即代碼(IaC)技術使用云掣科技云運維服務白皮書
114、(2023)第 58 頁基礎設施即代碼(Infrastructure-as-Code,IaC)是一種使用代碼來定義和管理基礎設施,而不是使用手動流程。利用 IaC,可以創建包含基礎設施規范的配置文件,從而便于編輯和分發配置。此外,它還可確保每次置備的環境都完全相同。通過 IaC,可以更快地部署、更容易地管理和更快地恢復基礎設施。IaC 可以提高 IT 運維效率和質量,減少人工干預,提高 IT 運維效率和質量。4、持續交付模型升級持續集成、持續交付旨在提升軟件構建、測試與發布的效率。云原生時代,普遍采用容器化技術,基于 GitOps 持續交付將會成為主流的模型之一。GitOps 的核心思想是將應
115、用系統的聲明性基礎架構和應用程序存放在 Git 的版本控制庫中。它的主要優勢包括提高生產力,提升開發者體驗等。(二)AIOPS 和可觀測技術結合,在運維中起到重要作用(二)AIOPS 和可觀測技術結合,在運維中起到重要作用應用和數據庫、大數據機器容器化,計算資源和存儲資源分離,應用和數據庫具備了可擴展能力??捎^測技術具備全鏈路數據采集和分析能力。結合 AIOPS 的算法能力,在未來可以實現更高級別的自動化運維。1、集群水位智能預測可觀測技術采集了全面的數據,包括基礎資源、應用系統、網絡流量等各個層面的數據,通過智能算法,可以針對業務訪問規律建模,結合基礎資源水位信息,可以評估出系統的容量。結合
116、云原生技術如 Kubernetes 集群的可擴展能力,可實現應用、數據庫、中間件的自動擴縮容。根據模型預測,在業務高峰到來之前,提前擴充資源以支撐業務,在業務低峰時期,自動縮減集群規模,降低成本。2、故障自動分析和自愈當前 AIOPS 已經在一些運維場景中得到應用,如通過異常檢測算法實現動態閾值告警。通過對告警數據分析建模,實現告警收斂。未來,隨著智能算法能力的提升,在一些場景下,AIOPS 不僅能發現系統的故障,分析出故障根因,還能結合云原生技術,實現故障的自動恢復,極大提升運維效率。云掣科技云運維服務白皮書(2023)第 59 頁參考資料1.中國信息通信研究院.云計算白皮書(2022 年).2.艾瑞咨詢.2020 年中國 IT 基礎架構運維市場研究報告.3.艾瑞咨詢.云服務行業動態及熱點研究月報(2022 年 10 月).