《聯通研究院-吳天昊-“1-5-15”原則:數字化監控平臺可觀測穩定性保障實踐.pdf》由會員分享,可在線閱讀,更多相關《聯通研究院-吳天昊-“1-5-15”原則:數字化監控平臺可觀測穩定性保障實踐.pdf(26頁珍藏版)》請在三個皮匠報告上搜索。
1、“1-5-151-5-15”原則:中國聯通數字化監控平臺原則:中國聯通數字化監控平臺可觀測穩定性保障實踐可觀測穩定性保障實踐吳天昊吳天昊中國聯通軟件研究院中國聯通軟件研究院副總架構師副總架構師吳天昊中國聯通軟件研究院 副總架構師“負責數字化生產運營保障體系建設與落地負責數字化監控平臺整體架構設計及演進致力于完善“平臺+應用”生態體系,打造聯通集團自動化生產和智慧化運營的生產運營平臺”講師簡介目錄03數字化轉型運維問題挑戰數字化監控平臺整體架構智能運維場景的應用實踐一、數字化轉型運維問題挑戰一、數字化轉型運維問題挑戰問題痛點問題痛點痛點指標紛繁復雜看不全,看不清?指標紛繁復雜看不全,看不清?各層
2、級數據不互通共享,鐵路警察各管一段?各層級數據不互通共享,鐵路警察各管一段?告警無人關注,處理緩慢?告警無人關注,處理緩慢?需需2424小時運維值守,無法故障自愈及自動化小時運維值守,無法故障自愈及自動化?故障發現無法及時拉會,故障管理質量效率低下故障發現無法及時拉會,故障管理質量效率低下?無應急方案,應急操作時候全是問題無應急方案,應急操作時候全是問題?故障如何快速發現故障如何快速發現故障如何快速搶通故障如何快速搶通故障如何快速定位故障如何快速定位系統調用關系復雜,故障排查困難?系統調用關系復雜,故障排查困難?云化架構下容器服務與主機關聯關系不清?云化架構下容器服務與主機關聯關系不清?只知道
3、有問題,不知道問題出現在哪里,根因無法定位?只知道有問題,不知道問題出現在哪里,根因無法定位?故障如何優化預防故障如何優化預防故障反復出現,復盤改進沒有效果?故障反復出現,復盤改進沒有效果?全鏈路性能瓶頸點和容量水位上線不知道?全鏈路性能瓶頸點和容量水位上線不知道?隱患無法察覺,沒有提前治理優化隱患無法察覺,沒有提前治理優化?云原生下一些常見的典型故障云原生下一些常見的典型故障故障根因在故障根因在IaaSIaaS主機主機故障根因在故障根因在PaaSPaaS組件組件故障根因在外部接口故障根因在外部接口故障根因在故障根因在SaaSSaaS服務下的實例服務下的實例數字化轉型運維面臨的挑戰數字化轉型運
4、維面臨的挑戰監控對象:幾何級數增長,人力維護不能勝任監控對象:幾何級數增長,人力維護不能勝任調用承載關系極其復雜,亟待引入運維工具調用承載關系極其復雜,亟待引入運維工具應用軟件應用軟件:硬件硬件:上千個上千個微服務微服務幾套Oracle幾十種中間件清單幾十種中間件清單可數小型機成千上萬成千上萬硬件硬件中間件中間件:幾個Jar包運維生態挑戰運維生態挑戰分布式架構挑戰分布式架構挑戰業務連續性挑戰業務連續性挑戰工具重復:工具按煙囪式建設,能力分散能力割裂:運維工具能力割裂不成體系數據孤島:應用、數據庫、中間件、云平臺、基礎設施各管自身維護對象:系統節點、微服務數量幾何級數增加調用關系:從簡單對應到極
5、其復雜,人力維護無法勝任數據分片、異地存儲,傳統維護模式難以為繼故障處理過多依賴專家經驗,系統服務間調用鏈路復雜,故障分析定位困難端到端的穩定性保障體系缺失,自動化、智能化故障應急處理能力不足故障處于被動防御、救火,沒有提前預防手段,運維大數據未被合理價值挖掘 隨著隨著云原生云原生技術的不斷成熟,企業技術的不斷成熟,企業數字化轉型數字化轉型也在不斷加速,企業也在不斷加速,企業ITIT架構架構進入云原生時代,進入云原生時代,多云多集群多云多集群部署已經部署已經成為常態和趨勢,成為常態和趨勢,幾何增長幾何增長的云資源、微服務以及的云資源、微服務以及復雜化復雜化的調用關系與業務場景,的調用關系與業務
6、場景,傳統人肉運維難以為繼傳統人肉運維難以為繼,如,如何保障系統的全面穩定,保證業務流程的高效運轉,為系統運營提出了不小的挑戰。何保障系統的全面穩定,保證業務流程的高效運轉,為系統運營提出了不小的挑戰。二、數字化監控平臺整體架構二、數字化監控平臺整體架構數字化監控平臺功能架構數字化監控平臺功能架構 基于云原生下的基于云原生下的生產運營支撐平臺生產運營支撐平臺,以全局運營視角解讀,以全局運營視角解讀ITIT運維,提供運維,提供端到端、全層級端到端、全層級的運維工具支撐,依托的運維工具支撐,依托大數據與人工智能技術,助力企業數字化業務高效、穩定運行,從傳統運維向自動化生產、智慧化運營轉變。大數據與
7、人工智能技術,助力企業數字化業務高效、穩定運行,從傳統運維向自動化生產、智慧化運營轉變。運行保障(自動化生產)運行保障(自動化生產)運營生態運營生態運營響應(智慧化運營)運營響應(智慧化運營)基基礎礎設設施施生產運營工作臺生產運營工作臺PCPC端(谷歌端(谷歌/火狐火狐/360/360)釘釘端釘釘端西咸西咸IDCIDCCCSCCS主機設備主機設備CKECKE阿里飛天阿里飛天網絡設備網絡設備亦莊亦莊IDCIDCCCSCCS主機設備主機設備阿里飛天阿里飛天網絡設備網絡設備無錫無錫IDCIDCCCSCCS主機設備主機設備CKECKE阿里飛天阿里飛天網絡設備網絡設備廣州廣州IDCIDCCCSCCS主機
8、設備主機設備CKECKE阿里飛天阿里飛天網絡設備網絡設備呼和呼和IDCIDCCCSCCS主機設備主機設備CKECKE阿里飛天阿里飛天網絡設備網絡設備統一架構統一架構微前端微前端qiankunqiankun微服務微服務聯通云平臺聯通云平臺天梯持續集成天梯持續集成服務能力管控服務能力管控服務注冊服務注冊服務路由服務路由流量控制流量控制熔斷熔斷服務鑒權服務鑒權自主接入自主接入在線申請在線申請代理路由代理路由統一登錄統一登錄統一登錄鑒權統一登錄鑒權賬號體系管理賬號體系管理接入便捷接入便捷靈活對接第三方登錄靈活對接第三方登錄開發者中心開發者中心APIAPI服務訂購服務訂購SaaSSaaS應用上架應用上架
9、數據數據APIAPI接口快速配置接口快速配置運營分析運營分析開發手冊開發手冊前端框架樣例前端框架樣例UIUI組件樣例組件樣例權限集成樣例權限集成樣例APIAPI接入樣例接入樣例基基礎礎能能力力管控平臺管控平臺命令通道命令通道數據通道數據通道文件通道文件通道權限中心權限中心用戶管理用戶管理菜單管理菜單管理租戶管理租戶管理應用管理應用管理數據采集數據采集瀏覽器瀏覽器服務性能服務性能中間件中間件主機資源主機資源APPAPP感知感知天擎服務天擎服務云平臺云平臺網絡資源網絡資源監控告警監控告警告警通知告警通知告警處理告警處理告警靜默告警靜默告警查詢告警查詢作業能力作業能力作業編輯作業編輯作業調度作業調度
10、作業執行作業執行作業查看作業查看AIAI算法算法動態閥值能力動態閥值能力指標異常檢測指標異常檢測指標趨勢預測指標趨勢預測日志異常檢測日志異常檢測ITSMITSM流程引擎流程引擎流程編排流程編排流程調度流程調度流程執行流程執行流程查詢流程查詢配置中心配置中心配置發現配置發現配置采集配置采集配置拓撲配置拓撲配置查詢配置查詢基礎數據運維基礎數據運維數據庫管理數據庫管理數據查詢數據查詢數據稽核數據稽核任務調度任務調度工單運營服務工單運營服務工單查詢工單查詢工單處理工單處理工單評價工單評價工單分類工單分類知識庫服務知識庫服務知識存儲知識存儲知識管理知識管理知識搜索知識搜索知識推薦知識推薦及時通訊服務及時
11、通訊服務消息接收消息接收消息推送消息推送多類型消息多類型消息消息群組消息群組第三方能力第三方能力短信發送短信發送IVRIVR語音推送語音推送釘釘消息釘釘消息郵件發送郵件發送APIAPIAPIAPIB/M/DB/M/D域核心觸點域核心觸點cBSScBSS聯通公眾聯通公眾智慧門戶智慧門戶能力能力開放開放能能力力共共享享核核心心應應用用開開發發支支撐撐變更管理變更管理任務調度平臺任務調度平臺變更追蹤變更追蹤配置管理配置管理傳統傳統CMDBCMDB云化云化CMDBCMDB自動化運維自動化運維自動化作業自動化作業故障自愈故障自愈穩定性測試穩定性測試自動化巡檢自動化巡檢接收測試接收測試壓力測試壓力測試監控
12、管理監控管理瀏覽器、瀏覽器、APPAPP監控監控全流程調用鏈監控全流程調用鏈監控智能監控告警平臺智能監控告警平臺亞亞健健康康日日志志中中心心軟研院軟研院天擎運維天擎運維天宮棧運維天宮棧運維新客服運維新客服運維基礎設施運基礎設施運維維計費運維計費運維業務連續性業務連續性故障管理故障管理用戶體驗用戶體驗感知運營感知運營知識管理知識管理沃運營沃運營問題管理問題管理沃運營沃運營補天平臺補天平臺訂單醫生訂單醫生省公司省公司廣東二級研發廣東二級研發山東二級研發山東二級研發上海二級研發上海二級研發服務臺服務臺沃運營沃運營一體化一體化運營運營數字化監控平臺技術架構數字化監控平臺技術架構Marathon微前端M
13、arathon A(租戶1)用戶中心權限中心Marathon B(租戶2)告警中心Marathon C(租戶3)配置中心運維監控數據存儲數據采集數據處理Prometheus聯通云數字化研發平臺PinpointSDKJSAgentKafkaFlinkMysqlRedisClickHouseElasticSearchMongoDBkubernetesM“平臺平臺+應用應用”體系體系 生產運營工作臺生產運營工作臺 數字化監控平臺的生產運營工作臺采用數字化監控平臺的生產運營工作臺采用“平臺平臺+應用應用”模式,借鑒模式,借鑒蘋果蘋果App StoreApp Store倉庫模式,構建倉庫模式,構建“企業
14、運維企業運維生態生態”,提供,提供PC/PC/移動多終端處理能力,入駐應用移動多終端處理能力,入駐應用10100+0+。統一規劃規劃統一架構架構統一登錄登錄統一權限權限統一能力能力統一風格風格三、智能運維場景的應用實踐三、智能運維場景的應用實踐智能運維核心場景智能運維核心場景數智數智運維運維及時發現及時發現全層級實時監控,1 1分鐘分鐘故障發現智能定位智能定位快速搶通快速搶通有效預防有效預防閉環治理閉環治理全鏈路深度追蹤,5 5分鐘分鐘故障根因定位自動化應急預案,1 15 5分鐘分鐘故障快速搶通靈魂拷問,舉一反三,100%100%故障閉環追蹤應急演練、健康檢查、智能自愈,3 3重保障重保障智能
15、隱患分析智能隱患分析統一監控告警統一監控告警故障閉環整改故障閉環整改統一故障調度統一故障調度智能故障自愈智能故障自愈一鍵智能診斷一鍵智能診斷涵蓋業務層、前端觸點層、服務層、組件層、資源層的全層級監控覆蓋指標、鏈路、日志三位一體,實現故障快速發現、根因準確定位故障事中一鍵拉會,統一作戰指揮室,有序調度故障處理,實現業務快速搶通深度系統健康體檢,全鏈路性能隱患分析,壓降系統隱患AI智能決策引擎有效識別系統裂化風險,自動完成實例查殺、重啟等多種場景故障上報、報告編寫、治理追蹤全流程線上化閉環管理,確保故障經驗有效沉淀,整改措施有效落地 智能運維核心場景要做到端到端的故障發現、故障定位、故障調度、智能
16、運維核心場景要做到端到端的故障發現、故障定位、故障調度、故障處置、故障整改、故障預防。故障處置、故障整改、故障預防。統一監控告警統一監控告警 統一全層級監控標準,縱向互聯互通,打破分散割裂格局,實現統一全層級監控標準,縱向互聯互通,打破分散割裂格局,實現全層級、全鏈路、端到端全層級、全鏈路、端到端的性能監控和鏈路追蹤。的性能監控和鏈路追蹤?;A資源/、容器平臺中間件/數據庫服務應用鏈路核心業務指標APP性能監控前端瀏覽器監控全流程調用鏈智能監控告警平臺前端觸點感知APP端PC端全層級監控全層級監控全層級健康檢查&日志APP崩潰率、卡頓率等頁面加載時間、請求響應等服務調用鏈路、調用量、成功率等基
17、礎監控指標及閉環告警通用平臺以以系系統、統、租租戶戶為為維維度度縱縱向向互互通通聯通聯通云云基礎基礎設施設施應用應用指標指標采集采集統統一一采采用用P PR RO OMME ET TH HU UE ES S互互傳傳ES、REDIS、MLB、NGINX等應用自建應用自建中間件中間件CPU、內存、流量等容器容器CPU、內存、硬盤、IO、流量等主機主機負載均衡、交換機、防火墻的CPU、流量、連接數等網絡網絡RDS、DRDS等中間件指標聯通云聯通云中間件中間件對外能力接口成功率、超時率接口接口業務成功率、發展量、工單積壓等業務業務服務/接口調用量、超時、異常等后端后端應用應用PC:頁面耗時、AJAX耗
18、時、JS報錯、彈窗APP:崩潰率、卡頓率前端前端觸點觸點智能監控告警平臺智能監控告警平臺數據采集:數據采集:采集組件管理、私有數據倉庫接入、租戶自定義采集監控配置:監控配置:告警規則、收斂條件、告警內容靜默管理:靜默管理:多維靜默管理(全量、監控點、監控實例)告警通知:告警通知:告警工單推送、電話催辦告警處理告警處理:雙終端工單處理、工單閉環管理閉環管理告警大屏:告警大屏:系統監控告警全景圖、告警工單處理進度 平臺提供平臺提供IaaSIaaS、PaaSPaaS、SaaSSaaS各層級監控能力,實現各層級監控能力,實現多層級運維數據互通多層級運維數據互通,支持全流程可視化配置,多渠道告,支持全流
19、程可視化配置,多渠道告警通知,工單閉環管理,用戶快速實現監控接入,為系統日常生產運行提供保障。警通知,工單閉環管理,用戶快速實現監控接入,為系統日常生產運行提供保障。制定全層級指標標準制定全層級指標標準346346項項全流程調用鏈監控全流程調用鏈監控通過探針非侵入式采集,實現調用鏈實時追蹤、全層級故障根因定位。支持通過探針非侵入式采集,實現調用鏈實時追蹤、全層級故障根因定位。支持多租戶、多系統接入、多租戶、多系統接入、服務鏈路拓服務鏈路拓撲、撲、多維根因定位分析、告警配置等功能。多維根因定位分析、告警配置等功能。調用拓撲調用拓撲服務趨勢服務趨勢/報錯異常報錯異常SaaS/PaaS/IaaSSa
20、aS/PaaS/IaaS實例實例/接口分析接口分析JVM/GCJVM/GC分析分析告警配置告警配置全流程調用鏈拓撲自動生成,分租戶管理PaaS層組件、平臺容器資源情況,IAAS層主機資源服務調用關系、趨勢圖、報錯分類(系統/業務)調用量、超時、異常黃金指標多指標自由組合服務實例JVM與GC情況分析調用鏈與云化CMDB做關聯,關聯到容器與主機跨系統分布式追蹤跨系統分布式追蹤支持支持跨系統跨系統、跨云平臺跨云平臺(CKE/CCS/EDASCKE/CCS/EDAS)、)、跨數據中心跨數據中心(亦莊、西咸、廊坊、無錫)鏈路拓撲,通過分數據(亦莊、西咸、廊坊、無錫)鏈路拓撲,通過分數據中心匯總串聯,完成
21、跨系統調用實時追蹤和方法清單級根因定位,日均處理近中心匯總串聯,完成跨系統調用實時追蹤和方法清單級根因定位,日均處理近千億千億數據。數據。西咸數據中心西咸數據中心 (聯通云聯通云CCS 4.0)CCS 4.0)collector-server新客服新客服agent系統系統agent系統系統agentkakfaflinkclickhousesinker亦莊亦莊數據中心數據中心 (聯通云聯通云CCSCCS 2.0)2.0)collector-servercBSScBSSagent天眼天眼agent系統系統agentkakfaflinkclickhousesinker廊坊廊坊數據中心數據中心 (阿里
22、飛天阿里飛天EDAS)EDAS)collector-server公眾中臺公眾中臺agent政企政企中臺中臺agent天擎天擎agentkakfaflinkclickhousesinker無錫無錫數據中心數據中心 (聯通云聯通云CKE 4.0CKE 4.0)collector-server公眾中臺公眾中臺agent政企政企中臺中臺agent天擎天擎agentkakfaflinkclickhousesinker創創新新點點:跨跨數數據據中中心心鏈鏈路路組組裝裝亦莊主資源池亦莊主資源池kafkaclickhouseneo4jmysqlcBSScBSS新架新架構構智慧客服智慧客服政企中臺政企中臺公眾中
23、臺公眾中臺管理中臺管理中臺分布式計算、單元化支撐、彈性擴展分布式計算、單元化支撐、彈性擴展前端觸點監控前端觸點監控工號稽核工號稽核系統總覽系統總覽頁面性能分析頁面性能分析彈窗分析彈窗分析AJAXAJAX分析分析用戶軌跡分析用戶軌跡分析采用采用JSJS埋點的方式,采集用戶訪問過程的性能指標,獲取埋點的方式,采集用戶訪問過程的性能指標,獲取瀏覽器端的真實用戶行為與體驗數據。包括瀏覽器端的真實用戶行為與體驗數據。包括頁面加載、頁面加載、點擊、彈窗、點擊、彈窗、JSJS報錯、報錯、ajaxajax等用戶全軌跡跟蹤,通過大數據分析,應用于院內等用戶全軌跡跟蹤,通過大數據分析,應用于院內故障定位、安全分析
24、、終端分析、故障定位、安全分析、終端分析、感知分析、異常分析感知分析、異常分析等場景。等場景。一鍵智能診斷一鍵智能診斷 通過采集指標、鏈路通過采集指標、鏈路、報文報文日志日志,實現,實現三位一體的可觀測性三位一體的可觀測性,在系統縱向全層級方面實現觸點層、服務層、組件,在系統縱向全層級方面實現觸點層、服務層、組件層、平臺層、主機層、網絡層縱向貫通,結合云化層、平臺層、主機層、網絡層縱向貫通,結合云化CMDBCMDB關聯定位,實現關聯定位,實現全層級一鍵診斷全層級一鍵診斷,端到端快速定位問題,端到端快速定位問題根因。根因??捎^測可觀測指標、鏈路指標、鏈路、報文日志、報文日志三位一體三位一體鏈路鏈
25、路Tracing指標指標Metrics報文報文Logs2.2.定位根因定位根因服務服務BACDX利用圖數據庫關系在海量告警服務中快速定位根因服務,如150個服務告警根因服務縮小到5個左右。1.1.發現業務發現業務影響影響觸點+業務監控評估影響范圍。開戶開戶繳費繳費6.6.定位根因定位根因網絡網絡1 1定位網絡及接入設備的問題。交換機交換機路由器路由器負載均衡負載均衡3.3.定位根因定位根因實例實例通過核密度估計算法和DBSCAN聚類算法判定根因實例。主機主機3主機主機1主機主機2分布于Redis1Redis2Redis34 4 定位根因定位根因組件組件掃描根因服務調用的組件調用鏈指標、組件指標
26、、組件告警判定根因組件。智能診斷智能診斷縱向貫通縱向貫通實現實現全層級全層級一鍵診斷一鍵診斷調用服務X有3個實例,X3出現問題X1X3X25.5.定位根因定位根因主機主機通過云化CMDB獲取實例、組件與主機的關系,對主機的指標與告警進行掃描。Redis集群3個實例,2出現問題停開機停開機A AB BC CD D 調 用 量 超 時 量 異 常 量 失 敗 量.請 求 報 文 響 應 報 文 異 常 日 志故障診斷故障診斷 依托依托全層級監控指標數據、全層級監控指標數據、全層級鏈路調用、云原生全層級鏈路調用、云原生CMDBCMDB,建立建立故障傳遞模型故障傳遞模型,以,以服務層服務層為故障起點進
27、行縱為故障起點進行縱向串聯,配以向串聯,配以規則規則+AI+AI的能力實現全層級一鍵智能的能力實現全層級一鍵智能故障診斷。故障診斷。全層級指標數據全層級指標數據分布式鏈路拓撲數據全層級核心監控指標 以服務為起點縱向關聯以服務為起點縱向關聯 云原生下以服務告警觸發進行上下游關聯 云原生云原生CMDBCMDB服務、組件、主機、網絡關系拓撲 智能根因定位智能根因定位服務異常實例波動平臺組件指標異常主機異常宕機夯死網絡設備帶寬打滿 服務實例異常服務實例異常:根因服務實例耗時突增根因服務實例耗時突增實例實例GC引發故障引發故障主機宕機異常主機宕機異常:lb所在主機宕機導致所在主機宕機導致lb實實例銷毀重
28、啟服務波動例銷毀重啟服務波動 Oracle異常異常:Oracle會話數突增導致服會話數突增導致服務連接超時增多務連接超時增多網絡異常網絡異常:網絡帶寬使用率指標打滿網絡帶寬使用率指標打滿引起訪問受限引起訪問受限ES異常異常:ES進程負載率突增導致上游進程負載率突增導致上游服務連接超時服務連接超時Redis異常異常:Redis耗時波動引起上游服耗時波動引起上游服務連接超時務連接超時RDS異常異常:RDS慢慢sql突增導致節點狀突增導致節點狀態異常態異??炝⒎疆惓?炝⒎疆惓?根因服務下游調用快立方告根因服務下游調用快立方告警異常警異常智能故障自愈智能故障自愈告警信息運維專家任務調度平臺自愈工單生成
29、智能自愈判斷邏輯引擎告警配置沉淀關聯自動化作業平臺操作/腳本作業編排執行計劃運維場景作業調度執行引擎外部能力運維PaaS平臺基礎資源運維場景應用系統運維場景業務服務運維場景云平臺自動化運維agent(物理機)探針能力自愈工單審批推送審批 將將“監監”、“管管”、“控控”工具能力融合,告警信息結合工具能力融合,告警信息結合AIAI判定算法,觸發自動化作業能力,實現故障自愈流判定算法,觸發自動化作業能力,實現故障自愈流程,有效縮短故障處理、恢復時間。程,有效縮短故障處理、恢復時間。告警與自動化作業場景關聯AI引擎+任務調度引擎自動判定應用異常并自動執行調度流程多語言、標準化腳本管理作業編排流程可視
30、化作業執行調度、敏感命令檢查、操作記錄留痕故障閉環管理故障閉環管理 故障事前、事中、事后全流程線上閉環管理,提升故障管理質量和效率,降低故障時長及次數,提升業務連續故障事前、事中、事后全流程線上閉環管理,提升故障管理質量和效率,降低故障時長及次數,提升業務連續可用率??捎寐?。故障事中調度故障事中調度故障發現故障發現故障響應與應急故障響應與應急故障改進故障改進應急演練應急演練故障事前預防故障事前預防故障事后改進故障事后改進監控告警自動化巡檢影響判斷是否滿足業務場景SLO故故障障上上報報問問題題管管理理事事件件上上報報客服投訴輿情省分上報一鍵拉會一鍵拉會故障上報故障上報故障級故障級別初判別初判客服
31、聯動客服聯動判斷業判斷業務影響務影響啟動業啟動業務應急務應急預案預案業務驗業務驗證證變更識變更識別別啟動技啟動技術應急術應急預案預案故障恢故障恢復復故障更新故障更新故障復盤準備故障復盤準備啟動故障簡報啟動故障簡報機制機制較大以上影響判斷影響判斷外部批量 線上統一看板線上統一看板 組組 織織 投投 屏屏 故故 障障 時時 間間 線線值班人值班人信息記錄信息記錄負責人負責人調度負責人調度負責人整體負責整體負責故障初故障初因定位因定位輿情輿情聯動聯動識別輿情下發演練計劃下發演練計劃(5 5個工作日窗口)個工作日窗口)技技術術線線通通報報線線記記錄錄屏屏業業務務線線按故障調度標準進按故障調度標準進行突
32、擊演練行突擊演練(實操(實操/桌面)桌面)調度負責人調度負責人技術負責人技術負責人信息通報人信息通報人信息記錄人信息記錄人復盤優缺點,輸復盤優缺點,輸出演練報告出演練報告優化改進閉環優化改進閉環業務負責人業務負責人演練特點演練特點時間隨機“兩不”突擊演練場景隨機預案池隨機抽取預案故障應急演練故障演練調度是否有序響應是否及時桌面演練桌面演練預案是否熟悉時間是否達預期是否可執行效果是否達預期實操演練實操演練預案提升預案提升測試環境實操預案全自動執行生產環境實操預案半自動執行主動發現主動發現被動發現被動發現標準化故障復盤標準化故障復盤(2424小時)小時)如發生可快速恢復不再發生此類故障兩個目標兩個
33、目標故障報告故障報告(2 2個工作日)個工作日)回溯詳實處理過程統計量化業務影響四項要求四項要求多層級原因分析舉一反三制定整改措施整改措施未落實不放過原因未查清不放過責任人員未處理不放過有關人員未受到教育不放過四不放過四不放過故障演練故障演練(10(10個工作日個工作日)整改落整改落地地故障定故障定級級故障定故障定責責列入故障列入故障預算預算故障處罰故障處罰(次月次月1010日前日前)故障受教育故障受教育(次月次月1313日前日前)專家審核專家審核抽查評審抽查評審故障報告故障報告評價評價典型故障典型故障分享分享業務負責人業務負責人技術負責人技術負責人信息通報信息通報負責人負責人智能隱患分析智能
34、隱患分析 結合監控指標與容量指標,定期開展容量隱患評估,通過核心業務鏈路的全鏈路壓測,分析鏈路性能瓶頸,建結合監控指標與容量指標,定期開展容量隱患評估,通過核心業務鏈路的全鏈路壓測,分析鏈路性能瓶頸,建立健康度算法模型,識別與治理系統潛在風險隱患,保障系統健康穩定。立健康度算法模型,識別與治理系統潛在風險隱患,保障系統健康穩定。鏈路性能瓶頸分析鏈路性能瓶頸分析系統健康檢查系統健康檢查容量隱患分析容量隱患分析B BA AC CD D深度性能問題分析深度性能問題分析定位性能瓶頸節點定位性能瓶頸節點初步定位初步定位看表象看表象 鏈路節點RT增長-初步定位瓶頸節點 trace明細分析-Gap等待時間長
35、、自耗時高、慢SQL.鏈路調用量-重復調用問題 解釋表象解釋表象 線程池、連接池是否打滿 慢SQL分析 內部方法自耗時高原因 重復調用是否可優化 整體報告生成推動整體報告生成推動治理治理性能治理性能治理 壓測結論、問題、論證、優化方案 與研發側確認問題、推動治理 流量回放與復測等 高風險指標高風險指標中風險指標中風險指標低風險指標低風險指標服務層檢測服務層檢測 服務超時率 服務異常率 服務調用量 服務平均響應時長 組件層檢測組件層檢測 ES健康節點/堆內存使用率/.REDIS內存使用率/內存碎片比率 KAFKA消息積壓/topic副本 資源層檢測資源層檢測 內存使用率 cpu使用率 磁盤使用率
36、 頁面層檢測頁面層檢測 頁面彈窗數 頁面JS錯誤 頁面平均響應時長 健康檢測引擎健康檢測引擎評分與趨勢評分與趨勢實時監控體檢實時監控體檢風險問題閉環整改風險問題閉環整改性能對比性能對比隱患報告定時推送隱患報告定時推送運營閉環管理運營閉環管理132容量標準制定容量標準制定目標容量評估目標容量評估容量問題優化容量問題優化 全鏈路壓測-容量標準達標、鏈路性能瓶頸評估.日常流量方法級分析-抖動、不達標率.指標實時監控-容量風險監控.業務、服務、組件、基礎資源容量水位模型 對照保障目標,形成容量優化提升項 制定容量優化方案計劃 容量再評估直至符合預期容量標準要求 亞健康檢查亞健康檢查 自動獲取全層級自動
37、獲取全層級核心黃金指標核心黃金指標,通過,通過AIAI算法分析,優化健康度算法模型,進行算法分析,優化健康度算法模型,進行全層級隱患全層級隱患分析,實現系統分析,實現系統健康狀態檔案化健康狀態檔案化管理,分析與治理管理,分析與治理潛在風險隱患潛在風險隱患,保障核心業務連續性。,保障核心業務連續性。周期性觀測周期性觀測故障預防統計以日、周、月維度統計問題項情況,觀測系統階段性運行情況實時健康體檢實時健康體檢系統實時體檢實時計算全層級指標,根據閾值判斷指標異常及風險程度性能對比性能對比系統性能對比頁面可選取發版前后時間進行各指標性能對比,觀測系統性能變化趨勢體檢報告體檢報告系統體檢與性能對比報告,
38、找出系統異常指標標注指標含義、可能引起故障、整改舉措,助力系統整化,夯實穩定性黃金核心指標選擇黃金核心指標選擇根據故障知識庫與專家建議,選取頁面、服務、組件、資源層核心黃金指標成果實效成果實效 打造中國聯通生產運營保障工具生態,協同總部業務系統、省分二級研發共建共享,完成100+工具建設大幅降低工具重復建設成本,年度節省人力200+,節省人工成本7200W信通院關鍵業務場景保障行業排名第一2022年故障數量下降83.90%,故障歷時下降81.95%2023年完成總部+省分1000+套系統覆蓋,重大故障0發生實現冬奧會、二十大、全國兩會等國家重大活動保障任務萬無一失,擦亮中國聯通“重保首席”金字招牌為疫情、洪澇等災害應急響應提供可靠保障,充分體現央企責任擔當確保校園營銷、賬期結算等重點場景穩固可靠,為業務發展保駕護航孵化商業產品對外輸出,實現在政府、電網、汽車、白酒、教育等行業20項成果輸出針對行業現狀,制定產品私有化、體系規劃、服務咨詢等多種商業服務模式重大活動保障核心系統穩定性運營工具生態政企市場突破微 信 官 方 公 眾 號:壹 佰 案 例微 信 官 方 公 眾 號:壹 佰 案 例關 注 查 看 更 多 年 度 實 踐 案 例關 注 查 看 更 多 年 度 實 踐 案 例