1、數字化全鏈路監控助力云原生安全生產李明亮中國聯通軟件研究院 運營保障與調度中心 副總架構師數字化監控平臺負責人三未來展望一背景問題二落地實踐IT核心能力開放與運營B域(軟研院)輻射全網用戶與應用、服務內外部合作與創新M域O域.華盛各域創新子公司云化資源池大數據平臺沃支付平臺數字化底座智慧中臺數據中臺數字化研發、數字化監控、數字化能力開放聯通云數據、能力、資源開放共享賦能應用業務側管理側微廳短廳網絡側大流量APP智慧醫療河湖長制智慧云網邊緣云產品內部商城采購系統智慧門戶數字檔案館ERP公眾中臺政企中臺網絡中臺管理中臺資源保障安全保障治理保障運營保障統一架構新運營體系中國聯通軟件研究院是中國聯通集
2、團直屬二級研發機構,成立于2015年7月1日,致力于科技自立自強、核心IT系統自主研發。本部位于北京,下設哈爾濱、濟南、廣州、西安、南京五個分院。根據數字化新IT智慧中臺總體規劃部署,軟件研究院職責由B域系統研發、生產運營、支撐響應擴展至B域、M域、D域的生產研發與運營支撐;信息安全研發與運營等。3B、M、D域生產研發與運營支撐,信息安全研發與運營2020年B域項目建設、研發生產、采購2017年B域研發2015年集團2017179號集團2020177號集團2015135號集團2022123號改變劃域而治實行管運分離改變研發、生產區隔實行B域整體演進2022年統一標準、技術框架、UI/UE,整合
3、同質化菜單、數據、資源,以BU方式嵌入支撐推進數字化轉型實行統籌管理公司簡介數字化轉型業務安全生產面臨的挑戰 當前國內中大型企業數字化轉型后,內部大多上百套系統,上千服務,業務連續性低,傳統人肉運維難以為繼,亟需建設數字化智能運維平臺助力業務安全生產業務連續性挑戰云原生下安全生產面臨的新挑戰云原生挑戰運維生態挑戰 運維工具重復建設 運維工具不精不強 運維工具能力割裂 各層級指標定義不標準、數據不互通 核心業務調用復雜,跨數據中心、跨云平臺、跨系統 跨系統、跨層級故障根因聯合定位難 端到端穩定性保障體系缺失 故障處于被動防御,救火 故障沒有沉淀為有效的資產數智運維不足 故障處理過多依賴專家經驗
4、運維大數據未被合理價值挖掘 自動化、智能化故障處理能力不足究竟什么叫做全鏈路監控?橫向到邊、縱向到底?業務安全生產的核心價值之一是提高業務連續性,可從提高平均故障間隔時間(MTBF),減少平均故障恢復時間(MTTR)兩個方向開展工作,分解下來,就是在入網控制、發布上線、故障預防、故障發現、故障定位,故障恢復、故障改進進行全流程改進Pre-MTBFPost-MTBF故障預防故障發現故障定位故障恢復故障改進變更管理健康檢查監控覆蓋監控告警業務巡檢用戶反饋服務撥測日志分析監控分析鏈路追蹤根因定位服務限流主備切換故障隔離故障復盤改進驗收故障鏡像周邊清查建設/演練/OnCall復盤/改進/OnCall應
5、急響應容量管理故障自愈變更追蹤應急預案服務降級MTTR輿情感知混沌工程業務鏈路入網控制發布上線接收測試冒煙測試版本驗證自動測試鏈路壓測風險評審質量控制代碼質量安全準入業務安全生產三未來展望一背景問題二落地實踐基礎設施中國聯通大IT生產運營工作臺PC端(谷歌/火狐/IE/360)釘釘端西咸IDCCCS主機設備CKE阿里飛天網絡設備亦莊IDCCCS主機設備阿里飛天網絡設備無錫IDCCCS主機設備CKE阿里飛天網絡設備廣州IDCCCS主機設備CKE阿里飛天網絡設備呼和IDCCCS主機設備CKE阿里飛天網絡設備統一架構微前端qiankun微服務聯通云平臺天梯持續集成服務能力管控服務注冊服務路由流量控制
6、熔斷服務鑒權自主接入在線申請代理路由統一登錄統一登錄鑒權賬號體系管理接入便捷靈活對接第三方登錄開發者中心API服務訂購SaaS應用上架數據API接口快速配置運營分析開發手冊前端框架樣例UI組件樣例權限集成樣例API接入樣例基礎能力管控平臺命令通道數據通道文件通道權限中心用戶管理菜單管理租戶管理應用管理數據采集瀏覽器服務性能中間件主機資源APP感知天擎服務云平臺網絡資源監控告警告警通知告警處理告警靜默告警查詢作業能力作業編輯作業調度作業執行作業查看AI算法動態閥值能力指標異常檢測指標趨勢預測日志異常檢測ITSM流程引擎流程編排流程調度流程執行流程查詢配置中心配置發現配置采集配置拓撲配置查詢基礎數
7、據運維數據庫管理數據查詢數據稽核任務調度工單運營服務工單查詢工單處理工單評價工單分類知識庫服務知識存儲知識管理知識搜索知識推薦及時通訊服務消息接收消息推送多類型消息消息群組第三方能力短信發送IVR語音推送釘釘消息郵件發送APIAPIB/M/D域核心觸點cBSS掌沃通智慧門戶能力開放能力共享核心應用開發支撐運行保障(自動化生產)變更管理任務調度平臺變更追蹤配置管理傳統CMDB云化CMDB自動化運維自動化作業故障自愈穩定性測試自動化巡檢接收測試壓力測試監控管理瀏覽器、APP監控全流程調用鏈監控智能監控告警平臺亞健康日志中心運營生態軟研院天擎運維天宮棧運維基礎設施運維計費運維業務連續性故障管理用戶體
8、驗感知運營知識管理沃運營運營響應(智慧化運營)問題管理沃運營補天平臺訂單醫生省公司廣東二級研發山東二級研發上海二級研發服務臺沃運營一體化運營公眾運維 關鍵點:制定各層級指標采集標準,統一傳輸工具,實現分層數據共享。天擎ES、REDIS、MLB、NGINX等應用自建中間件CPU、內存、流量等容器CPU、內存、硬盤、IO、流量等主機負載均衡、交換機、防火墻的CPU、流量、連接數等網絡全層級指標標準318項聯通云基礎設施天眼RDS、DRDS等中間件指標聯通云中間件總部及31省分及子公司544套IT系統覆蓋,監控點15600+項724實時監控對外能力接口成功率、超時率接口業務成功率、發展量、工單積壓等
9、業務關鍵點:以系統為維度的縱向全層級整合服務/接口調用量、超時、異常等后端應用PC:頁面耗時、AJAX耗時、JS報錯、彈窗APP:崩潰率、卡頓率前端觸點關鍵點:讓專業的團隊去做更專業的事全層級監控是基礎 通過探針非侵入式采集,實現調用鏈實時追蹤、全層級故障根因定位。告警配置、多維根因定位分析,服務耗時分析等功能。調用拓撲IaaS/PaaS/SaaS實例/接口分析JVM/GC分析告警配置服務趨勢/報錯異常(系統/業務)SaaS層服務調用關系、趨勢圖、報錯分類(系統/業務)關鍵點:try catch exception(日志)(日志)PaaS層組件、平臺容器資源情況SAAS層主機資源全流程調用鏈拓
10、撲自動生成,分租戶管理JVM分析、GC分析根因實例、根因接口分析關鍵點:調用鏈與云化CMDB做關聯,關聯到容器與主機調用量、超時、異常黃金指標多指標自由組合,閾值趨勢參考坐標系關鍵點:鏈路信息要轉換為黃金指標告警要收斂分布式追蹤是關鍵(1/2)調用鏈支持跨系統、跨云平臺(CKE/CCS/EDAS)、跨數據中心(亦莊、西咸、廊坊、無錫)鏈路拓撲,通過分數據中心匯總串聯,完成跨系統調用實時追蹤和方法清單級根因定位,當前天眼接入服務6000+,日均處理600億數據。西咸數據中心(聯通云CCS 4.0)collector-server新客服agent系統agent系統agentkakfaflinkcl
11、ickhousesinker亦莊數據中心(聯通云CCS 2.0)collector-servercBSSagent天眼agent系統agentkakfaflinkclickhousesinker廊坊數據中心(阿里飛天EDAS)collector-server公眾中臺agent政企中臺agent天擎agentkakfaflinkclickhousesinker無錫數據中心(聯通云CKE 4.0)collector-server公眾中臺agent政企中臺agent天擎agentkakfaflinkclickhousesinker關鍵點:跨數據中心鏈路組裝亦莊主資源池kafkaclickhousen
12、eo4jmysqlcBSS新架構智慧客服政企中臺公眾中臺管理中臺關鍵點:分布式計算、單元化支撐、彈性擴展分布式追蹤是關鍵(2/2)依托全層級指標數據,全層級鏈路調用,自研云原生CMDB,以級豐富的故障知識庫,以服務層為故障起點進行縱向串聯,配以規則+AI的能力實現全層級一鍵智能故障診斷,當前準確率可以達到45%。服務實例事件異常:2022-04-XX XX:XX 根因服務實例耗時突增判斷實例GC是引發故障根因主機宕機事件異常:2022-04-XX XX:XXlb所在主機宕機導致lb實例銷毀重啟服務波動是故障根因Oracle事件異常:2022-02-XX XX:XXoracle會話數突增導致服務
13、連接超時增多是故障根因網絡事件異常:2022-03-XX XX:XX交換機帶寬使用率指標打滿引起訪問受限是故障根因ES事件異常:2022-05-XX XX:XXes進程負載率突增導致上游服務連接超時是故障根因Redis事件異常:2022-04-XX XX:XXredis耗時波動引起上游服務連接超時是故障根因rds事件異常:2022-05-XX XX:XXrds慢sql突增導致節點狀態異常是故障根因快立方事件異常:2022-04-XX XX:XX根因服務下游調用快立方告警異常是故障根因 上者治未病,依托全層級監控體系,可以構建故障預防產品-亞健康檢查,自2022年1月3日起,我們對對內部某一核心
14、系統,歷經17周,系統全層級日均高風險問題項個數:服務層112降至2,組件層246降至16,資源層75降至1,關鍵點:評分與趨勢,閉環運營管理周期性觀測故障預防統計以日、周、月維度統計問題項情況,觀測系統階段性運行情況實時健康體檢系統實時體檢實時計算全層級指標,根據閾值判斷指標異常及風險程度性能對比系統性能對比頁面可選取生產變更前后時間進行各指標性能對比,觀測系統性能變化趨勢體檢報告系統體檢與性能對比報告,找出系統異常指標標注指標含義、可能引起故障、整改舉措,助力系統整化,夯實穩定性黃金核心指標選擇根據故障知識庫與專家建議,選取頁面、服務、組件、資源層共23類158項核心黃金指標亞健康檢查是一種執著三未來展望一背景問題二落地實踐MetricsTracingLogging天眼天眼請求范圍范圍內的拓撲追蹤系統各維度的度量度量指標記錄處理的離散事件事件信息調用鏈、日志、性能管理調用鏈、日志、性能管理消息日志(業務)消息日志(業務)鏈路壓測(生產)鏈路壓測(生產)流量控制網絡監控(NPM)One Agent全鏈路監控的衍生-消息日志、鏈路壓測、流量控制、生產巡檢應用(APM)-網絡(NPM)全鏈路端到端在往后呢?-核心業務鏈路端到端 BPM-APM-NPM THANKS!會議主辦方介紹及聯系方式