《中國電信云上AIOPS場景化實踐——左悅.pdf》由會員分享,可在線閱讀,更多相關《中國電信云上AIOPS場景化實踐——左悅.pdf(24頁珍藏版)》請在三個皮匠報告上搜索。
1、中中國電信國電信左左 悅悅1上云帶來的運維挑戰2AIOps提升運維效率3AIOps實際應用4展望目錄CONTENTSONE上云后的運維挑戰:傳統運維模式,不能滿足上云后運維管理目標更高“快速,高效”不僅要安全、穩定,還要快速、高效;實現故障的快速發現、定位和處理。通過動態伸縮等,突破性能天花板。管理內容更細“一切皆資源”業務驅動下,位于支撐線上的資源和配置都需要納入管理,大到機房基礎設施,小到操作系統的配置,更多的是面向業務生命周期和IT服務過程管理要求更嚴“聯合體運維”應用模式向多點多活的部署模式轉換,運維也由“各掃門前雪”向矩陣式的聯合體運維模式轉變,更加關注“能感知、會學習、會分析、可預
2、測、可決策、可展示”的智能化運維能力。云原生分布式多中心微服務敏捷迭代動態管理容器封裝抽象化自動化云計算時代監控對象:幾何級數增長,人力維護不能勝任調用承載關系極其復雜,亟待引入運維工具技術架構切換,帶來技術運營風險上云后的IT運維的核心框架IT運維轉型要求1:100(以往)運維人員IT設備和數據1:100n(現在/將來)運維人員IT設備和數據 基礎架構:云化 應用:微服務化全新架構n系統節點、微服務數量幾何級數增加,監控工作量急劇上升n關系復雜:日志和告警、性能變化等系統眾多 依賴專家技能和經驗 跨團隊,責任界定困難 對排障時效的要求更高排障更難IT運維核心框架:從前期的資產交維和納管、監控
3、部署、巡檢作業、風險操作,到持續的運營調度、隱患排查和治理、應急演練,再到常態化的系統優化,圍繞IT運維的全視角展開,建成聚焦客戶感知、敏捷高效、穩定安全的IT維護體系。IT運維形勢分析可管、可監、可控事前、事中、事后通過上云,打造了企業級數字化基礎設施打造能力黃頁統一運營開放提供100000+高質量API能力端到端自動化流水線承載6200+系統,托管100億行代碼安全隔離、資源共享云翼統一PaaS平臺用戶自助資源開通升級不停業、業務可連續云道開發運營一體化平臺支撐代碼的安全漏洞審計多資源池按需部署,一站式業務交付接口及性能自動化部署代碼自動化打包發布云橋能力開放平臺分層解耦、能力沉淀實時接口
4、、秒級生效一點簽約、全網通行一點注冊、能力黃頁全網協同運維開發云眼IT智能運維平臺端到端監控AI問題智能預防分鐘級故障定位云道開發運營一體化云橋能力開放云眼智能運維端到端跨多層監控全網監控55萬+組件節點自助式開通IaaS/PaaS資源拉通142資源池,開通2.4萬+PaaS組件云翼統一PaaSONE集團系統和平臺數據省分系統和平臺數據規范統一能力解耦數據拉通運維注智統一日志中心日志采集日志處理日志分析日志檢索綜合告警中心告警匯聚告警管理通知管理告警分析可視化監控中心API監控移動端監控NaaS監控SaaS監控PaaS監控IaaS監控端到端監控業務監控AI決策中心樣本管理算法管理模型試驗模型評
5、估知識管理中心知識抽取知識融合圖譜管理知識推理資源管理中心模型管理實例管理拓撲管理自動發現操作管理中心批量管理模板構建標準化運維任務災備切換鑒權審計跨區域運維作業調度應急管理運維機器人故障演練統一采集中心Agent管控數據采集操作控制2018年11月2018年9月2019年5月2019年6月2019年8月2021年6月2021年12月2022年1月2022年6月云眼平臺能力視圖依靠服務資源樹實現的業務端到端監控集團直充攜號轉網OTN專線繳費復機集團電渠翼支付監控覆蓋XX個場景涉及全網XXX個核心系統xxxxx個核心環節以直充場景為例,服務資源一體可見全網業務運營監控場景問題定界集團直充場景監控
6、精品專線場景監控打通能力和系統,聚合API調用監控調用趨勢分析調用錯誤詳單能力主題監控-總部EOPEOP調用詳單和報文xxx萬APIxxx業務系統實現了業務系統的一體化監控全網SaaS系統監控兩級接口 API xxx萬+,SaaS服務xxx萬+SaaS監控PaaS監控全網PaaS組件監控xx類xx萬+實例監控IaaS監控全網IaaS資源監控主機xx萬多臺網絡監控全網網絡連通監控網絡鏈路監控xx+條構建起以業務應用為中心的資產拓撲管理已納管實體資源約XX萬個業務、SaaS、PaaS、IaaS四層資源實體如:業務、中心應用、中間件、數據庫、主機等等通過自動化手段發現資產,采用有向無環圖技術構建數據
7、,以業務視角構建起IT資源的彈性關系,為應用提供全生命周期的IT資源服務流程服務類場景應用如資產管理,為不同的資源管理流程提供相應的數據支撐服務。自動化類場景應用如運維巡檢,根據資源所處的“上線、升級、運營服務、下線”的生命周期過程,提供相應的自動化任務。數據類場景應用如效能評測,提供資源的容量、性能、可用性、成本、質量等多種維度的數據聚合。納管對象技術特征應用場景圍繞場景應用的自動化運維探索實踐包括進程監控、頁面探測、端口撥測、CPU/內存監控、主機磁盤監控、網絡鏈路監測、積壓量監控、超時測試等應用場景監控類任務自動處置類包括日志自動清理,應用自動啟停,服務隔離等能力前置類包括服務一鍵重啟,
8、備份數據清理,接口驗證等主要功能隱患早發現主動巡檢發現問題避免用戶投訴業務運行穩通過巡檢掌握系統健康度運營效率高減少人工巡檢加強故障自愈成本效益好自動化手段減少人工運營成本核心目標360自動化巡檢,服務升級5分鐘自動巡檢30分鐘人工巡檢巡檢耗時運維效率5倍自動處置分鐘級自動發現AIOps成熟度不斷提升1嘗試應用第一階段L1發 展聚焦于數據采集和可視化,無成熟單點應用嘗試效率提升,未形成有效單點應用,聚焦數據采集和可視化嘗試引入AI,未形成有效單點應用,聚焦數據采集和可視化 AI在單點場景下發揮作用:1)單指標異常檢測 2)日志異常檢測 3)業務風險分析等 AI在單點場景下發揮作用:1)磁盤容量
9、預測 2)智能變更 3)知識圖譜等 AI在單點場景下發揮作用:1)成本報表 2)僵尸主機識別 3)容量規劃等 綜合多因素進行判斷:1)多指標異常定位 2)故障預測 3)智能告警收斂等 多場景下的效率提升:1)智能變更 2)知識圖譜 3)智能決策等 多場景下的成本管理:1)成本優化 2)資源優化 3)容量規劃 4)性能優化 實現完備的故障定位,然后進行故障自愈等操作:1)故障根因分析 2)故障自愈等 AI能力完備:1)容量預測 2)智能變更 3)知識圖譜 4)智能決策 AI能力完備:1)成本優化 2)資源優化 3)容量規劃 4)性能優化人工參與的部分已經很少,基本實現全智能化。人工參與的部分已經
10、很少,基本實現全智能化。人工參與的部分已經很少,基本實現全智能化。2單點應用3串聯應用4能力完備5終極AIOps第二階段L2第三階段L3第四階段L4第五階段L5方 向質量保障效率提升成本管理現在未來AI能力等級參考企業級AIOps實施建議白皮書ONE智能化感知提升可觀察性生產故障導致服務告警風暴時,利用圖數據技術發現找出故障根因,大大縮減故障定位范圍,快速定位故障9月15號14:26起,電信某省多個服務同時產生28個故障告警,持續30到40分鐘,AI對SaaS服務調用展開拓撲分析(見下右圖),找出疑似根因XXX-Inst-HBXXX-So-HBEOP-serviceAgent-H-HBXXX-
11、Sm-HAXXX-SoWeb-HAXXX-SrM-HAXXX-Acct-DBXXX-PortalWeb-HAXXX-Ppm-HBXXX-AssistWeb-HA未知服務XXX-Intf-HBXXX-Saop-HAXXX-Channel-HBXXX-SrM-HBXXX-FlowLog-HA未知服務XXX-CashierWeb-HA未知服務XXX-Cust-HBXXX-Srweb-HA藍色虛線代表服務之間存在調用關系但是此刻未告警藍色實線代表服務之間存在調用關系且此刻產生了告警(一)從告警傳播關系上看,大量的服務傳播鏈指向XXX-Acct-DB、XXX-Channel-HB(二)再分析這兩個服務,
12、存在XXX-Channel-HB服務調用XXX-Acct-DB(三)初步定位根因服務發生在XXX-Acct-DB服務的關系關鍵指標趨勢、問題服務拓撲等可視化展示,方便對疑似根因做詳細分析平臺賦能運維專家應急處理服務請求異常突變網絡流量異常突變保障政務云上各業務與應用以及相關系統的健康運行狀態主動探測關聯分析告警通知通過全棧式、立體化監控手段,幫助IT運維人員主動感知業務整體運行狀態,提升運維團隊的工作效率,為數字政府的運行保駕護航。某省財政廳的應用案例,客戶購買了翼龍中的云眼,實現對其業務系統和基礎設施(數據庫、中間件、主機等)的運維監控,以達到業務系統穩定運行的目標背景價值模擬實戰練兵,全程
13、可觀察通過物理資源使用分布發現負載不均衡通過服務-接口調用和響應發現性能瓶頸通過服務-SQL調用和響應發現業務SQL瓶頸針對客戶的新業務系統,配合其壓力測試,對壓測全程監控,以業務系統/中間件/主機為壓測靶點,模擬業務操作、業務流程,協助各系統發現問題,提升健壯性背景應用內容運維過程中產生大量的數據,基于數據分析辦法,為客戶決策提供洞察的依據ONE可觀測性:最關鍵的一環Gartner于2022年10月18日發布2023年十大戰略技術趨勢1、可持續性(Sustainability)2、開拓:元宇宙(Metaverse)3、開拓:超級應用(Superapps)4、開拓:自適應AI(Adaptive
14、 AI)5、優化:數字免疫系統(Digital Immune System)6、優化:應用可觀測性(Applied Observability)7、優化:AI信任、風險和安全管理(Trust,Risk and Security Management)8、擴展:行業云平臺(Industry Cloud Platforms)9、擴展:平臺工程(Platform Engineering)10、擴展:無線價值實現(Wireless Value Realization)可觀測性描述的就是“觀測-判斷-優化-再觀測”這個閉環的連續性、高效性;“可觀測”不等于“可觀測性”在我們遇到問題的時候,能否輕而易舉地
15、在觀測平臺找到答案,沒有阻力也沒有困惑,這就是可觀測性。傳統監控(Know What)可觀測性(Know Why)從“系統”角度看聚焦在發現確保系統穩定性告警:全大于準目標白盒化,多種觀測手段確保找到根因,防患于未然告警:全且準從“使用”角度看垂直工具體系引入一個新的組件的同時也會引入一個觀測工具保證了監控的全面性,但丟失了數據的關聯性和分析排查的連貫性數據統一,做時間+空間的關聯對指標Metric,日志Log,鏈路Trace在數據格式上進行標準化并通過上下文Context及時間Time完成時間與空間信息的關聯中國電信云薦社區掃碼加入中國電信云薦社區,一起探索和實踐內外部上云!中國電信云薦社區,圍繞上云生態進行人才培養、知識體系梳理沉淀等運營工作,提供組件下載、有問有答、技術論壇、行業動態等多個功能模塊,為生態用戶提供高效的上云交流平臺。微信公眾號