《黃蘊思-廣東移動 AIOps 的中臺化探索與實踐轉型.pdf》由會員分享,可在線閱讀,更多相關《黃蘊思-廣東移動 AIOps 的中臺化探索與實踐轉型.pdf(25頁珍藏版)》請在三個皮匠報告上搜索。
1、2023 DevOps 國際峰會 暨 BizDevOps 企業峰會 北京站廣東移動AIOps的中臺化探索與實踐轉型黃蘊思 廣東移動 IT運維專家廣東移動 AIOPS 應用推廣負責人,IT運維專家,曾參與信通院AIOPS、MLOPS等相關規范標準和實踐指南的編寫。01廣東移動運維能力的發展02AIOPS工具的中臺化探索03實踐案例分享04未來展望目錄Content01廣東移動運維能力的發展2023 DevOps 國際峰會 暨 BizDevOps 企業峰會 北京站我們的運維工具發展歷程編排化、智能化AIOps自主自愈無人值守運維事件自動化運維操作平臺化運維平臺具備編排能力部分運維場景智能化運維平臺
2、一體化,具備跨模塊聯合交付能力復雜運維場景智能化,并具備智能化決策能力絕大部分關鍵場景應用自動化和智能化技術,實現無人值守終極目標平臺化、自動化流程化、標準化運維流程、標準等的建立和管理工具標準化管理2010年2018年2020年2023年2025年2023 DevOps 國際峰會 暨 BizDevOps 企業峰會 北京站目前我們已具備的運維工具廣東移動新一代數智化運維管理平臺(IT網管+子平臺)2023 DevOps 國際峰會 暨 BizDevOps 企業峰會 北京站運維工具分層編排開發工具編排開發工具自動化原子操控工具自動化原子操控工具AIAI算法服務算法服務能力組裝工具能力組裝工具自動化
3、能力運維學件運維監控自動化場景自動化對外賦能智能化賦能運維業務端到端場景敏捷支撐能力中心開放共享中心業務端到端能力采集模塊操作模塊資源模塊AI模塊數據管控模塊容器智維模塊。編排模塊流程平臺。抽象的原子操作標準化的AIOPS工具 復用組裝 靈活度高 專業性強基礎模型服務2023 DevOps 國際峰會 暨 BizDevOps 企業峰會 北京站我們沉淀的成熟運維能力知識圖譜全流程聯動AI+知識經驗雙模智能故障診斷資源優化還有各種監控類能力、性能治理類能力、成本優化類能力,ETC02AIOPS工具的中臺化探索2023 DevOps 國際峰會 暨 BizDevOps 企業峰會 北京站我們參考學習的“大
4、拿”思路清華大學計算機系裴丹教授作了題為智能運維(AIOps)趨勢解析報告,說到了9大趨勢,其中的趨勢6就是AIOps算法服務化。中國通信標準化協會智能化運維AIOPS能力成熟度模型也提及了算法模型服務化能力的要求。Gartner組織在預判報告中提出組裝式應用(Composable Applicatons)概念2023 DevOps 國際峰會 暨 BizDevOps 企業峰會 北京站“搭積木”形式的運維工具復用和組裝思路 日常操作抽象并固化形成原子操作 原子操作進行組合形成操作序列 原子操作和操作序列封裝形成自動化任務 無場景層算法模型服務 通用學件層算法模型服務 專項學件層算法模型服務AI算
5、法服務能力層自動化操作能力層 原子能力層、AI算法層為底座 基礎原子操作組件、AI算法服務學件整體融通 實現原子操作和AI算法的互相調用融合敏捷編排能力層 以API、SDK等標準化接口的方式對外提供服務 可選取相關運維能力進行調用并重新組裝 可把組裝好的能力進行實際的場景應用中臺能力組裝層運維編排開發自動化原子操控能力AI算法服務層日常巡檢服務啟停部署發布運維敏捷支撐新生態對內引入對外開放賦能提升積木式應用構建,更快響應變化常用算法常用學件專用學件中臺運營中臺能力組裝能力引入B/O/M/S賦能全域能力注冊零件庫武器庫作戰單元2023 DevOps 國際峰會 暨 BizDevOps 企業峰會 北
6、京站零件庫之:自動化操作序列原子級顆粒度自動巡檢BM域多場景自動化操作IT系統應用服務自動化啟停B、M域IT系統100+原子原子3000+3000+巡檢項巡檢項1000+1000+啟停項啟停項1000+1000+主機主機4000+4000+數據庫數據庫200+200+中間件中間件300+300+2023 DevOps 國際峰會 暨 BizDevOps 企業峰會 北京站零件庫之:算法倉庫03相同算法不同場景/作者使用情況02各能力域包含的場景數及使用算法數01各原子算法應用的場景數04算法分類型角度統計使用場景數各能力域場景數VS算法數算法倉庫2023 DevOps 國際峰會 暨 BizDevO
7、ps 企業峰會 北京站武器庫:學件編排2023 DevOps 國際峰會 暨 BizDevOps 企業峰會 北京站中臺能力組裝作戰單元:能力矩陣B域智慧運維M域智慧運維BI域智慧運維應用場景能力組件告警配置異常檢測監控管理監控采集告警收斂開放傳輸監控展示故障預測影響分析故障管理故障診斷報障管理故障自愈健康度感知應急擴縮容業務應急應急管理應急切換應急演練日常撥測批量任務運維作業日常巡檢配置管理自動化測試變更后評估變更管理自動發布環境評估關聯影響分析資源發現資源稽核資源管理資源管控模型管理開放傳輸智能客服知識圖譜服務支撐智能工單投訴分析容量預測容量優化容量管理表空間優化成本優化性能評估云原生治理中臺
8、能力開放敏捷編排能力層自動化操作能力算法模型服務基礎組件標準化、輕量化03實踐案例分享2023 DevOps 國際峰會 暨 BizDevOps 企業峰會 北京站實踐案例1:敏捷編排,降低AIOPS工具開發門檻每層發布為對應的算法服務,根據調用次數、滿意度等信息,不斷發現沉淀優秀的運維場景算法服務。降低開發門檻,快速構建AIOPS工具2023 DevOps 國際峰會 暨 BizDevOps 企業峰會 北京站實踐案例1:敏捷編排,降低AIOPS工具開發門檻多層服務-多級調用內部&第三方服務注冊-可視化服務編排一處建設-多處調用異常檢測服務發布算法庫根因分析健康檢查2023 DevOps 國際峰會
9、暨 BizDevOps 企業峰會 北京站實踐案例2:快速組裝,形成多場景聯動的運維工具作戰場景武器名武器作用故障全生命周期一站式業務接口探測異常預警能力 實時模擬調用探測,將結合Al智能算法進行異常預警分析主機故障診斷能力綜合分析診斷主機平臺發生的故障或已經發生的故障,匹配自愈方案并進行自愈操作知識管理全流程聯動能力知識來源治理、知識分類加工(轉換、更新),知識應用(智能化推薦、自動化處理)IT系統一站式業務接口探測異常預警能力主機故障自愈知識管理全流程聯動開始梳理業務接口梳理自有能力進行接口探測根據探測結果輸出異常接口信息根據異常接口識別相應主機主機故障診斷主機故障自愈生成案例文件保存到知識
10、庫中自愈成功的信息提升場景建設效率故障恢復時長縮短了23.75%80分鐘61分鐘6分鐘3分鐘故障平均發現時長縮短了50%15天5天場景開發耗時縮短了66%從上到下序列串聯2023 DevOps 國際峰會 暨 BizDevOps 企業峰會 北京站實踐案例2:快速組裝,形成多場景聯動的運維工具作戰場景武器名武器作用碳中和、成本優化數據庫存儲空間成本優化能力 分析并預測數據庫存儲空間資源的使用趨勢,自動輸出數據庫成本優化建議低效無效資產智能評估能力準確識別低效無效主機,提供主機層智能評估建議。綜合挖掘場景價值數據庫存儲空間成本優化能力低效無效資產智能評估能力并聯不同資源、同類場景橫向結合AIOPS開
11、發的門檻降低,實際使用工具的運營人員可以自行按需完成二次開發。業務主導通過復用已有的算法、采集數據、能力輸出并形成新場景,降低同類場景再開發損耗成本。降低成本節省場景再開發成本60%新增工具開發人員數200%2023 DevOps 國際峰會 暨 BizDevOps 企業峰會 北京站AIOps場景建設效能提升1041912020年2021年2022年應用系統2779952020年2021年2022年建設場景數量場景建設效率運維效率 告警處理時間下降75%故障發現時長縮短了50%故障恢復時長縮短了55%93%60%04未來展望2023 DevOps 國際峰會 暨 BizDevOps 企業峰會 北京
12、站后續重點研究和應用方向建立全量AIOps場景能力的能效評估模型體系AIOPS with 大模型?場景能力維度能效評估三級模型指標集覆蓋場景AIOps場景全覆蓋分析能力建立場景評估能力維度采集指標定指標、定算法、定數據來源客服智能問答工單智能處理智能統計質檢2023 DevOps 國際峰會 暨 BizDevOps 企業峰會 北京站路漫漫其修遠兮。u我們還在不斷嘗試各種XOPS場景的開發u我們正在探索中臺與智慧運維的結合u我們也在尋求利用AIOPS實現運維的降本增效u我們也期盼交流新技術、新理念在運維中的應用,例如元宇宙、大模型歡迎交流2023 DevOps 國際峰會 暨 BizDevOps 企業峰會 北京站ThanksDevOps 時代社區榮譽出品