1、基于智能算法的統一運維監控管理平臺助力湖北農信高效、智能、全面運維管理湖北省農村信用社聯合社陳勝目錄C O N T E N T01項目概述0203建設內容項目成效項目背景平臺架構創新特點智能運維場景項目價值總體收益項目目標銀行核心業務系統包括賬務核心、手機銀行/網銀、支付、信貸管理系統等,它們采用不同的技術架構(包括傳統架構與云計算、微服務架構)和多種操作系統、數據庫及中間件,相互關聯且交互頻繁,運維管理難度極大。日常運營產生海量的運維數據,包括交易日志、系統日志、網絡流量數據、用戶行為數據等,數據格式多樣且增長迅速。傳統的數據處理方式難以滿足實時分析和深度挖掘的需求,導致潛在問題難以及時發現
2、。為保障業務正常運行,銀行投入大量人力、物力進行運維,但傳統運維模式主要依賴人工操作,隨著業務競爭加劇,銀行需要在保障服務質量的前提下,優化運維流程,降低運維成本。業務系統復雜性與多樣性數據量與處理難度劇增運維效率與成本平衡難題監管機構對銀行強監管,對系統穩定性、數據安全性等方面有極高要求。任何系統故障或安全漏洞都可能引發嚴重后果,如客戶信息泄露、交易中斷等,因此運維管理需確保系統始終符合監管標準,有效防控風險。監管要求與風險防控壓力項目背景現狀與挑戰現狀與挑戰運維響應滯后當前運維依賴人力,缺乏有效的系統化、智能化的手段,應急響應時間長監控工具滯后現有監控工具老舊、出現告警不準、不及時現象日志
3、分散日志海量且分散,缺乏統一標準,無法實現日志上下游串聯分析,未能產生有效價值互聯網業務回遷手機銀行/網銀,聚合支付等業務從農信銀回遷,對系統運維和網絡安全提出了更高要求技術架構更加復雜云計算、分布式和微服務架構,讓應用架構更加復雜信創的不確定性信創環境、信創軟硬件的陸續使用,給運維帶來了更多的不確定性項目目標故 障 預 防故 障 發 現故 障 定 位故 障 恢 復復 盤 改 進MTTR平均故障恢復時間MTBFMTBF平均故障間隔時間平均故障間隔時間M T T I平均故障發現時間M T T K平均故障定位時間M T T F平均故障修復時間M T T V平均故障修復驗證時間監 控&告 警智能異常
4、檢測日 志 分 析故障定位全鏈路追蹤應 急 預 案巡檢策 略 推 薦分 析 報 告快速發現:發現的快-從單一告警到立體化故障發現;發現的全-單源發現到聯動發現精準定位:定位的準-從多平臺切換到統一發現;定位的全-排障路徑全覆蓋高效恢復:恢復的效-自動處置和分派以數據為基礎,以算法為支撐,以場景為導向實現運維閉環管理資源全面監控實現對云上云下所有硬件設備、軟件系統和網絡環境的實時監控。統一日志管理對全行日志進行統一采集、處理、存儲與查詢分析,結合日志模式識別與日志異常檢測等算法實現日志智能化管理。全面應用調用鏈分析通過應用調用鏈分析,深入了解各個服務和組件間的交互,及時發現問題。集中告警管理統一
5、接入與處理多源告警消息,利用算法實現告警事件收斂、降噪、異常檢測和根因分析,實現事件全生命周期全局管控。智能數據分析利用智能算法自動分析海量監控數據,快速準確地識別故障和異常,減少人工監控帶來的疏漏與誤判,提高監控的準確性和效率。通過日志串聯分析,實現對故障點的上下游關系的快速識別,縮短故障排查時間快速故障定位建設目標0 10 20 30 40 50 6目錄C O N T E N T01項目概述0203建設內容項目成效項目背景平臺架構創新特點智能運維場景項目價值總體收益項目目標運維應用可視化展示立體化監控日志管理采集用戶體驗網絡服務節點系統云平臺業務應用運維中臺采控中心 低代碼平臺運維數據平臺
6、CMDB算法中心場 景智能運維一體化平臺最佳實踐和方案論運維指標體系管理運維數據治理報告報表智能運維成熟度模型三方數據源傳統/分布式架構應用云原生/微服務架構應用基于追蹤開放標準的應用(OpenTracing等)基礎設施:私有云/混合云/虛擬化/超融合/X86物理機/小機行內應用配置數據事件指標追蹤日志全鏈路業務追蹤基于日志模式識別的異常檢測閉環故障分析與處置用戶體驗與應用性能管理基于指標體系的應用健康度評估事件管理運維流程管理配置管理基于智能算法的統一運維監控管理平臺架構創新特點:一個門戶、千人千面統一運維門戶:整合基礎設施監控、日志分析管理、應用鏈路分析、事件中心、算法中心等功能,實現跨系
7、統、跨平臺的全面可視化,提供統一的視角來審視整個IT環境和業務流程。千人千面:業務人員、一線、二線運維人員根據不同角色,分配不同運維權限。統一門戶展示一線運維角色二線運維角色資源對象監控指標閾值監控網絡拓撲建設全面監控服務器、操作系統、數據庫、中間件、網絡設備、存儲設備等基礎資源。全面覆蓋各類設備的監控指標,支持對指標閾值進行自定義設置。全面拓撲管理,自動發現網絡鏈路,在監控系統中展示自動搜索生成的物理連接拓撲圖。覆蓋云上、云下基礎資源資產監控,提高IT設施的管控能力,為資源集中化監控和業務系統可觀測能力提供強力支撐。創新特點:基礎資源監控全覆蓋創新特點:日志集中管理全量日志檢索分析基于日志的
8、鏈路分析接入行內重要業務系統全量日志,日增2T日志量,進行日志串聯分析,結合日志異常檢測及日志模式識別智能算法,實現日志的智能化管理。采用簡潔、輕量、高效、穩定、可擴展的技術架構,可以兼容ES、雙引擎;采用基于列式存儲數據庫Clickhouse,在數據寫入、響應時間、部署規模、高可用等各方面具有良好的表現,能夠滿足各種業務場景下日志存儲的需求創新特點:重要業務系統鏈路全覆蓋基于旁路報文數據,構建業務全路徑實時性能監控體系,構建數據中心業務性能第一感知源云上業務系統云下前置核心外聯機構服務日志數據資源指標數據日志指標數據各類告警數據拓撲統一展示數據整合匯總資產、日志、指標、告警四類數據展示系統拓
9、撲;統一界面實現日志分析、指標查看、告警監控;覆蓋18套重點業務系統集成已有監控工具(基礎監控、NPM、BPC、云平臺監控等),構建統一監控能力,提供系統健康度評估和展示。通過指標、告警、日志、業務調用關系、資源依賴關系等進行多維度監控分析,豐富監控和故障分析路徑,保障業務持續穩定運行。創新特點:立體化監控管理資產臺賬臺賬搜索關系信息屬性信息創新特點:統一配置管理CMDB配置管理:將傳統線下資產和云上資產進行統一管理。為運維可視化、業務可視化、數據分析等場景,提供數據支撐。云上、云下資產資產覆蓋率100%;共建設近百個模型,主要包含業務資源、軟件資源、硬件資源3大類8子類模型分類。事件工單閉環
10、管理靈活的表單設計拖拽式流程設計運維流程管理:以ITIL4、ISO20000為基礎,適應湖北農信數字化轉型中新的業務發展與IT架構的特點,打造規范化、流程化的IT運維流程管理體系;完善事件、問題等標準管理流程,建立事件到工單的閉環管理過程。創新特點:生產事件閉環管理告警集中管理:統一接入基礎監控、NPM、BPC、互聯網金融云、楚天農商云、系統告警腳本等平臺的告警。一鍵生成事件工單規范處置流程體系實現告警事件閉環告警事件列表告警詳情查看告警時間線分析一鍵生成事件工單形成完整處置記錄創新特點:核心業務數據可視化展示領導駕駛艙聚焦核心聚焦五類核心業務,實時展示核心指標數據風險把控數據同比分析,快速發
11、現數據異常決策支撐為戰略規劃制定、調整提供數據支持和決策依據全省業務大屏全局視角全局事件展示省內各區域核心數據,把握整體業務狀況區域洞察按各區域展示詳細的業務數據,制定針對性的市場策略市場拓展對比區域差異,識別潛在市場,促進區域協同發展建設從頂層到各區域業務數據大屏,關注行內五類核心業務數據,提升行內數據價值和市場敏感度,實現了業務數據的全面可視化和精準管理。開放的平臺日志模式識別異常檢測多維指標分析單指標預測單指標異常檢測根因分析與推薦告警降噪強大算法能力為運維平臺智能化場景賦能,助力智能運維場景落地,減少問題發現和故障排查的時長(MTTR),提升檢測準確率和運維效率。開箱即用的算法庫算法中
12、臺智能運維應用數據中臺算法泛型應用實踐過程新建數據源管理算法泛型新建實驗配置數據查看結果調參優化執行發布算法泛型 7大類共32種算法及72種開箱即用算法泛型全力支撐可觀測平臺核心場景。場景管理算法中臺提供了豐富的算法,開箱即用,支撐豐富的運維場景。管理能力場景能力抽象能力統計能力工程化能力集成能力擴展能力智能運維場景-算法中臺 追蹤數據追蹤數據指標數據指標數據日志數據日志數據配置數據配置數據其他數據源其他數據源集成模板采集數據采集數據采集流式計算數據處理數據處理數據存儲數據存儲自定義采集日志采集指標采集運維數據庫(多引擎支持)配置數據配置采集批量計算數據管道數據應用數據應用全鏈路追蹤可觀測全鏈
13、路數據分析全鏈路統一告警監控數據監控數據智能運維數據中臺以運維數據為基礎。通過集中數據采集、數據處理、數據存儲、規則模型、頂層場景設計,形成運維場景各層級應用系統的調用關聯,做到端到端覆蓋,利用智能算法平臺,形成業務場景全鏈路業務追蹤、健康度、多維分析IT指標、業務層級拓撲的立體化監控。數據服務API數據規范數據質量數據安全智能運維應用任務編排數據建模智能運維場景-數據中臺圍繞業務構建橫向調用鏈路和縱向資源依賴關系拓撲,聯動指標、日志、告警、變更等多維數據,輔助故障定位,實現精準告警,豐富監控和故障根因分析路徑,快速定界定位。全鏈路多視角分析能力,快速定界、定位智能運維場景-全鏈路可觀測及故障
14、定位模型訓練異常檢測在多類型的日志模式中,無需設置,自動發現新增的日志模式,監控日志模式趨勢,如遇到異常,系統及時給出告警提示,輔助客戶快速發現問題根因。智能運維場景-基于日志算法的故障發現智能運維場景-告警降噪告警源告警匯聚過濾/壓縮/富集事件集成數據源20+類原始告警270w+條3G大小1W/S過濾條件27149條規則壓縮9272條AI智能降噪1800條噪音特征-降噪分析相似性/ACLevens降噪算法相關性/AMDrain降噪算法因果性/ACFrepm降噪算法噪音特征-降噪場景智能檢測風暴智能告警定級根因分析/定位/推薦智能運維場景-單指標異常檢測自動閾值檢測DW Tima檢測動態基線檢
15、測Adaw檢測日志提煉指標靜態閾值/同環比閾值原始告警監控工具指標靜態閾值/同環比閾值日志提煉指標靜態閾值/同環比閾值原始告警監控工具指標靜態閾值/同環比閾值智能化算法智能化算法依托智能化算法可以提高告警準確性,降低冗余告警,配合傳統靜態閾值/同環比閾值,提高一線運維人員故障發現準確率。目錄C O N T E N T01項目概述0203建設內容項目成效項目背景平臺架構創新特點智能運維場景項目價值總體收益項目目標項目價值決策支持數 據 分 析 和 報告 功 能 為 管 理層 提 供 有 效 決策 支 持,制 定更 加 科 學 的 運維和發展戰略。提升運營效率全 方 位 監 控 與智 能 分 析
16、大 幅降低人工干預,提 高 故 障 響 應速 度,優 化 運維 流 程,提 升運營效率。降低運營風險通 過 實 時 監 控和 智 能 預 警,及 時 識 別 和 處理 潛 在 風 險,降 低 系 統 故 障率。增強用戶滿意度提 高 系 統 可 用性和服務質量,確 保 用 戶 順 利進行金融交易,提 升 用 戶 滿 意度和忠誠度。支持業務創新通 過 智 能 化 運維 平 臺,更 快適 應 市 場 變 化和 技 術 進 步,支 持 新 業 務 和產品快速上線,推動業務創新。成本效益顯著通 過 優 化 資 源配 置 和 減 少 故障 停 機 時 間,降低運營成本,提 高 投 資 回 報率,確 保 技
17、 術投資經濟效益??傮w收益運維層面通過智能運維平臺,覆蓋云上云下資源,實現統一管理;通過數據分析和機器學習算法,預測潛在故障以便提前采取措施,平均提前10-15分鐘發現問題,90%的問題能夠得到有效預防及快速發現;通過實時、全面的監控手段,快速定位和解決問題,實現問題5分鐘內快速定位,縮短故障處理時間到最小范圍值,問題解決效率提高30%以上;通過智能化運維工具,實現故障預防、故障發現、故障定位、故障恢復閉環管理,故障檢測縮短至1分鐘以內,處理耗時減少至15分鐘以內,平均故障修復時間(MTTR)小于2小時。告警準確率提升至95%以上,有效降低誤報率。管理層面以智能化的運維管理方式取代大量重復性和常規的運維任務,減少人工干預,誤操作率降低98%以上;通過智能化運維工具,運維人員從重復、日常的運維工作中解脫出來,可以集中精力處理復雜問題,運維工作效率提升30%以上;實時的運維數據和報表幫助管理層通過可視化大屏快速了解全局運行狀況,以便及時和準確進行決策,提升決策效率;更高效的運維管理和更可靠的系統性能,增強用戶滿意度和信任度。謝謝觀看謝謝觀看