《張鶴-券商核心交易系統 AIOps 探索實踐.pdf》由會員分享,可在線閱讀,更多相關《張鶴-券商核心交易系統 AIOps 探索實踐.pdf(23頁珍藏版)》請在三個皮匠報告上搜索。
1、2023 DevOps 國際峰會 暨 BizDevOps 企業峰會 北京站券商核心交易系統AIOps探索實踐張鶴 資深運維平臺專家11年研發經驗,長期從事運維平臺建設工作,目前負責一體化智能運維體系建設工作,擅長應用CMDB、AIOps等領域的平臺能力建設,及一體化智能運維場景的建設。01核心交易系統特點分析02AIOps落地與實踐03AIOps建設問題探討目錄Content01核心交易系統特點分析運行特點與運維痛點分析2023 DevOps 國際峰會 暨 BizDevOps 企業峰會 北京站核心交易系統運行特點交易、結算等核心業務,實時性要求高屬于關鍵信息基礎設施,要求安全等保三級重要性高重
2、要性高部署復雜:共部署700+臺服務器業務復雜:1000+類交易場景,10000+個服務復雜度高復雜度高與核心交易系統存在上下游交互的系統共70+個影響面廣影響面廣日均訂單量:1500萬+交易日峰值TPS:11萬+訪問量大訪問量大每周進行一次常態化版本升級,每月進行一次大版本升級變更頻繁變更頻繁2023 DevOps 國際峰會 暨 BizDevOps 企業峰會 北京站核心交易系統運維痛點版本質量運維專業性可觀測性核心交易系統的外購模塊,出現偶發的版本質量問題變更頻繁加之版本質量不高,導致版本升級后容易出現生產問題版本質量版本質量由于缺少traceId,核心交易系統難以實現業務的全鏈路故障分析日
3、志量巨大,平均每天產生3000萬+日志,導致難以發現問題可觀測性可觀測性核心交易系統對運維人員的專業水平、業務知識的能力要求較高發生故障時,需要以最短時間進行應急,并控制操作風險運維專業性運維專業性02AIOps落地與實踐核心交易系統AIOps場景2023 DevOps 國際峰會 暨 BizDevOps 企業峰會 北京站AIOps體系架構2023 DevOps 國際峰會 暨 BizDevOps 企業峰會 北京站場景一:毛刺風險分析AIOps分析與計算核心功能號基于鏡像流量的請求RTT計算指標時序庫實時偏離度計算異常毛刺毛刺聚合毛刺工單運營毛刺風險工單毛刺分析毛刺工單反饋SRE運營人員跟蹤運營核
4、心功能號實時性要求高,整體耗時要求在10ms左右,且不能出現頻繁波動固定/動態閾值告警,無法感知耗時指標的瞬時突變,而瞬時突變可能是系統異常導致提升核心功能號的監控保障能力幫助SRE發現系統的潛在風險場景背景場景意義3-sigma算法RTT指標數據訓練生成動態閾值區間核心接口大屏一線運維早開盤盯屏2023 DevOps 國際峰會 暨 BizDevOps 企業峰會 北京站場景一:毛刺風險分析360毛刺巡檢大屏通過毛刺風險工單,跟蹤SRE對于毛刺風險的分析與反饋情況,推動SRE進行毛刺風險分析核心接口保障大屏支撐早開盤期間,核心接口服務狀況的跟蹤2023 DevOps 國際峰會 暨 BizDevO
5、ps 企業峰會 北京站場景二:內存清算耗時異常檢測內存清算過程出現問題的概率雖小,但影響巨大,屬于核心業務,需要重點保障,出現異常時,需要第一時間介入處理清算步驟執行結果監控未全面覆蓋,部分步驟的執行結果無法自動感知業務原因可能導致部分清算步驟的執行時長日漸增長,進而觸發超時異常提升內存清算過程的異常感知能力提早發現清算步驟執行時長的突變與漸變,節省SRE的處置時間場景背景場景意義清算步驟執行時長起始時間AIOps平臺模型訓練孤立森林算法AIOps業務場景執行時長突變執行時長漸變開始時間突變動態基線模型匹配起始時間趨勢分析步驟相似度分析實時檢測合理區間匹配趨勢分析開始時間漸變異常分析清算大屏2
6、023 DevOps 國際峰會 暨 BizDevOps 企業峰會 北京站場景二:內存清算耗時異常檢測清算全過程集中管理目前已納管內存清算的所有步驟節點,可展示清算步驟的執行過程與順序。清算過程實時展現結合清算節點本身的業務監控能力、清算節點耗時AIOps異常檢測能力,實時呈現清算全過程的成功、失敗、異常情況。2023 DevOps 國際峰會 暨 BizDevOps 企業峰會 北京站場景三:集中交易日志異常檢測錯誤日志運行日志其它類型日志AIOps平臺時序檢測3-sigma算法AIOps業務場景新日志異常點突變異常點歷史異常查詢異常標注告警反饋故障研判通過文本相似度,流式計算相似文本、聚合計算、
7、異常檢測等能力,為用戶提取日志異常(新類型日志、日志量突變日志類型等)每日核心交易系統中間件日志量3000萬+,關鍵字匹配告警僅1000余條,日志利用率、發現異常率低僅對已知故障日志配置告警,但頻繁變更帶來新的故障類型,無法感知場景背景快速發現基于人工經驗無法識別的日志異常有效感知因變更或業務變化導致的系統異常場景意義Drain算法模板引擎聚類模板關鍵字匹配errorInfo/Message2023 DevOps 國際峰會 暨 BizDevOps 企業峰會 北京站場景三:集中交易日志異常檢測96521142458714421212600000010104202314月第1周4月第2周4月第3周
8、4月第4周5月第1周5月第2周5月第3周5月第4周日志異常檢測數量錯誤日志新類型運行日志新類型錯誤日志突變運行日志突變通過3周時間收斂異常數量,3周后趨于穩定通過告警工單,發送給SRE進行反饋確認2023 DevOps 國際峰會 暨 BizDevOps 企業峰會 北京站場景四:磁盤占用率預警市中交易期間與重保期間,磁盤占用率觸發告警時,清理文件操作屬于應急操作磁盤占用率低級別告警線為85%,高級別告警線為95%,一旦觸發高級別告警,一線運維介入處理,影響較大將告警升級為預警,提早發現風險減少市中因磁盤打滿而必須執行的應急操作,推動SRE配置自動清理日志任務場景背景場景意義磁盤占用率AIOps平
9、臺單指標擬合計算AIOps業務場景低級別告警觸發高級別告警預測批量掃描磁盤占用率預警prophet算法2023 DevOps 國際峰會 暨 BizDevOps 企業峰會 北京站場景四:磁盤占用率預警納管生產環境2萬+機器,平均每月發現24次磁盤占用率預警。2023 DevOps 國際峰會 暨 BizDevOps 企業峰會 北京站場景五:全業務運行畫像前期只關注應用層、計算資源層告警,對業務的運行情況感知不足對業務的異常感知,主要關注高頻、新上等業務的首單時間、廢單情況自動生成全量業務,可有針對性地進行業務監控能力提升及業務場景測試提升業務監控感知能力場景背景場景意義2023 DevOps 國際
10、峰會 暨 BizDevOps 企業峰會 北京站場景五:全業務運行畫像實時檢測當日新上業務,在新業務版塊進行重點關注新業務提醒根據T-1日訂單量進行業務排序,動態調整業務墻布局,高頻業務前置業務量排序結合業務監控告警、首單檢測、新廢單類型檢測,分顏色展示異常原因業務健康檢測快速拉人入會,進行應急指揮調度業務應急調度03AIOps建設問題探討如何提升AIOps建設成效2023 DevOps 國際峰會 暨 BizDevOps 企業峰會 北京站AIOps建設達不到預期AIOps建設沒出效果投入成本大,成效慢AIOps發現的異常不準確擔投入成本大,成效慢在原有告警基對SRE日常工作造成負擔投入成本大,成
11、效慢在原有告警基礎上,增加額外告警領導與SRE對AIOps逐漸失去信心!2023 DevOps 國際峰會 暨 BizDevOps 企業峰會 北京站AIOps建設的關鍵點AIOps平臺依賴于日志監控、指標監控、CMDB拓撲等底層數據,只有充分完善系統的監控成熟度及CMDB數據,才能確保模型訓練的結果更為準確夯實數據底座各系統的業務關注點、日志格式、監控告警等均有差異,很難實現通用的AIOps業務場景,只有結合系統的業務場景實際,進行定制化分析,才能保證分析效果業務場景定制AIOps分析是基于歷史數據訓練,并結合實時數據匹配的結果,必然存在匹配錯的情況,必須通過運營人員,組織SRE與開發人員,不斷
12、進行結果的反饋與修正,不斷提升結果的準確性加強聯合運營2023 DevOps 國際峰會 暨 BizDevOps 企業峰會 北京站AIOps運營體系組織需求討論與方案評審組織平臺使用培訓推動工單反饋工單反饋SLA審計技術支持提供運營支撐數據提供技術方案組織需求討論與方案評審準確率SLA審計需求反饋問題反饋問題反饋需求反饋運營團隊產品規劃設計需求承接與分析開發團隊需求分解與方案設計平臺能力建設SRE團隊平臺使用工單反饋自頂向下推動納入KPI考核指標牽引、數據驅動、運營組織、流程閉環2023 DevOps 國際峰會 暨 BizDevOps 企業峰會 北京站ThanksDevOpsDevOps 時代社區時代社區榮譽出品