《聶曉輝-AIOps在線評測基準系統.pdf》由會員分享,可在線閱讀,更多相關《聶曉輝-AIOps在線評測基準系統.pdf(68頁珍藏版)》請在三個皮匠報告上搜索。
1、AIOps 在線評測基準系統聶曉輝 必示科技公司演講嘉賓聶曉輝必示科技產品總監必示科技產品部總監、算法研究員,清華大學計算機系博士,研究領域為智能運維(AIOps),在 JSAC、TON、KDD、ESEC/FSE 等 CCF A/B 類國際會議或期刊上發表20余篇文章,研制的智能運維系統在銀行、證券、運營商、互聯網等40 多家企業實施落地,曾獲得中國電子學會科學進步一等獎。7北京必示科技有限公司成立于2016年,源自清華大學NetMan智能運維實驗室,致力于用AI技術賦能IT運維領域,打造世界領先的智能運維(AIOps)引擎必示智能運維平臺,讓企業可以從復雜的IT軟硬件和海量監控數據中自動、準
2、確、快速地進行風險預警、異常發現、故障定位等,提高企業IT系統穩定性、可用性和運營管理效率,助力企業防控IT系統運行風險。公司介紹PROFILE必示科技智能運維領航企業二十余項AIOps行業領先核心算法國際頂級會議、學術期刊發表論文三百余篇高校合作、工程孵化、產品線三層產學研創新體系技術優勢深耕落地百余家金融、運營商為代表的頭部企業主導及深度參與智能運維領域國家標準和行業標準形成業界首個智能運維落地效果運營方法論經驗優勢業內率先定義“風險預警+異常發現+故障定位”的最佳工業實踐豐富完善的必示智能運維產品矩陣以“為客戶交付清晰價值”為目標的產品落地準則產品優勢依托清華大學NetMan實驗室產品團
3、隊擁有二十余名智能運維領域博士、碩士核心管理團隊平均行業經驗超過15年頂尖團隊行業內科研實力最強、市場關注度最高的企業50+項軟件著作權20+核心技術發明專利參與編寫國內僅有的兩本企業級AIOps實踐白皮書國際頂會&學術期刊發表論文三百余篇 2023中國電子學會科技進步一等獎 連續三年入選IDC 中國FinTech 50榜單 2023成為中國移動自智網絡子鏈成員單位 2023成為首批“建行云”生態合作伙伴 2022數字中國年度高科技高成長企業系列榜單 2022未來銀行科技服務商Top100榜單 2022第四屆金融數據智能優秀解決方案評選專家推薦top10優秀解決方案 2022中國云生態創新企業
4、榜 2022 IDC 中國FinTech 50榜單 2022年度金融科技影響力品牌 2022年度數字化先鋒產品獎 2022年數字中國年度高科技高成長企業系列榜單 2021金融行業年度卓越創新案例-智能運維(AIOps)類 2021年IDC 中國Fintech 50榜單 2020年度最具商業價值解決方案 TOP 30 2020中國人工智能商業落地價值潛力100強 2020運維創新優秀解決方案 2019機器之心最具創新AI產品解決方案TOP30 2019人工智能企業TOP100 2019年9月中國高質量發展創新示范單位 2018盛景全球創新大獎TOP20 獎項榮譽信創適配完成對操作系統、處理器、數
5、據庫、中間件、云平臺等領域的30余家企業的產品兼容認證主導參與智能運維國標制定產品頂尖AI技術,榮獲中國電子學會科技進步一等獎必示科技參與的“大模型在線服務智能智能運維核心技術及產業化”項目榮獲2023中國電子學會科技進步一等獎。在評審會上,費愛國院士、張宏科院士一致認為:“該項目技術復雜,研究難度大,創新性強,項目整體成果達到國際先進水平,其中基于生成模型的指標異常檢測、基于語言模型的日志異常檢測、基于因果推理的故障定位處置等技術均達到了國際領先水平。項目社會效益、經濟效益顯著,應用前景廣闊?!苯刂聊壳?,該項目已產生直接經濟收益數億元;本項目突破智能運維技術瓶頸,提升了在線服務的運維水平,為
6、信息服務和數字中國提供重要支撐,具有顯著的社會效益。中國電子學會科技進步獎,在業內具有很高的認可度和影響力,等同于(甚至高于)省部級獎勵。該獎項具有很高的科技含量,同時期獲獎有ChatGLM大模型(清華&智譜華章,2023)、GaussDB數據庫(清華&華為云,2022)。市場高度認可,大量頭部客戶銀證劵/保險與60+家頭部融企業達成合作積淀近百個智能運維項建設經驗合作客戶包括國有、股份制銀、國內TOP城商和證券機構。必示科技擁有近百個深參與的智能運維建設成功案例,構建了獨有的AIOps建設法論。其他目 錄CONTENTS1.AIOps在線評測基準背景2.AIOps在線評測基準系統建設現狀3.
7、AIOps在線評測基準系統關鍵技術4.總結與展望AIOps在線評測基準背景PART 01智能運維發展現狀運維在各行各業的重要性越來高數字化程度越來越高系統規模越來越大組件監控粒度越來越細監控數據量越來越大新技術、新組件不斷引入運維工程師被海量高速運維監控數據淹沒Each offers some clues,but due to complexity and volume,each is hard to manually analyze,let alone collectively analyze all data sources.銀行、證券、保險、電信、能源、工業制造、政府部門、互聯網15智能
8、運維發展現狀Each offers some clues,but due to complexity and volume,each is hard to manually analyze,let alone collectively analyze all data sources.行業趨勢Gartner技術成熟度曲線(國內):n 國內智能運維技術成熟度相較于全球處于靠前位置n 智能運維已經跨過了通脹預期階段的頂峰并處于下滑階段n 將會更早地進入實質生產階段Gartner技術成熟度曲線(全球):n 智能運維處于通脹預期階段的頂峰之前n 在2到5年內達到最終成熟的實質生產階段,5到10年內達到
9、生產力高原的階段IDC國際IT運維分析預測:2021至2025年間,IT運維分析相關軟件領域的市場復合年增長率為9.8%,市場總收入預計達到59.3億美元。16智能運維學術研究現狀Reiter 2021 Notaro 2020智能運維故障管理事前故障管理故障預防故障預測事后故障管理故障檢測根因分析故障補救資源配置資源整合資源調度功耗管理服務組合負載預測n 絕大部分論文集中在故障檢測,根因分析和故障預測中n 實際工業落地的工作占比少u 近年來論文數量u 研究分類u 主流研究方向Notaro 2020Notaro 202017人工智能算法開源工具智能運維18智能運維的落地挑戰問題定義不清晰缺乏評測
10、標準缺乏標準數據人工智能工程化問題最佳實踐運維數據質量不足運維人員缺乏人工智能相關知識業務需求模糊與現有運維系統難以集成運維場景實際落地問題運維知識18智能運維發展現狀標準化(Standardization):形成普適于不同運維背景下智能運維落地實施的必要條件,提高行業整體實踐能力。解決當前落地實踐問題的一種可行方法新一版信息技術標準體系ITSS5.0中已將智能運維標準納入規劃中標準化保障服務/產品質量提技術的普適性和互操作性減少不必要的多樣性形成統認知,降低學習和交流成本序號標準號標準名稱類別頒布/修訂時間1GB/T 43208.1-2023信息技術服務 智能運維 第1部分:通用要求國家標準
11、2023.092T/CCSA 382.1-2022云計算智能化運維(AIOps)能力成熟度模型 第1部分:通用能力要求團體標準2022.063T/CCSA 382.2-2022云計算智能化運維(AIOps)能力成熟度模型 第2部分:系統和工具技術要求團體標準2023.1019良好行業的樣例計算機網絡(標準化協議)計算機視覺(標準化評測集)運維領域同樣需要標準數據集、評測標準、系統標準化協議希望通過構建在線評測基準,推動運維行業的智能化、標準化應用落地20一種運維應用的評測樣例以 2022 CCF國際AIOps挑戰賽”微服務架構電商系統下故障識別和分類“為例微服務架構電商系統混沌程系統流量模擬注
12、故障指標志調鏈產產產212018賽題:KPI異常檢測2019202020212022賽題:多維監測指標的異常定位賽題:微服務應用系統故障發現和根因定位賽題:云環境下商業銀行應用系統的故障實時檢測與根因定位賽題:微服務架構電商系統下的故障識別和分類賽題:開放式賽題CCF AIOps挑戰賽社區CCF國際AIOps挑戰賽7年歷程(2018-2024)https:/aiops- Live Benchmark):在真實的IT系統上,通過混沌工程工具模擬真實的運維場景,通過可觀性測工具獲實時數據,在線評測AIOps應用,提供對應的評測基準和排行榜。社區成員可以參與貢獻各個模塊。AIOps Live Ben
13、chmark AIOps應用s.異常檢測根因定位.IT系統混沌工程工具在線評測榜權威數據集23AIOps在線評測基準系統建設現狀PART 02在線評測基準工作進展AIOps Live Benchmark 建設架構一家小型企業的IT運維工具平臺,麻雀雖小五臟俱全25微服務系統Online Boutique覆蓋多種開發語言的微服務系統,覆蓋更多的系統運維場景系統開源,可以根據運維場景對系統做改造OpenTelemetry數據采集支持信創數據庫TiDB模擬變更場景26混沌工程工具 系統已支持注入K8S、主機上CPU、內存、網絡、磁盤、應用等多種類型故障,模擬多種真實故障場景 支持異常檢測、故障定位等
14、多種場景評測CPU使率服務響應時間注k8s容器cpu負載27開源可觀測性工具Jeager:開源的分布式跟蹤系統,用于采集電商系統的trace數據Promethues:開源的監控數據采集和告警工具,用于采集電商系統的指標數據28專業可觀測工具全方位的可觀測解決方案Deepflow:基于eBPF技術,實現網絡、系統、應用全棧指標自動采集和全鏈路自動追蹤樂維監控:專注于數字化運維領域的智能監控平臺,提供統一告警、故障診斷、可視化、業務服務、決策輔助等全流程運維管理服務基調聽云:應用性能管理(APM)的解決方案藍鯨:騰訊游戲運營部“騰訊智營”下的子品牌,基于 PaaS 的企業研發運營一體化技術解決方案
15、29開源數據集完成初版微服務系統的約50種指標、10種對象指標體系構建完成數據清洗、存儲流程,每天定時發布目前支持指標和trace,后續增加日志等數據,供系統評測指標體系數據下載網站30AIOps應用智能告警管理智能業務指標異常檢測動態基線,無需配置閾值,算法學習自動發現可監控指標,擴大監控范圍告警風暴自動分析故障定位、定界告警治理31DEMO演示https:/ 3月5日獲得機器資源 3月21日完成網站框架建設 完成Deepflow、樂維、聽云、藍鯨、必示等工具部署和調試 完成2個AIOps應用建設 初步開始評測基準建設 完成數據清洗和發布 制定第一版線評測基準系統當前建設人員在線評測基準專家
16、組59人,分別來自高校、研究所、科技公司、銀行、證券等企業工程師約40人,分別來自中科院、樂維、聽云、藍鯨、DeepFlow、必示等單位建設進程345系統價值33AIOps在線評測基準系統關鍵技術PART 03以真實運維場景構建評測基準DNSDNS 中斷系統狀態驗證依賴不可用的依賴網絡不可靠的網絡基礎設施使用狀態檢查驗證自動縮放驗證運行狀況檢查-延遲驗證運行狀況檢查-數據包丟失區域異常準備主機故障處理混合環境中的網絡問題查找單點故障消息隊列檢查 Kafka Broker 負載對處理延遲的影響檢查 Kafka 腦裂沖突測試消息系統的最小節點假設測試消息流以處理丟失的leader node為生產者
17、的延遲做準備數據庫為 MySQL 的內存不足異常做準備數據庫輔助故障轉移時間數據庫延遲數據庫緩存檢查DynamoDB 超時測試運維監控場景測試 TLS/SSL 證書過期發現異常的 CPU 消耗監控和警報驗證onduty考驗檢查后端Trace檢查由于網絡問題導致的監控數據丟失基礎測試監控和警報k8s容器驗證容器彈性機制:OOMKiller測試存儲容量限制節流 CPU高 CPU可用性驗證讓Kubernetes 節點網絡丟包可用性驗證黑洞一個區域可用性驗證DNS 中斷服務驗證關閉服務服務驗證將丟包注入服務服務驗證向服務注入延遲服務驗證將丟包注入節點服務驗證向節點注入延遲服務驗證關閉節點35故障注入能
18、力故障名稱故障對象注式銷毀式注描述故障表象(可直接造成的指標異?;蛑径萎惓#〤PU負載容器、虛擬機API接、CLIAPI接、CLICPU占率,CPU核占率額外進程消耗CPU,CPU占率升CPU爬升占容器、虛擬機API接、CLIAPI接、CLICPU占率緩慢爬升,CPU核占率額外進程消耗CPU,CPU占率按爬升時間升內存負載容器、虛擬機API接、CLIAPI接、CLI內存(cache、mem)的控制,容易造成服務宕機(OOM)額外進程消耗內存卡延遲容器、虛擬機API接、CLIAPI接、CLI對故障對象的某卡進延遲控制,可隔離部分組件的絡通信流經該卡的請求延遲提卡丟包容器、虛擬機API接、CLIA
19、PI接、CLI對故障對象的某卡進丟包控制,可隔離部分組件的絡通信流經該卡的請求發丟包絡隔離虛擬機API接、CLIAPI接、CLI定向隔斷對象絡注對象絡指定域絡不可達端占容器、虛擬機API接、CLIAPI接、CLI本地端占,可強制占(關停原有服務)本地端占,法新建服務通信絡包重復容器、虛擬機API接、CLIAPI接、CLI指定卡、本地端、遠程端、標 IP 包重復DNS解析異常虛擬機API接、CLIAPI接、CLI篡改域名地址映射域名解析異常,類DNS服務器異常件權限變更虛擬機、容器API接、CLIAPI接、CLI指定件權限變化部分進程指定件讀寫訪問異常件增刪虛擬機、容器API接、CLIAPI接、
20、CLI指定件新增、刪除操作服務中斷虛擬機API接、CLIAPI接、CLI對某個服務進宕機模擬服務下線、虛擬機宕機磁盤讀寫IO控制服務、容器、虛擬機 API接、CLIAPI接、CLI對磁盤的IO控制讀寫失敗、讀寫延遲磁盤空間控制服務、容器、虛擬機 API接、CLIAPI接、CLI磁盤使率的控制磁盤占空間,短時間有IO攀升進程殺死容器、虛擬機API接、CLIAPI接、CLI殺死進程故障進程被kill進程暫停容器、虛擬機API接、CLIAPI接、CLI進程假死故障進程暫停執JVM OOMJVMAPI接、CLIAPI接、CLIJVM heap堆內存異常JVM志報出OOM段(持metaspace、hea
21、p、offheap),內存使率上升JVM CPU滿載JVMAPI接、CLIAPI接、CLIJVM CPU滿負載Java進程 CPU攀升CodeCache滿載JVMAPI接、CLIAPI接、CLIJVM JIT編譯后“熱代碼”存放區占滿JVM關閉JIT編譯且不可再開啟,系統最負載下降聲明異常拋出JVMAPI接、CLIAPI接、CLI在特定類上的法上概率拋出異常應志出現異常段定義異常拋出JVMAPI接、CLIAPI接、CLI在特定類的法上概率跑出某種異常應志出現異常段JVM資源更改(配置變更故障)容器、虛擬機YAMLYAML控制JVM資源K8s資源更改(配置變更故障)虛擬機YAMLYAMLk8s分
22、配資源不故障K8s新創建Pod處于Pending狀態容器資源更改容器CLICLIDocker分配資源不故障服務資源不Linux 內核故障(延遲)虛擬機API接、CLIAPI接、CLI對linux內核函數添加延遲調內核函數的相關進程發延遲Linux 內核故障(返回碼)虛擬機API接、CLIAPI接、CLI對linux內核函數返回碼修改調內核函數的相關進程返回碼被修改API接故障(延遲)服務YAMLYAML通過對服務中的某單接進延遲故障注服務某個API接發延遲API接故障(返回碼)服務YAMLYAML修改服務中的某單接的返回碼服務某個API接返回錯誤的返回碼MySQL數據庫異常:調延遲JDBC層A
23、PI接、CLIAPI接、CLIMySQL特定SQL延遲代碼邏輯故障(變更故障)服務侵式、侵式API接、版本回滾對內部代碼進修改,模擬變更發的代碼邏輯故障36流量模擬37定義運維指標體系業務性能及體驗應用系統平臺軟件基礎設施IT服務管理功能使用交易數據業務流程客戶體驗運營管理客戶端應用服務應用配置應用制品應用參數應用平臺容器數據庫中間件操作系統環控網絡存儲服務器IOT虛擬化變更發布實踐問題服務臺交易訂單量,交易時延交易委托量性能時延交易成功率功能調用數任務調用數終端版本用戶IP系統進程狀態JVM內存利用率接口調用數CDN質量CPU、內存、存儲響應時間負載SQL語句執行實踐緩沖區命中率連接池數量網
24、絡丟包率網絡鏈路延時專線帶寬出口流量存儲空間服務器設備狀態一線支持解決率事件平均解決時間座席接線量配置數據不準確配置數變更失敗數38支持以可視化、可拖拽、可配置等簡單、高效的方式對原始告警數據進行標準化處理,快速完成流水線式的告警數據處理和接入工作,為構建告警管理和告警智能分析場景提供可用的數據基礎。l以圖形化拖拽方式創建和配置流水線,保證任務編輯的易用性;l內置多種數據處理組件,開箱即用;l支持多種數據源和數據輸出端,滿足不同數據對接需求。l基于flink流數據處理框架,提供高并發的大數據處理能力;l支持任務監控,直觀呈現任務運行狀態。u支持對于接入的告警數據進行數據的匯集、轉換,實現數據格
25、式標準化。數據建模 可視化編排39支持多源數據接入支持多源數據輸出支持數十種數據處理算子指標基礎管理-支持多源輸入和輸出和計算40AIOps應用:單指標異常檢測Efficient KPI Anomaly Detection Through Transfer Learning for Large-Scale Web Services,JSAC 2022Robust KPI Anomaly Detection for Large-Scale Software Services with Partial Labels,ISSRE 2021Time-Series Anomaly Detection S
26、ervice at Microsoft,KDD 2019Cross-dataset Time Series Anomaly Detection for Cloud Systems,ATC 201941業務指標異常檢測專注于關鍵業務指標 衡量業務系統(含交易碼/功能號)的健康狀態:響應時間、成功率、響應率、交易量等,檢測有助于及時發現異常提前揭示風險。業務指標異常檢測 快速準確地發現故障(支持10秒級),為后續的故障診斷和修復贏得寶貴的時間。覆蓋系統核心系統、集中交易系統等手機銀行、各類網交系統等數據對接業務監控工具日志管理工具針對券商交易時段特性進行適配,只訓練和檢測交易時段內的數據自動識別無
27、規律性指標,并給出極限閾值基帶內的突變異常自適應整體趨勢性變化不受數據缺失、中斷影響變更導致指標劇變(如版本上線)特征描述器檢測器檢測器檢測器周期長度抖動程度周期偏移KPI分類器結果無監督 實時處理 海量多類型指標(幾十萬級)傳統靜態閾值監控AIOps方式智能檢測閾值大小設置不準確閾值配置工作量大無法適應業務指標波動無法適應特殊日期波動檢測不同類型異常無需人工調參自動適配各種KPI無需人工標注42業務指標異常檢測評測22:34:00事件時間線法程序開始執容器CPU開始異常升22:34:1022:34:15productcategory 服務延遲受到影響,開始增長故障背景:在22:34:00時刻
28、,在productcatalogservice-0容器注入故障(非法程序),導致容器CPU使用率異常增加,影響productcategory服務響應時間從5ms漲到1s以上,影響用戶體驗CPU使率服務響應時間業務監控程序開始告警Promethues開始告警22:36:0022:38:5643基于時序預訓練模型,結合容量指標趨勢預測任務進行微調訓練,面向容量類指標超限預警的問題,預測其未來一段時間的變化走勢,及時發現容量超限風險??捎糜趹媒灰琢?、資源池容量、數據庫表空間、網絡帶寬等方面的趨勢變化預警,提醒管理員及時采取措施,避免影響生產。落地場景落地效果提前X天擴容操作到達閾值觸發風險提醒指標
29、:文件系統使用率預計X天擴后到達閾值傳統容量預警AIOps方式容量預警預測準確性低無法適應變化環境數據建模簡單缺乏個性化定制能力捕捉復雜關系可遷移性強考慮時間相關性個性化定制能力指標趨勢預測44AIOps應用:多指標異常檢測Jump-Starting Multivariate Time Series Anomaly Detection for Online Service Systems,ATC 2021Multivariate Time Series Anomaly Detection and Interpretation using Hierarchical Inter-Metric an
30、d Temporal Embedding,KDD 2021Detecting Outlier Machine Instances through Gaussian Mixture Variational Autoencoder with One Dimensional CNN,TC 2021Robust Anomaly Detection for Multivariate Time Series through Stochastic Recurrent Neural Network,KDD 2019 45基于指標模式的故障檢測指標類型異常模式文件系統使用率緩慢上升CPU使用率突增、突增后保持、
31、緩慢上升內存使用率突增、突增后保持、緩慢上升指標異常模式示例落地場景與效果傳統異常檢測AIOps預訓練模型人工排查繁瑣缺乏自適應性依賴規則和閾值設置缺乏遷移性多維度特征分析自適應學習自動化異常檢測可遷移性基礎資源風險感知場景面向IT基礎設施的日常巡檢過程,融合運維專家的指標檢查經驗,針對基礎資源對象運行過程中的指標異常模式進行特征分析,發現能夠直觀代表異常事件的某些指標波動模式,例如突增、突降、突刺、緩慢上升、緩慢下降等,實現對于基礎監控數據的長周期、精細化風險識別,高效、準確的捕獲海量IT基礎組件運行過程中的反規律異常。46變更風險感知47系統變更在軟件開發和系統維護過程中是十分頻繁和不可避
32、免的,而頻繁的變更通常會給運維工作帶來不可預知的風險,影響業務系統穩定運行。而目前對于變更實施后的檢查多以人工驗證方式完成,存在耗時耗力、腳本配置困難、容易出現漏查錯查等問題。變更在軟件開發和系統維護過程中是頻繁且不可避免的,版本投產極易引入故障 開發新的功能 修復軟件bug 更改系統配置 環境適配 提升系統性能變更后問題頻發海量數據人工驗證效率低由于各種影響因素的存在,人工驗證變更結果效率低,容易導致一系列問題線上環境的復雜性系統指標的種類和數量眾多日志數據可讀性不高驗證標準不統一依賴管理員專業素質指標數量檢查點單位時間巨大耗時變更風險感知案例48案例描述:某應用系統夜間變更,風險感知平臺在
33、變更后10分鐘啟動變更風險檢查,針對該系統和相關交易碼的業務指標在變更前后的變化進行分析,發現變更后該系統業務指標與多個易碼業務指標均存在明顯異常,生成多項高危風險,提醒客戶關注變更異常問題。管理員和項目組確認問題后,及時進行了版本回退。后續排查發現,該次變更中某服務參數配置遺漏導致渠道系統無法驗證通過,影響了業務正常辦理。觸發檢查后,共計發現系統級風險4項、交易碼風險7項、主機風險72項系統級交易碼級風險檢查報告系統成功率相比變更前明顯下降成功率降為0失敗量相比前幾周明顯增多失敗量相比前幾周大幅增多指標模式故障檢測案例經過在某城商行超過一個月的生產環境在線測試,接入60+套系統的業務指標、數
34、千臺主機的性能指標,平均每天告警約10條(相同、重復的告警進行壓縮)。系統變更后,CPU緩慢上升波形CPU指標:非尖刺上升波形49日志分析與異常檢測Log-based Anomaly Detection with Deep Learning:How Far Are We?ICSE 2022MoniLog:An Automated Log-Based AnomalyDetection System for Cloud ComputingInfrastructures,ICDE 2021Log-based Anomaly Detection Without Log Parsing,ASE 2021
35、A Survey on Automated Log Analysis for Reliability Engineering,CSUR 2021LogAnomaly:Unsupervised Detection of Sequential and Quantitative Anomalies in Unstructured Logs,IJCAI 2018 DeepLog:Anomaly Detection and Diagnosis from System Logs through Deep Learning,CSS 201750日志異常檢測背景51傳統日志檢測方案完全依賴日志專家事先配置,工
36、作量大配置不全面(難以事先要枚舉全)更新開銷大(無法應對日志變化)檢測方法簡單,適應力弱關鍵詞/正則計數固定閾值檢測利用數據分析、機器學習技術,自動發現多種日志的潛在問題,解決傳統手段不足新鮮事物,循序漸進:開始把最有信心、管理員能理解的告警發出,減少誤報率,提高大家信心提供便捷反饋功能,持續優化:讓管理員可以通過簡單操作,就將潛在問題逐步納入正式告警場景非常關鍵,領域知識的結合:哪些日志用得更頻繁、價值高、對發現問題和定位問題幫助大管理員想要的日志檢測 應用日志Oracle日志DB2日志Informix日志SQLServer日志MySQL日志MQ日志Tuxedo日志Weblogic日志Tom
37、cat日志Apache日志交換機日志路由器日志防火墻日志F5日志存儲日志存儲交換機日志UNIX日志Linux日志Windows日志電力日志日志異常檢測流程17日18:20起,某業務系統【連續登陸失敗次數超限】模板數量突增,產生多個日志告警管理員查看告警詳情及原始日志后排查發現原因為某次變更所致,及時進行回退,防止了故障進一步惡化。原始日志模板生成觸發告警52AIOps應用:調用鏈分析與異常檢測Unsupervised Anomaly Detection on Microservice Tracesthrough Graph VAE,WWW 2023TraceCRL:Contrastive Re
38、presentation Learning for MicroserviceTrace Analysis,FSE 2022Practical Root Cause Localization for Microservice Systems via Trace Analysis,IWQoS 2021Unsupervised Detection of Microservice Trace Anomalies through Service-Level Deep Bayesian Networks,ISSRE 2020Latent Error Prediction and Fault Localiz
39、ation for Microservice Applications by Learning from System Trace Logs,ESEC/FSE 201953調用鏈根源系統定位在大型系統中,為了完成一個確定的任務,需要多個系統或服務之間的相互調用。因此故障發生時,許多系統或服務可能會同時產生告警,對于多層次的系統架構導致故障定位愈發困難,如何在大面積故障中找到存在于多系統架構內的故障產生的根本原因?調用鏈根因定位系統利用系統或服務間的調用鏈數據,定位故障的可能根源,解決運維人員需要逐個排查的痛點。構建骨架圖確定傳播方向定位排序根據節點間調用邊的異常情況構建骨架圖根據報警類型和節點
40、間調用關系確定直接故障傳播關系及方向根據故障傳播圖拓撲結構及權值信息計算節點的根因概率并排序渠道系統A交易延遲上升渠道系統B業務系統A業務系統D業務系統E業務系統B業務系統C58.213.811.218.617.61.9自動產生系統關系圖,無需人工配置1分鐘定為根源系統54調用鏈根源系統定位案例定位到異常調用根因均為互聯網內聯網關交易。根因為互聯網內聯網關數據庫配置問題,由于缺少重連參數配置,導致連接斷掉后無法重聯,響應率持續為0。55AIOps應用:根因定位Robust Failure Diagnosis of Microservice System through Multimodal D
41、ata,TSE 2023Eadro:An End-to-End Troubleshooting Frameworkfor Microservices on Multi-source Data,ICSE 2023Actionable and Interpretable Fault Localizationfor Recurring Failures in Online Service Systems,ECSE 2022MicroHECL:High-Efficient Root CauseLocalization in Large-Scale Microservice Systems,ICSE 2
42、021MicroRank:End-to-End Latency Issue Localization withExtended Spectrum Analysis in Microservice Environments,WWW 2021AutoMAP:Diagnose Your Microservice-based Web ApplicationsAutomatically,WWW 202056業務明細多維定位當檢測到某個交易型指標出現異常的時候,通過多維定位可以從交易明細中快速準確定位出哪個交易維度導致了異常。在上萬種維度取值組合中快速定位最有嫌疑的維度上萬種維度取值組合層次化剪枝蒙特卡洛
43、樹搜索算法基于“影響力”的異常檢測算法交易明細數據異常檢測第1層維度組合第2層維度組合第N層維度組合異常維度集合層次化剪枝.基于嫌疑程度的蒙特卡洛樹搜索連鎖效應:嫌疑程度:傳統業務明細定位AIOps業務明細多維定位只能參考當前維度組合的絕對值,無法感知異常情況手工寫大量查詢語句,枚舉所有維度組合,進行排障準確地參考歷史數據對所有維度組合進行異常評估自動遍歷所有維度組合進行進行智能剪枝,無須人工干預維度數據省份、城市、網段、IP、ISP、客戶端版本等數據對接業務監控工具、日志管理工具等某個網絡的問題?某個客戶端版本新上線的版本bug?某個城市或者ISP網絡故障?某個指標平均響應時間上升?多維交易
44、明細57機器指標定位機器指標定位場景有助于快速準確進行故障定界,定位到是由底層哪個基礎組件引發的問題,從而快速進行止損和修復。如果不是因為基礎組件引起的問題,通過定位結果可以首先排除IT基礎設施層面的可能性。業務出現問題依賴大量模塊多組件、多操作系統海量對象和指標哪些是問題所在?覆蓋對象 主機、數據庫、中間件、網絡設備等數據對接 基礎監控工具 數據庫監控工具 網絡監控工具等傳統基礎設施定位AIOps機器指標定位手工逐個檢查基礎設施監控對象及其指標各基礎組件管理員逐一排查監控視圖基于經驗對基礎組件異常程度排序不夠準確自動對海量指標做批量掃描,找出可疑對象和指標智能故障定界,快速縮小問題排查范圍基
45、于算法對各組件指標異常程度進行準確排序58機器指標定位案例 未發現某查詢功能號的指標異常 未發現該系統下的主機層面異常 2020年X月X日發現網交系統某查詢功能號響應時間異常升高 迅速定位到兩臺主機指標存在大幅波動傳統固定閾值智能運維平臺異常描述:在交易時段內,網交系統某查詢類功能號出現響應緩慢的情況,而歷史同期卻沒有響應時間增加的問題故障原因及影響:網交系統所在主機集群的兩臺主機的CPU和IO指標在故障同一時間存在大幅異常波動,導致網交系統整體平均響應時間增加故障處理:更換這兩臺主機后未再復現上述問題案例價值:通過業務指標異常檢測場景發現傳統監控工具固定閾值未發現的異常事件,并在眾多基礎組件
46、中準確定位出兩臺主機的問題,為管理員提供關鍵的故障定界線索,及時恢復系統正常運行狀態59運維大模型OpsEval在線評測基準http:/17350題題14單位單位5行業行業8場景場景客觀題 17000題主觀題 350道中英雙語8中任務場景3個能力分層互聯網通信云計算金融證券有線網絡運維5G網絡通信數據庫運維混合云建設和運維金融IT運維金融信創運維證券信息系統日志分析能力必示科技國泰君安華為基石數據聯想集團南開大學日志易上海銀行中國科學院清華大學騰訊中興通信中亦科技Zabbix中國宏時數據*排名不分先后,拼音序60OpsEval 離線評測基準&運維大語言模型第梯隊第梯隊第三梯隊2024年1112
47、023年1216 模型新增:、混元、某AIOps模型(未公開),模型 X 評測基準 RAG評估數據和法(進中)運維語模型OpsGLM(智譜AI參與OpenAIOps,基于ChatGLM訓練迭代)第梯隊第梯隊第三梯隊61總結真實系統、真實數據、真實應用智能運維產、學、研平臺個人成員:1.獲取到真實IT系統運維數據,包括指標、日志、調用鏈等,可用于學術研究、產品測試等場景專家成員:1.作為在線評測基準的建設者,可以發布自己的系統,供社區用戶使用IT系統混沌工程工具可觀測性工具AIOps應用2.發布運維場景和評測標準,吸引社區的人貢獻解決方案異常檢測根因定位告警分析3.參與實時打榜,在社區公布自己算
48、法、系統排名62人機協同群聊ChatOps社區個人成員AIOps Live Benchmark離線評測基準樣題庫L0層 底座通用大語言模型L1層 運維大語言模型社區專家成員微服務流量模擬智能體故障注智能體可觀測性智能體異常檢測智能體故障定位智能體.在線評測基準后續規劃632024屆CCF 國際AIOps挑戰賽首次采用大模型檢索增強(RAG)技術,基于5G領域運維技術文檔,探索如何結合領域私有技術文檔進行高效私域知識問答。揭示在通用大語言模型基座下,垂直領域知識問答面臨的領域知識缺失,公私域知識沖突,多模態圖表并存等一系列挑戰?;跈z索增強的運維知識問答挑戰賽基于檢索增強的運維知識問答挑戰賽賽數
49、據提供:挑戰賽官網:https:/competition.aiops- 組隊完成之后需要由隊長點擊“確認組隊完成”65點擊參加賽按鈕報名網頁二維碼魔搭資源問卷:https:/ AIOps挑戰賽社區全面升級為CCF OpenAIOps社區CCF OpenAIOps社區是一個AIOps開源社區及創新平臺,由中國計算機學會(CCF)、清華大學、南開大學、中科院、國防科大、必示科技等單位共同發起,致力于通過開放的社區合作與群體智慧協同創新,構建AIOps開源創新技術及軟件,推動AIOps生態繁榮發展。匯聚AIOps數據、語料、知識、大模型、算法、源代碼、離線評測基準及榜單、在線評測基準及榜單、Demo
50、、智能體、推理算力平臺、文檔、討論區、競賽、黑客馬拉松、沙龍、研討會、專家、問答應用、問答API如果你主要關注人工智能和機器學習,尤其是在預訓練模型和這些領域的專業社區方面,Hugging Face是一個比GitHub更好的選擇如果你主要關注AIOps,那么OpenAIOps社區將是比Hugging Face 和 GitHub更好的選擇“智能運維領域最大的垂直社區社區輻射圈層泛,涵蓋產學研各界業代表AIOps領域最大的垂直社區之一l 8個官方微信群,共計3200余人l 持續交流AIOps觀點、技術趨勢、痛點和方案社區活躍賬號,分享硬核干貨l 微信公眾號關注量20000+l 發表文章67篇,優質
51、內容平均閱讀量2-3K,閱讀峰值8K+l 過去六年活動覆蓋人數15W+2024年第一批工作組 活動競賽專家工作組 高頻不定期線上研討 線下小型沙龍 線下大型活動 AIOps挑戰賽 運維大模型評測專家組(72人)運維大模型訓練專家組(41人)在線評測基準專家組(59人)線上資源專家工作組活動策劃、籌辦場地、贊助挑戰賽:提供賽題、數據成為競賽TPC,參與競賽參與離線評測基準工作華為、中興、騰訊、智譜AI等14家企業已參與參與在線評測基準的建設和維護發布新的問題和評測標準課程、視頻、論壇、綜述文章等OpenAIOps社區網站(https:/ OpenAIOps 社區參與方式聯系“OpenAIOps社區助手”微信號加入“OpenAIOps社區群”關注“OpenAIOps”公眾號訪問 http:/個人成員收益:消費社區資源責任:積極對社區提出反饋、積極參與社區活動專家成員責任:為社區貢獻至少一項資源,或參與至少一個工作組收益:貢獻度較高的成員將獲得CCF致謝證書、活動優先 參會發言權、推理算力消費費用減免 資源優先試用權已參與社區的專家成員:華為、中興、騰訊、螞蟻、智譜AI、信通院、中國電信、新華三、聯想集團、浦發銀行、國泰君安、上海銀行、廣發證券、南天、中亦科技、廣通優云、日志易、樂維、Zabbix中國宏時數據、基石數據、億陽信通、云杉網絡等(單位或個人身份均可)70THANKS