《2018年AIOps智能故障管理在阿里巴巴集團的成功實踐.pdf》由會員分享,可在線閱讀,更多相關《2018年AIOps智能故障管理在阿里巴巴集團的成功實踐.pdf(29頁珍藏版)》請在三個皮匠報告上搜索。
1、AIOps智能故障管理在阿里巴巴集團的成功實踐企業研發云專場阿里巴巴故障治理業務流程及挑戰智能運維實戰之異常檢測和根因推薦AIOps智能運維解決方案萬筆/秒訂單量雙11背后的巨大穩定性挑戰32.5萬筆/秒支付量25.6阿里業務的多樣和復雜給穩定性帶來挑戰業務數量巨大50+BU40000+應用程序業務形態差異較大電商、金融、云計算、物流、文娛、社交 業務關聯復雜用戶行為對業務的影響應用程序之間的鏈路復雜線上故障需要統一的治理機制業務故障統一發現跨BU故障協同處理故障的影響面和根因需要統一收口和推送故障快速恢復需要統一的機制阿里巴巴全局故障治理流程故障發現故障定級故障通告故障輔助定位處理決策故障快
2、速恢復故障復盤故障演練業務流程業務痛點傳統監控系統誤報漏報較多監控維護成本較大故障等級定義差異較大判斷條件繁多千萬級別的運維事件,哪些與業務故障相關?跨BU的應用依賴復雜,如何梳理追溯快速恢復場景稍縱即逝,如何實時決策觸發切換?我們引入了智能運維阿里巴巴全局故障治理流程故障發現故障定級故障通告故障輔助定位處理決策故障快速恢復故障復盤故障演練故障發現準確率40%80%故障通告耗時1分鐘5分鐘根因推薦依賴人的經驗系統自動推薦可疑事件智能運維之時間序列異常檢測業務指標異常檢測的業務背景“淘寶交易量下跌%X是Pn故障”“Pn淘寶淘寶交易創建下跌X%”故障等級定義業務指標監控項(時間序列)異常點故障通告
3、異常發現的業務痛點如何確定基線不同周期整體趨勢的起伏假日效應分段靜態閾值無法應對業務局部趨勢變化同環比/過去N周分段均值無法應用業務整體起伏趨勢問題下跌15%是和什么相比下跌?異常發現的業務痛點如何判定異常與曲線本身波動程度相關與曲線宏觀業務量相關與時間點相關與業務特性相關業務異常的判定尺度時間序列異常檢測的方案選擇途徑一:端到端分類途徑二:回歸(擬合基線)+異常判別分步求解一步到位基于機器學習/深度學習基于時間序列分解異常判別依賴標注標準不統一回歸各類機器學習模型訓練樣本充足異常判別簡單策略復合方法回歸各類時序分解算法方法可解釋性強算法流程算法架構報警觸發及抑制異常起止時間輸出基線輸出服務/
4、API異常檢測Log-likelihoodGaussian Tail PropetyN-Sigma機器學習時間序列分析Isolation ForestLogistic RegressionEnsambleMethod基線擬合Modified Seanonal Trend LOESS特征工程One-hot編碼統計特征滑動平均數據預處理插值補缺平滑去噪歸一化異常發現業務效果故障發現準確率40%80%故障發現召回率80%30%每周因誤報而花費的流程操作時間29小時智能運維之智能根因推薦實戰案例:故障智能分析故障自動分析及定位的難點故障分析定位的范圍及邊界的確定故障分析定位的信息收集故障分析定位的判斷
5、和決策邏輯故障分析定位的范圍和邊界IDC網絡物理服務器虛擬機容器實例應用/服務產品/產品線站點業務功能/指標中間件/基礎服務數據庫輸出發生在運維實體上的可疑事件價值快速確定影響范圍,鎖定懷疑范圍以技術方式對故障作快照觸發條件業務指標異常故障智能分析流程業務域業務域A AB BC CD Dkpi1kpi1kpi2kpi2kpi3kpi3kpi3kpi3kpi4kpi4kpi5kpi5kpi6kpi6kpi7kpi7kpi8kpi8app1app1app2app2app4app4app5app5app3app3app6app6app9app9app8app8app12app12app7app7ap
6、p10app10app11app11app13app13app14app14app15app15app16app16app17app17業務指標業務指標產品/產品線應用/服務業務功能/指標業務異常發現查詢縱向拓撲,獲取可疑應用查詢橫向拓撲,獲取鄰居可疑應用查詢運維數據倉庫,獲取可疑事件類型應用事件指標突變淘寶/app1RT突增指標突變支付寶/app2QPS突降變更支付寶/app3發布新版本可疑程度321根據故障定位算法,給出可疑程度排序故障定位信息收集:運維數據倉庫業務功能技術架構收集和故障相關的所有事件信息提供按運維實體及其拓撲實時檢索的能力包括但不限于變更/上線,網絡異常,系統/應用服務/
7、業務指標異常,報警,日志異常等查詢層數據接入層運維實體元數據管理/CMDB拓撲管理ETL在線事件存儲離線存儲技術化故障快照:自動化檢索和故障相關的所有運維實體及其上發生的事件故障智能分析效果展示全局業務狀態監控相關可疑事件推薦應用鏈路追蹤影響面實時展現AIOps智能運維解決方案Coming soon核心功能:異常檢測發現趨式異常識別異常區間,抑制重復報警學習歷史殘差,避免過于靈敏造成的誤報核心功能:基線預測當前時刻趨勢預測抵抗不同程度的毛刺和抖動基線自動適應總體趨式擬合周期性之外的業務宏觀趨式兼顧歷史趨式和局部趨式的變化核心功能:基線預測典型場景正常(業務活動、爬蟲)正常(沖高回落)正常(月初月末,例如信用卡還款)異常(交易量下跌)故障探測通過數據的時間序列分析和大規模數據的機器學習產生智能基線自動報警。不需要配置告警規則,降低人工維護成本,減少傳統基于靜態閾值告警的誤報漏報數量。AIOps智能運維解決方案智能調參根據周期性趨勢預測的變化,自動調節參數,不斷提升預測模型的準確率和召回率。充分考慮業務整體起伏趨勢,可以應對業務局部趨勢變化。自動進化根據用戶對報警結果的反饋,優化自動探測模型,提升故障報警的覆蓋面和準確性??梢詫Ξ惓|c的準確性進行人工反饋,根據人工標注反饋進行算法進化。企業研發云專場