《A1--李賽--攜程AiOps探索與實踐.pdf》由會員分享,可在線閱讀,更多相關《A1--李賽--攜程AiOps探索與實踐.pdf(41頁珍藏版)》請在三個皮匠報告上搜索。
1、攜程AiOps探索與實踐李賽攜程集團 AIOps算法專家李賽主要負責建設攜程AIOps技術體系,包括智能告警、智能變更、容量治理、應用治理、根因定位等場景下的AIOps探索與實踐,在人工智能技術結合運維場景方面有深入研究攜程集團 AIOps團隊算法專家目錄CONTENTS攜程AIOps背景01 攜程智能告警體系02 智能變更03 后續規劃04 攜程AIOps背景攜程AIOps背景質量:導致故障,造成損失效率:告警滯后,損失擴大成本:不合理的資源配置,提高了運營成本攜程AIOps現有支持場景異常檢測告警歸因故障定位故障自愈輔助決策告警治理告警和故障容量評分HPA&VPA配置節假日容量預測壓測容量
2、報告采購預測容量應用風險治理應用配置推薦流量治理服務畫像服務評分服務變更風險檢查智能發布變更運維大腦數據&算法驅動的輔助決策層數據(離線、實時、數據源)算法攜程AIOps工具產品圖數據來源平臺層業務層中間件客戶端前端服務端數據庫容器宿主機監控平臺日志平臺容量管理平臺告警中臺故障定位平臺畫像平臺監控告警變更管理成本管理資源管理權限管理服務管理攜程智能告警體系1.數據源配置復雜,重復性勞動2.規則告警配置不靈活,維護成本高3.新配置數據源需要補歷史數據4.告警重復5.規則告警容易漏告和誤告業務監控告警痛點業務線監控數據源配置中心10分鐘采樣5分鐘采樣1分鐘采樣規則告警規則告警規則告警告警中臺召回率
3、告警數量攜程智能告警整體架構平臺層統一資源調度:YARN分布式文件系統:HDFS實時計算引擎Flink深度學習框架TensorflowMessageQueueTimeSeriesDBHadoop底層引擎層實時平臺智能告警平臺配置平臺監控平臺智能異常檢測算法業務多樣訂單、支付、業務監控小量綱,波動劇烈,容易誤告緩慢下降,不明顯智能異常檢測算法異常程度衡量:點異常識別陰跌場景抑制周期下降誤告告警配置 數據源采集一次,通過降采樣進行多顆粒度監控點維護,避免補數據操作,降低冗余 秒級粒度告警,助力提升一分鐘發現 降采樣顆粒度告警,助力召回率提升檢測方案選擇實時性窗口定義支持容錯性多種時間語義算法檢測數
4、據實時檢測過程7654321891054321ModelModelModel54321654326177654321891076543218910Predict valueActual value智能告警模型加載流程 模型動態加載,避免重啟操作 均勻加載模型,避免數據傾斜Model 1Model 2Model 3Task Manager 1Task Manager 2Task Manager 3HDFSYARNKafka模型智能告警平臺告警配置接入訓練均勻加載更新智能告警檢測流程圖 雙IDC部署,避免單機故障 告警狀態機,維護告警狀態 高置信度告警自動開啟排障會議,加快故障介入事件A Kafk
5、aTask Manager 1Task Manager 2Task Manager 3A YARN ClusterB KafkaTask Manager 1Task Manager 2Task Manager 3B YARN Cluster告警狀態機ZooKeeper告警中臺是否高置信度自動開啟排障會議人工處理告警狀態機正常待觀察持續告警開啟告警冒煙點正常冒煙點冒煙點開啟告警正常冒煙點正常正常開啟告警持續告警持續告警待觀察持續告警待觀察待觀察正常作用:顯著降低偶發波動導致的誤告智能告警示意圖攜程智能告警效果故障1分鐘發現率由之前的10%+提升到65%+準確率80%+召回率95%+顯著降低了配置
6、費力度,可以更靈活的進行告警配置智能變更變更痛點變更是穩定性殺手,70%故障由變更引起。監控看板多,觀測費力度大閾值設置不準確,誤告容易影響變更效率漏告容易導致故障開發、測試無法完全避免故障變更流程分批發布,保證可用性應對方案:切流,回退,拉入拉出Stage 2IDC1 50%Stage 1SandboxStage 3IDC1 100%Stage 4IDC2 50%Stage 5IDC2 100%攜程智能變更整體架構平臺層任務生產者任務消費者消息收集檢測算子任務調度TimeSeriesDB底層計算層變更信息平臺診斷平臺配置平臺發布系統智能變更流程設計攔截范圍代碼發布配置修改其他變更配置檢測指標
7、當前變更應用New Error、錯誤數、請求量、響應時間、NPE、GC上下游應用錯誤數、請求量、響應時間第三方指標監聽第三方告警監聽堡壘金絲雀滾動發布異常監測變更采集發布剎車用戶介入發布完成切流暫?;蚧赝耸欠癞惓J欠窭^續YNNY智能變更工程與算法流程圖檢測指標是否有上升下降趨勢分析數據分布是否一致判斷數據是否波動、突刺置信度定級濾波算法進行二次過濾結果輸出否是否是發布變更配置變更運維變更智能變更因子模塊Appstate新增errorGroup GCRedisdb因子模塊因子模塊因子模塊發布剎車展示如何提高檢測算法準確性符號檢驗結合歷史數據,避免局部異常導致的誤告識別突刺點符號檢驗應用進行發布變
8、更后,出現了錯誤數的上升,且滿足了顯著性水平,此時局部數據被診斷為異常。通過擬合歷史數據,減少誤告通過濾波識別出歷史數據中的高頻部分即異常數據,刨除掉異常數據。對刨除掉異常點之后的歷史數據進行擬合。通過擬合歷史數據,減少誤告 通過基線擬合出上下限區間。局部異常點在上下限區間內,因此可以認為是正常波動,減少局部數據所認為的異常。精確識別突刺點應用發布變更后出現了響應時間的持續上升。通過對該應用下單臺機器的分析,發現是由于各個機器的突刺疊加所造成的。通過對機器維度上的突刺識別,避免誤告。攜程智能變更效果顯著降低了發布配置類變更導致的故障占比(60%下降到40%)通過對近一年的變更數據進行檢測分析,準確率達到86%最快可以在變更開始后4分鐘發現異常0.4%的攔截率實現對用戶低打擾,防止影響變更效率后續規劃故障定位依賴于相關AIOPS算法,提升故障定位效率(如將5分鐘定位故障的效率從當前的50%提升到80%左右),進而提升故障恢復速度,助力1-5-10提升,無人值守變更借助于智能變更來進行無人值守的全自動應用發布與故障演練,通過算法及時識別到變更過程中的異常情況,自動介入處理,兼顧質量與效率。智能容量調度通過算法及時發現容量瓶頸,精細調度資源,提升資源利用率,更好的控制成本。感謝聆聽關注QECon公眾號