《2018年AIOPS智能監控在阿里巴巴集團的成功實踐.pdf》由會員分享,可在線閱讀,更多相關《2018年AIOPS智能監控在阿里巴巴集團的成功實踐.pdf(24頁珍藏版)》請在三個皮匠報告上搜索。
1、AIOPS智能監控在阿里巴巴集團的成功實踐AIOps專場1從Devops到AIOps2阿里巴巴集團的智能監控場景實戰3阿里巴巴AIOps智能監控產品體系手動運維人工決策人工執行人工判斷自動執行自動判斷自動執行自動化運維(DEVOPS)智能化運維(AIOPS)從DEVOPS到AIOPS是運維技術發展的必然趨勢AIOPS是運維技術的未來發展趨勢2017年AIOps部署率10%50%2020年AIOps部署率AIOps能為我們帶來什么?AIOPS科技樹AIOPS質量監控時序異常檢測指標相關性分析報警收斂根因分析故障類型判定歷史故障推薦可疑應用/事件推薦故障自愈自動化觸發快恢腳本執行環境成本容量容量預
2、測自動熔斷調度資源調度流量調度效率無人值守發布值班運維機器人信息流轉任務執行如何孵化AIOps能力?運維場景智能監控智能調度智能問答異常檢測最優化策略/規劃&預測NLP/意圖識別監控/時間序列數據CMDB運維故障場景語料AIOPS技術架構:場景、算法、數據三位一體算法組件運維數據AIOPS團隊架構:運維/研發/算法/產品/運營多位一體阿里巴巴GOC團隊的智能監控場景實戰阿里巴巴集團全球運行指揮中心AIOPS技術倡導者和領先實踐者故障發現故障定級故障通告故障輔助定位處理決策故障快速恢復故障復盤故障演練業務流程運維場景業務指標監控故障定級/決策調度故障相關信息流轉智能基線規則引擎/根因分析Chat
3、Bot海量業務指標/系統指標數據故障CMDB/運維數據倉庫故障信息的結構化/非結構化記錄AIOpsGOC團隊算法組件運維數據專業智能運維算法團隊監控中心運維團隊工程研發團隊團隊支持千錘百煉的”智能基線”用戶眼中的阿里集團業務GOC眼中的阿里集團業務智能基線之業務指標監控健壯長期經受各種外部攻擊/爬蟲內部壓測干擾的歷練精準準確/全面發現業務異常并觸發報警高效支持秒級/分鐘級計算無需任何人工監控配置普適支持各行業業務數據一鍵接入各類監控系統數據合作伙伴logo位研發/運維眼中的系統監控數據針對系統/應用級指標的輕量級異常檢測算法智能基線之系統指標監控輕量可支持千萬量級系統級別監控項精準準確/全面發
4、現系統/應用指標并觸發報警便捷支持直接異常輸出或智能水位推薦功能合作伙伴logo位不斷演進的根因分析能力單指標多維下鉆分析當業務指標總量異常出現時,準確地智能定位到出現異常的分量或分量組合多指標相關性分析當指標異常時,動態發現有相似下跌形態的相關指標,為原因定位提供重要線索通過離線分析,發現業務報警之間的關聯規則,當單業務異常時能夠對其它業務進行提前預警可疑應用/事件分析自動基于運維數據倉庫進行相關應用/事件檢索,鎖定懷疑范圍自動根據指標異常和事件相關性進行推薦排序,篩掉無關事件AIOps智能監控產品體系AIOps智能監控產品體系監控展示異常發現報警發現根因分析信息流轉故障恢復相關事件推送智能監控大盤智能基線多指標關聯分析智能報警收斂智能干系人管理可疑應用分析多維下鉆SREBot快速恢復切換故障信息檢索故障處理生命周期AIOps專場