《2019年DevOps到AIOps-智能化故障處理系統.pdf》由會員分享,可在線閱讀,更多相關《2019年DevOps到AIOps-智能化故障處理系統.pdf(40頁珍藏版)》請在三個皮匠報告上搜索。
1、DevOps到AIOps-智能化故障處理系統 一.背景 二.問題 三.解決 四.規劃 五.Q&A陳永清翼課網DevOps到AIOps-智能化故障處理系統一一.背景背景 二.問題 三.解決 四.規劃 五.Q&A陳永清翼課網一.背景一.背景一.背景 1.一個系統,不可能沒告警(故障)。2.處理告警很痛苦。3.不處理影響用戶滿意度。4.不處理影響公司營收。5.處理了,處理好了,產品好用了,用戶滿意了,公司也有利了。以上,當告警發生時,1.技術人員需要在極短時間,接受各種壓力,心情是焦慮的,茫然的,錯愕的,擔憂的,惆悵的。2.用戶需要承受使用產品過程中的不爽,不痛快。3.公司需要承受指責。4.客服需要
2、承受漫罵。DevOps到AIOps-智能化故障處理系統 一.背景二二.問題問題 三.解決 四.規劃 五.Q&A陳永清翼課網二.問題-界定 1.如何高效、精準、快速的處理告警(故障)?2.什么時間處理。3.誰處理。4.處理到什么程度。需要 定量、定性 分析需要 定量、定性 分析二.問題-“4個三”定方向 通過4個三,做定量定性分析。三個步驟看流程,感知、分析、解決 是處理故障的三個步驟。我們從分析環節入手。三個維度找方向,影響最大的、頻率最高的、最難處理的 告警 找到痛點。三個集合做決策,告警+決策點+原因 三個集合,找到關聯性。三個10做定量,針對過去1年的10大類告警,以DBA人力需要10分
3、鐘以上分析出告警原因,現在要系統10秒內分析出結果。二.問題-故障生命周期 通過4個三,做定量定性分析。三個步驟看流程,感知、分析、解決 是處理故障的三個步驟。我們從分析環節入手。二.問題-找痛點 通過4個三,做定量定性分析。三個維度找方向,頻率最高的、影響最大的、最難處理的 告警 找到痛點。從過去1年,統計告警類型和對應出現次數,按照 出現次數最多,影響最大,最難處理,三個維度,來決定,哪些告警(故障)是痛點,最應該首先被智能化處理的。AAAAA類告警10000次,影響xxx,處理難度sss BBBBB類告警500次,影響xxx,處理難度sss CCCCC類告警400次,影響xxx,處理難度
4、sss二.問題-三個集合找關聯 通過4個三,做定量定性分析。三個集合做決策,告警+決策點+原因 三個集合,找到關聯性。二.問題-10秒內分析出核心告警原因 通過4個三,做定量定性分析。三個10做定量,針對過去1年的10大類告警,以DBA人力需要10分鐘以上分析出告警原因,現在要系統10秒內分析出結果。10大類告警 過去人需要10分鐘分析出原因 現在需要做到10秒內分析出原因二.問題-“4個三”定方向 通過4個三,做定量定性分析。三個步驟看流程,感知、分析、解決 是處理故障的三個步驟。我們從分析環節入手。三個維度找方向,影響最大的、頻率最高的、最難處理的 告警 找到痛點。三個集合做決策,告警+決
5、策點+原因 三個集合,找到關聯性。三個10做定量,針對過去1年的10大類告警,以DBA人力需要10分鐘以上分析出告警原因,現在要系統10秒內分析出結果??偨Y,先 解決 最痛的點,從 故障分析 環節入手,達到提升 準確率和效率 的目的。從而 減輕大家的痛苦,讓用戶滿意。DevOps到AIOps-智能化故障處理系統 一.背景 二.問題三三.解決解決 四.規劃 五.Q&A陳永清翼課網三.解決 1.業務流 2.數據流 3.架構設計 4.算法三.解決-業務流 1.業務流業務流技術人員線上系統監控系統智能故障處理解決感知分析產生報警收到告警收到告警開始分析開始分析出現異常分析結束分析結束開始解決處理完成獲
6、取數據獲取數據三.解決-數據流 2.數據流 采集 存儲 計算三.解決-數據流-采集 出異常時,技術人員需要排查的監控項數據,需要采集 采集系統特征數據包括4大維度數據:硬件、網絡、操作系統、應用程序硬件:硬件如cpu、memory、硬盤、網卡、溫度等狀態數據。網絡:吞吐量流入/流出、吞吐率流入/流程、丟包率等。操作系統:socket狀態、cpu、mem、io 等使用量、使用率等。應用程序:并發量、錯誤率、mysql global status、processlist、innodb status、slow query、lock 性能指標數據等。一個時刻,一共108項。每項,再取3-8個時刻,組成
7、幾百維的多維時序數據。三.解決-數據流-采集難點:難點:1.不能對線上系統侵入性太大2.不能因采集數據影響太大線上系統性能3.需要擴展的、靈活的增加、變更采集項目 對時序性的、幾百維度的、不影響或少影響線上、線上系統的 狀態數據做 采集 是個難題。三.解決-數據流-存儲難點:難點:1.數據維度多、擴展添加、實時性要求高2.對業務侵入性小3.存儲后方便的讀三.解決-數據流-采集和存儲解決:解決:1.主要的:通過監控系統監控系統完成采集采集和存儲存儲2.輔助的:通過主機/進程打本地日志做采集和存儲三.解決-數據流-計算難點難點 系統特征數據 采集4大維度數據:硬件、網絡、操作系統、應用程序 硬件:
8、硬件如cpu、memory、硬盤、網卡、溫度等狀態數據。網絡:吞吐量流入/流出、吞吐率流入/流程、丟包率等。操作系統:socket狀態、cpu、mem、io 等使用量、使用率等。應用程序:并發量、錯誤率、mysql global status、processlist、innodb status、slow query、lock 性能指標數據等。三.解決-數據流-計算解決解決1.AIOPS:用AI的技術,解決OP的問題2.有監督機器學習三.解決-數據流-計算 出異常時,技術人員需要排查的監控項數據 系統特征數據 采集4大維度數據:硬件、網絡、操作系統、應用程序 硬件:硬件如cpu、memory、硬
9、盤、網卡、溫度等狀態數據。網絡:吞吐量流入/流出、吞吐率流入/流程、丟包率等。操作系統:socket狀態、cpu、mem、io 等使用量、使用率等。應用程序:并發量、錯誤率、mysql global status、processlist、innodb status、slow query、lock 性能指標數據等。三.解決-架構設計 數據采集 數據存儲 數據計算 數據標注三.解決-架構設計-采集、存儲、計算 數據采集 數據存儲 數據計算三.解決-架構設計-標注 數據標注三.解決-架構設計-標注 數據標注三.解決-算法難點:難點:肉眼很好識別這個異常,機器/程序怎么識別三.解決-算法解決:解決:時
10、序圖形編碼算法三.解決-算法 時序圖形編碼算法三.解決-算法難點:幾十,幾百,甚至千個、萬個 監控數據怎么排查故障難點:幾十,幾百,甚至千個、萬個 監控數據怎么排查故障 系統特征數據 采集4大維度數據:硬件、網絡、操作系統、應用程序 硬件:硬件如cpu、memory、硬盤、網卡、溫度等狀態數據。網絡:吞吐量流入/流出、吞吐率流入/流程、丟包率等。操作系統:socket狀態、cpu、mem、io 等使用量、使用率等。應用程序:并發量、錯誤率、mysql global status、processlist、innodb status、slow query、lock 性能指標數據等。三.解決-算法
11、基尼指數 gini=A/(A+B)三.解決-算法 決策算法-CART使用gini 系數做分類依據DevOps到AIOps-智能化故障處理系統 一.背景 二.問題 三.解決四四.規劃規劃 五.Q&A陳永清翼課網四.規劃 AIOPS 智能化故障處理四.規劃-AIOPS 目標:以合適的契機、用恰當的資源、解決有挑戰的技術難題,從而創造價值 策略:1.AIOPS,用AI的技術,解決OP的問題2.先試點,再推廣3.找準痛點,三個維度,頻次高、影響大、解決難 的問題 技術路線:1.抽象出需求,學習AI技術,儲備知識2.用AIOPS,小范圍試水,解決最迫切的需求(頻次高、影響大、解決難 的問題)3.逐步推廣
12、,降低成本,提升效率,減少痛苦四.規劃-AIOPS 目標:以合適的契機、用合適的資源、解決有挑戰的技術難題,從而創造價值 策略:AIOPS,用AI的技術,解決OP的問題 先試點,再推廣 找準痛點,三個維度,頻次高、影響大、解決難 的問題 技術路線:1.抽象出需求,學習AI技術,儲備知識 2.用AIOPS,小范圍試水,解決最迫切的需求(頻次高、影響大、解決難 的故障)3.逐步推廣,降低成本,提升效率,減少痛苦四.規劃-智能化故障處理 決策樹規劃1.先按照系統架構,逐層建決策樹,用于決策。2.再建一個頂層決策樹,做全局決策。數據采集規劃1.將上線/代碼發布 作為一個特征,收集到決策點中,用于判斷是
13、否故障是上線導致的。智能回滾。2.對數據庫執行計劃,如explain輸出,結合NLP,抽取特征。做sql 智能化審核。計算規劃1.根據故障產生前的一段時間產生的數據,做故障預測。2.通過算法得出組合特征數據做多值或多指標的智能化閾值告警,而不是單值閾值告警。減少報警。五.Q&A 通過4個三,做定量定性分析。三個步驟看流程,感知、分析、解決 是處理故障的三個步驟。我們從分析環節入手。三個維度找方向,影響最大的、頻率最高的、最難處理的 告警 找到痛點。三個集合做決策,告警+決策點+原因 三個集合,找到關聯性。三個10做定量,針對過去1年的10大類告警,以技術人力需要10分鐘以上分析出告警原因,現在要系統10秒內分析出結果。