《復雜網絡故障智能處理(23頁).pdf》由會員分享,可在線閱讀,更多相關《復雜網絡故障智能處理(23頁).pdf(23頁珍藏版)》請在三個皮匠報告上搜索。
1、署名:何源(荊杭)職稱:阿里巴巴產品經理 復雜網絡架構下的網絡故障智能處理 DC Brain之故障篇 體量大 幾萬臺網絡設備 幾百萬端口 日志格式不統一 告警規則不統一 型號多&架構多 結構復雜 監控系統本身運行在網絡上 自身依賴 網絡故障的特殊性 重復告警多 大家普遍遇到的困難 數據量非常大 海量告警,告警淹沒 依賴關系復雜 邏輯關系復雜,代碼寫死 Internet 服務器 接入層 核心層 Internet 服務器 接入層 核心層 日志日志 Internet 服務器 接入層 核心層 Ping不通不通 Internet 服務器 接入層 核心層 上聯端上聯端口中斷口中斷 Internet 服務器
2、 接入層 核心層 同組設備同組設備流量異常流量異常 Internet 城市A 城市B 服務器 接入層 核心層 城市C 下聯設備下聯設備ping覆蓋覆蓋 檢測手段多元化,交叉覆蓋 規則可擴展,可自定義 基于pagerank算法的告警收斂 告警監控系統冗余部署 Syslog日志事件 生成新的事件 規則引擎 告警收斂 SNMP事件 Ping測事件 規則庫 物理拓撲&協議拓撲 告警等級 告警分發 總體思路 采集 Syslog日志事件 生成新的事件 規則引擎 告警收斂 SNMP事件 Ping測事件 規則庫 物理拓撲&協議拓撲 告警等級 告警分發 總體思路 采集 May 16 21:26:29 10.10
3、2.132.84:2016 May 16 21:26:29 BJT:%ETHPORT-5-IF_DOWN_LINK_FAILURE:Interface Ethernet102/1/28 is down(Link failure)事件庫 日志分類引擎 生成新的事件 正則匹配 全量日志 聚類 人工添加 事件:端口down 端口名:Ethernet102/1/28 syslog日志處理 Syslog日志事件 生成新的事件 規則引擎 告警收斂 SNMP事件 Ping測事件 規則庫 物理拓撲&協議拓撲 告警等級 告警分發 總體思路 采集 端口流量 端口狀態 端口丟、錯包 BGP狀態 流量水位90%流量突
4、跌 端口突變為down BGP協議down 丟包超過閥值 絕對值 相對值 同比值 同電路組流量不均 類比值 SNMP事件處理 Syslog日志事件 生成新的事件 規則引擎 告警收斂 SNMP事件 Ping測事件 規則庫 物理拓撲&協議拓撲 告警等級 告警分發 總體思路 采集 Internet 城市A 城市B 服務器 接入層 核心層 城市C Ping處理 多個ping測源 取最好值 Syslog日志事件 生成新的事件 規則引擎 告警收斂 SNMP事件 Ping測事件 規則庫 物理拓撲&協議拓撲 告警等級 告警分發 總體思路 采集 規則引擎 端口流量超過帶寬的XX%且丟包數超過閥值 端口在1分鐘內
5、連續up,down超過n次 流量下跌超過XX%且連續n分鐘低于基線 Syslog日志事件 生成新的事件 規則引擎 告警收斂 SNMP事件 Ping測事件 規則庫 物理拓撲&協議拓撲 告警等級 告警分發 總體思路 采集 告警收斂 R1 R2 R3 S1-1/0/1 S1-2/0/1 S3-1/0/1 S2-1/0/1 M1:板卡down (等級11)M2:Interface S1-1/0/1 down(等級18)M3:Interface S3-1/0/1 down(等級18)M4:OSPF協議 down(等級33)M5:端口丟包(等級65)R1 R1 R3 R4 R5 Pagerank 告警分級 數據量每分鐘千萬級 基于spark streaming流式處理,spark graphX圖算法 單一的監控手段都有可能失效,要有多重手段 大數據不可怕,基礎設施怕的是沒有數據 既懂基礎設施,又懂數據的人很稀缺,我們非常缺人 Email:Jinghang.hyalibaba-