1、G O P S 全 球 運 維 大 會 2 0 1 9 上 海 站G O P S 全 球 運 維 大 會 2 0 1 9 上 海 站京東物流超大規模倉儲系統智能監控揭秘G O P S 全 球 運 維 大 會 2 0 1 9 上 海 站目錄問題及挑戰1超大規模監控系統解決方案2面向AIOPS的智能監控最佳實踐3規劃&展望4G O P S 全 球 運 維 大 會 2 0 1 9 上 海 站京東物流倉儲系統監控的問題及挑戰 倉儲庫房分布地域廣 機器、應用數量多 資產變化頻繁 監控對象種類雜 部署環境不一致 網絡環境不穩定目前京東物流在全國運營了約600個大型倉庫,倉儲設施占地面積超過 1500萬 平
2、方米。同時印尼、泰國等國際化倉儲數量仍在不斷增加各地庫房分布地域、國際化倉的大量投入運營,以及各地網絡運營商差異導致部分集群到監控服務端的網絡環境不一物流相關業務的不斷發展導致了頻繁的開倉、關倉,從而導致資產配置信息變化頻繁除了各地倉儲庫房的機器外,京東物流在大型IDC數據中心運營著數萬臺機器和數千個應用各地倉儲機房內運行著大量的網絡設備、服務器、存儲、刀片服務器等,且廠商型號眾多,此外也包含大量的docker和云主機目前倉儲并存多套應用發布環境,各環境部署方式、環境依賴不同,導致監控復雜化G O P S 全 球 運 維 大 會 2 0 1 9 上 海 站AIOPS趨勢下智能監控系統的新挑戰A
3、IOPS?AI應用場景分散,成熟度不一致 業務多樣化,算法工程化困難,大部分場景距離實際應用有一定的距離 監控指標深度,專業化程度不夠 數據源不夠全面 頻繁變化的資產,不可靠的CMDB 運維專家匱乏 復合型人才匱乏:AI和算法工程師+運維開發G O P S 全 球 運 維 大 會 2 0 1 9 上 海 站目錄問題及挑戰1超大規模監控系統解決方案2面向AIOPS的智能監控最佳實踐3規劃&展望4G O P S 全 球 運 維 大 會 2 0 1 9 上 海 站對監控的認識 什么是監控?為什么需要監控?監控的價值?監控的范圍、粒度?監控體系的規劃?監控在運維體系中的定位?監控和資產、運維的關系?監
4、控=無人值守?監控和AIOPS的關系?監控到智能監控的演化?。G O P S 全 球 運 維 大 會 2 0 1 9 上 海 站監控運維體系規劃G O P S 全 球 運 維 大 會 2 0 1 9 上 海 站監控運維體系規劃G O P S 全 球 運 維 大 會 2 0 1 9 上 海 站建設目標&要求與AI技術結合進行故障、性能及容量的預測,實現監控智能化推動規范化、自動化的運維管理流程,提供完善的故障處理和快速修復機制實時掌握數據中心整體資產配置使用情況、運行趨勢和健康狀況,為決策層提供數據依據及時性故障在第一時間告警并通知管理員準確性不漏報、不誤報精確性秒級監控、細粒度兼容性兼容各服務
5、器、應用、中間件擴展性插件式、易擴展、不改代碼可用性高可用、無單點故障以資產為基礎為運維管理提供數據支持當故障出現時,能快速和準確定位問題根源使用大數據分析技術挖掘監控數據價值,助力業務增值能力成熟度模型G O P S 全 球 運 維 大 會 2 0 1 9 上 海 站構建可靠的CMDB自動發現自動發現業務接口業務接口(消息)(消息)流程化流程化定時同步定時同步自動發現是降低維護成本的一種有效方式,提供固定IP段、協議參數等信息自動掃描資產信息以及資產配置信息資產配置信息變化頻繁,在資產變更時發送廣播消息(或通過接口)通知其他子系統同步變更,保證資產變化實時同步運維資產信息變更的場景化流程梳理
6、,比如說開關倉,服務器開關機/斷電,服務器下架等等,這些流程需要與laos等平臺打通,建立標準化變更流程人工維護人工維護結合現有的IT運維流程,在某些場景下通過人工變更把CMDB信息維護準確,比如主機所屬負責人變更、人員異動、機器異動等,可以通過人工直接變更完成資產數據來源多樣化,目前有來自j-one/cap/dbs/中間件等其他平臺的資產配置信息,通過定時同步的方式作為補充手段G O P S 全 球 運 維 大 會 2 0 1 9 上 海 站技術架構采集決策處理agentjdos apizabbix api通知自動處理人工處理規則管理規則匹配回溯分析預設規則知識庫深度學習決策樹異常反饋分析使
7、用率統計預處理過濾實時告警閾值判斷歷史數據業務分析根因分析趨勢分析故障預測數據挖掘大數據分析dbs apiG O P S 全 球 運 維 大 會 2 0 1 9 上 海 站技術架構Kafka歷史數據tagentttHeatbeat-server實時數據告警模塊通知模塊上層業務架構transferJMQredis queueKafka clusterredisredisredisredisredismysqlredisredises歷史查詢歷史查詢日志分析歷史查詢歷史查詢查詢服務歷史查詢歷史查詢配置接口歷史查詢歷史查詢趨勢分析consumerconsumer可水平擴展的consumer clus
8、ter知識庫監控數據告警分析Trap reciever通知模塊consumer底層監控架構短信mailcallbacklogstashagentlogstashagentlogstash心跳、配置同步redisredismysql定時同步歷史查詢歷史查詢故障預測歷史查詢歷史查詢報表服務transfertransfer通知模塊事件處理自動處理人工處理告警處理G O P S 全 球 運 維 大 會 2 0 1 9 上 海 站兼容性日志分析平臺庫房機器IDC機器物理機/Docker庫房DevopsIDC物理機/Docker數據庫運維平臺調用鏈監控平臺Devops平臺方法監控統一整合MDC監控Loas
9、MDC平臺DBS平臺ZabbixlogbookJtraceUMPJ-one開源平臺G O P S 全 球 運 維 大 會 2 0 1 9 上 海 站異常檢測方法一:當前時刻和前一時刻數值比較,波動超過一定閾值就報警t 1 y(閾值)只考慮相鄰兩個點之間的波動,忽略了隨時間周期性變化的因素,因此誤差較大G O P S 全 球 運 維 大 會 2 0 1 9 上 海 站異常檢測方法二:同比環比將當前時刻數據和前一時刻數據(環比)或者前一天同一時刻數據(同比)比較,超過一定閾值即認為該點異常使用歷史上的單點數據來預測當前數據,誤差比較大t 1 y(閾值)G O P S 全 球 運 維 大 會 2 0
10、 1 9 上 海 站異常檢測方法三:基于基線的異常檢測對歷史數據求平均,然后過濾噪聲,可以得到一個平滑的曲線(基線),使用基線數據來預測當前時刻的數據t 1 y(閾值)當前時刻和同時刻基線數值比較,波動超過一定閾值就報警G O P S 全 球 運 維 大 會 2 0 1 9 上 海 站異常檢測方法四:基于預測的異常檢測(準確性)預測算法的選擇直接影響異常檢測的準確性 預測算法:多元線性回歸、LSTM、決策樹、隨機森林、神經網絡、樸素貝葉斯分類、最小二乘法、支持向量機 G O P S 全 球 運 維 大 會 2 0 1 9 上 海 站異常檢測方法五:基于Holt-Winters預測三次指數滑動平
11、均算法,它將時間序列數據分為三部分:殘差數據a(t),趨勢性數據b(t),季節性數據s(t)。使用Holt-Winters預測t時刻數據,需要t時刻前包含多個周期的歷史數據。相關鏈接:Exponential smoothing、Holt-Winters seasonal method。迭代計算公式(周期為k):當|yt-at|X時,認為出現異常G O P S 全 球 運 維 大 會 2 0 1 9 上 海 站調用鏈 分布式事物跟蹤,跟蹤分布式應用消息 自動檢測應用拓撲,幫你搞清楚應用的架構 水平擴展支持大規模服務器集群 提供代碼級別的可見性以便輕松定位失敗點和瓶頸 使用字節碼增強技術,添加新功
12、能無需改動代碼 集成SQLAdvisor 智能化采樣率G O P S 全 球 運 維 大 會 2 0 1 9 上 海 站事件處理引擎告警輸入規則引擎自學習自動處理人工處理通知權限檢查審計日志執行引擎規則庫系統預設快照擴容/縮容重啟。IT運維流程G O P S 全 球 運 維 大 會 2 0 1 9 上 海 站智能知識庫 與工單系統聯動,自動收錄咨詢的問題及解決方案同步日常咨詢的運維問題作為基礎數據,解決了知識庫的數據來源問題 基于火眼監控平臺積累的監控故障數據并進行機器學習分析大量有價值的監控及告警數據可以作為機器學習分析的數據樣本,以此保證知識庫平臺自動更新迭代,避免可人工維護費時費力且數據
13、容易過時的問題 集成根因分析、多業務關聯分析提供智能根因分析、多業務關聯分析,將分析加過納入知識庫中 反饋文本聚類分析基于研發人員反饋的問題進行聚類分析,形成數據池 支持人工異常標注基于研發手動標注的問題完善知識庫內容,相對自學習的方式更加精準 統計報表將研發咨詢量最大的問題統計為報表,納入知識庫中,作為高權重知識 知識庫關鍵詞檢索提供根據關鍵詞檢索功能,幫助研發人員快速自助解決問題 智能客服機器人提供智能客服機器人服務,根據人員信息自動推測可能的問題及解決方案G O P S 全 球 運 維 大 會 2 0 1 9 上 海 站目錄問題及挑戰1超大規模監控系統解決方案2面向AIOPS的智能監控最
14、佳實踐3規劃&展望4G O P S 全 球 運 維 大 會 2 0 1 9 上 海 站故障快照 出現告警自動抓取現場快照信息 快照信息持久化保存 根據自學習的知識庫提供異常原因分析 集成Arthas診斷工具,快速診斷問題G O P S 全 球 運 維 大 會 2 0 1 9 上 海 站網絡檢測模型IDC各地倉儲國際化倉儲國際化倉儲各地倉儲各地倉儲各地倉儲各地倉儲各地倉儲國際化倉儲復雜的網絡環境10.187.12.13(本機)-10.187.12.14(12ms)10.187.12.13(本機)-10.187.12.15(120ms)10.187.12.13(本機)-10.187.12.16(1
15、ms)10.187.12.13(本機)-10.187.12.17(16ms)IDC自動構建的網絡監測拓撲G O P S 全 球 運 維 大 會 2 0 1 9 上 海 站趨勢預測故障預測、容量預測、性能預測預測分類:預測算法:重點關注:多元線性回歸、LSTM、決策樹、隨機森林、神經網絡、樸素貝葉斯分類、最小二乘法、支持向量機 算法匹配度評分日歷適配、基于節假日的機器學習算法Kpi自動分類并匹配預測算法基于業務關聯關系的預測算法G O P S 全 球 運 維 大 會 2 0 1 9 上 海 站可視化G O P S 全 球 運 維 大 會 2 0 1 9 上 海 站目錄問題及挑戰1超大規模監控系統
16、解決方案2面向AIOPS的智能監控最佳實踐3規劃&展望4G O P S 全 球 運 維 大 會 2 0 1 9 上 海 站迭代優化技術產品組織 AI+算法 高性能 穩定性 兼容性技術架構 聚焦業務,為業務服務 智能運維體系構建 模塊化 組件化產品架構 團隊人員結構優化 運維專家 算法工程師 AI工程師組織架構G O P S 全 球 運 維 大 會 2 0 1 9 上 海 站AIOPS規劃分析決策處理采集1.告警分析;2.趨勢分析;3.性能分析;4.事件分析;5.日志分析;預測上報故障止損異常檢測發現問題解決問題規避問題api主動檢測KPI聚類分析故障樹根因分析智能通知智能處理回溯分析智能告警知識庫深度學習決策樹異常反饋自動處理人工處理處理報告容量預測趨勢分析性能預測擴容建議故障預測決策支持預算建議故障快照