4-3 張靜-京東科技全鏈路故障診斷智能運維實踐.pdf

編號:121611 PDF 34頁 3.58MB 下載積分:VIP專享
下載報告請您先登錄!

4-3 張靜-京東科技全鏈路故障診斷智能運維實踐.pdf

1、京東科技全鏈路故障診斷智能運維實踐演講人:張靜自我介紹01目錄京東科技智能運維整體能力02運維算法賦能業務可觀測性落地經驗03運維算法賦能降本增效落地經驗04個人介紹01張靜京東科技智能運維算法高級經理智能運維發明專利50項、IEEE國際會議論文收錄9篇。帶領團隊致力于京東智能運維算法研發,應用于京東線上橫向業務場景,縱向監控、數據庫、網絡、資源調度等多個場景取得突破。2021數據技術嘉年華解密StarDB國產數據庫智能運維的核心算法 ArchSummit2022全球架構師峰會智能運維專題演講 參與撰寫中國信通院云計算智能化運維(AIOps)能力成熟度模型白皮書,第1部分通用能力要求、第2部分

2、系統與工具技術要求。個人介紹第1篇ieee-智能運維方向論文IEEE Xplore檢索地址:https:/ieeexplore.ieee.org/document/9680175第2篇ieee-智能運維方向論文IEEE Xplore檢索地址:https:/ieeexplore.ieee.org/document/9762449第3篇ieee-智能運維方向論文IEEE Xplore檢索地址:https:/ieeexplore.ieee.org/document/9778305第4篇ieee-智能運維方向論文IEEE Xplore檢索地址:https:/ieeexplore.ieee.org/do

3、cument/9858500第5篇ieee-智能運維方向論文IEEE Xplore檢索地址:https:/ieeexplore.ieee.org/document/9832400第6篇ieee-智能運維方向論文IEEE Xplore檢索地址:https:/ieeexplore.ieee.org/document/9904207第7篇ieee-智能運維方向論文IEEE Xplore檢索地址:https:/ieeexplore.ieee.org/document/10072770資質證書京東科技智能運維整體能力02國產信創安全可控,提升數字化韌性全棧全場景國產化產品難度逐步增加1、集群規??焖僭鲩L

4、,微服務、異地多活等高可用框架需求增強2、系統間關聯越來越多3、監控工具眾多,但內部黑盒4、告警誤報過多,造成告警疲勞,潛在業務風險體系化要求越來越高1、從異常發現到根因定位、預先巡檢和預案的重要性2、AIOps已深度實踐,減少誤報,避免漏報成重點3、需要系統地沉淀運維經驗4、從局部治理走向全面治理成本要全面節省1、從業務源頭省成本,對業務應用全面合理計費2、公司存量大量3年以上過保機器,仍然正??捎?、運維提升效率,能夠處理更多更復雜的場景和應用運維面臨的問題整體能力介紹基本目標:降低故障平均修復時間(MTTR),延長系統無故障運行時間(MTBF),提升系統可用性和運維效率。智能運維技術架構

5、圖監 控 管 理應用監控圖業務層眼學件層心業務監控圖可用率圖表資 源 管 理運 行 管 理成 本 管 理變 更 管 理事 件 管 理管 控 功 能應用圖表資源圖標使用率圖表流量圖標網絡圖表運行圖標資產報表分攤報表變更圖表工單圖表事件圖表告警圖表可視化配置告警配置權限配置學件層心數據層腦指 標 監 控 中 心單指標異常檢測多指標異常檢測指標相似度分析指標聚類分析動態智能基線突升突降識別指標趨勢預測波形分析日 志 監 控 中 心日志模式識別日志增量學習日志關聯分析日志語義分析日志異常檢測日志分類日志序列預測日志模板AI標注告 警 分 析 中 心告警聚類故 障 定 位 中 心多維下鉆根因定位告警關聯

6、分析告警降噪相似事件召回告警模板提取告警事件分析智能告警定級事件預測全鏈路根源定位事件根因分析故障注入模型機器指標定位運維知識圖譜故障傳播關系因果推斷運 維 畫 像應用畫像健 康 體 檢資源畫像告警健康度網絡畫像日志畫像變更體檢亞健康分析應用健康評分鏈 路 追 蹤用戶行為軌跡統 一 日 志日志查詢客 戶 端前 端服 務 端中 間 件數 據 庫連接數主 機CPU請求鏈路鏈路拓撲實時日志關鍵詞索引缺失低效SQL網絡IO云平臺時序數據庫MySQL大數據平臺Hbase平臺圖數據庫ES門戶API自 動 化 操 作工單操作資源調度切換/熔斷/降級算 法 服 務無閾值監控故障根因定位智能日志分析健康體檢鏈路

7、分析歸檔訂閱磁盤I/O預算報表巡檢圖表容量圖表網絡請求卡頓監控白屏監控日志回撈頁面性能瀏覽器分析JS錯誤地域運行商方法性能進程監控業務監控代碼行監控消息Web服務緩存產品視角全景圖運維算法賦能業務可觀測性落地經驗03運維算法賦能業務可觀測性通過NLP技術對全量運維日志聚類分析,提取日志關鍵信息,從日志角度發現問題。智能文本分析 多種定位策略靈活組合 根因定位與學習算法結合 定位快、準確高、使用廣 故障定位異常檢測:通過統計學習、時序聚類、時序網絡等算法,檢測指標數據異常點,比固定閾值更加精確。智能基線:兼顧多個指標波動變化,預測動態安全區間,及時準確地發現異常,自適應不同業務場景。指標異常檢測

8、知識圖譜日志模版提取基于apm 調用鏈掃描故障節點關聯性集中管理監控指標AI算法智能化檢測分析海量日志處理AI算法實時聚類分析NLP與知識圖譜技術賦能根因定位,智能化集中告警3.1 指標異常檢測 通過統計學習、時序聚類、時序網絡等算法,檢測指標數據異常點,比固定閾值更加精確;自回歸學習歷史數據的波動規律,衡量異常與原有趨勢下指標的偏離程度,設置動態安全區間,自適應不同業務場景。為研發人員提供日志全文檢索功能,再海量日志中可以從應用角度出發根據時間、線程等多種維度快速檢索所需日志,同時還可根據日志上下文精準排障,輕松應對線上問題。針對各個業務線/應用的海量日志根據級別做歸檔時間等的策略劃分,并依

9、托于消息隊列可對自己的日志做訂閱。提供基礎組件、容器、DNS、中間件、數據庫、業務應用等多種日志接入以及不同日志類型的個性化配置。在瀏覽器即可模擬針對本地日志查看功能,實時刷新日志內容并對日志內容提供過濾、反過濾等功能。極度還原用戶在本地對于日志的操作習慣,給線上日志跟蹤提供很大幫助。支持通過監控規則檢測統計并提供報警,同時支持多種渠道告警方式。與SGM、中間件監控、基礎監控同時使用還可達到監控一體化的根源定位能力。分布式日志檢索多類型日志接入日志分析告警應用實時日志歸檔及訂閱3.2 智能文本分析應用日志反應應用本身運行狀態,某些故障是能夠從監控指標上發現的,然后由于部分監控指標的缺失,有些故

10、障的產生并不能從指標層面發現,需要從日志中發現問題并定位根因。運維日志模版提取,及時捕捉線上未知的業務異常問題 方案 痛點 目的通過智能提取日志模版技術對歷史全量日志聚類,在線實時匹配發現已知類問題的日志量變化,并可及時捕捉到新的日志模式,從日志角度提升監控能力。3.2 智能文本分析3.2 智能文本分析案例-K8S場景K8S常見故障POD網絡延遲POD網絡丟包GC調用docker有問題日志占用文件句柄沒釋放導致pod刪除失敗孤兒pod問題POD存儲掛載失敗lvm卸載異常POD網絡分配異常通過日志分析覆蓋K8S核心組件(億級別日志量/天)GC調用docker有問題、孤兒pod問題、POD存儲掛載

11、失敗、日志占用文件句柄沒釋放、POD網絡分配異常等多維度故障場景,提升K8S核心組件監控能力。日志模版舉例*nestedpendingoperations Operation for*failed No retries permitted until*durationBeforeRetry*Error UnmountVolume TearDown*volume export UniqueName*pod*unmount*exit status Unmounting arguments*umount*target is busy*Event occurred object*Pod apiVers

12、ion*type Warning reason FailedMount message MountVolume SetUp failed for volume*object*not registered*syncPod podUID*pod*map app clickhouse operator pod template hash*map clickhouse operatorEnvHash*clickhouseoperatorImageName*kubernetes io config source api Prometheus io port*ConfigMapVolumeSource L

13、ocalObjectReference Name etc clickhouseoperator files*controlbuf go*transport*loopyWriter run returning connection errordesc transport is closingpod-SYNC全量信息-基于內容的分類容器創建掛載異常-基于數量統計的突升異常檢測日志占用文件句柄沒釋放-基于數量統計的異常檢測結合上下文信息進一步診斷3.2 智能文本分析案例-Redis場景3.3 健康度巡檢通過自動化的巡檢能力檢測全鏈路應用和數據健康度,主動發現潛在問題,便于日常運維和掌握站點的健康信息

14、,大大減輕運維人員排查問題的負擔和時間。定期巡檢,提前發現亞健康應用,提升緩存命中率及閑置服務器資源利用率 大促前針對亞健康核心應用整改接口是否存在端口探活進程掃描應用主機磁盤空間頻繁打滿應用服務器單核CPU打滿r2m10G以上集群利用率過低檢測r2m10G以上集群空閑key占比過高檢測IAAS和SURE主機狀態不一致Java應用未接入SGMp0應用非多機房部署VIP持續兩周均無域名解析數據備份掃描日志備份掃描京東內部歷年運維經驗積累100+業務健康度自動化巡檢規則。移動端監控前端監控服務端監控監控項網絡請求Webview啟動監控控制器監控崩潰監控卡頓監控錯誤監控自定義監控實時告警性能耗時錯誤

15、率錯誤碼訪問量崩潰率自定義啟動量公網質量優勢日志撈回錯誤定位公網質量監控用戶軌跡追蹤全鏈路調用鏈告警智能關聯監控項頁面性能網絡請求Js錯誤瀏覽器分析地域運營商自定義監控實時告警頁面耗時白屏時間錯誤率錯誤碼訪問量Js錯誤自定義優勢sourceMap解析自定義監控全鏈路調用鏈周報訂閱URL統計Apdex監控項方法性能失敗/異常進程監控底層IO監控JVM監控分類監控實時告警性能耗時可用率失敗率失敗碼調用量底層告警GC告警優勢代碼行追蹤業務監控全鏈路調用拓撲自定義監控代碼行監控容量水位周報訂閱自定義多維分析調用來源耗時明細分析自定義擴展字段比值監控調用鏈路全鏈路調用鏈分析3.4 全鏈路監控體系一旦服務

16、出現性能瓶頸,可綜合分析調用鏈、接口耗時、返回狀態碼、異常日志,網絡日志等,快速診斷問題。3.4 全端的鏈路分析內置組件化的耗時分析,相比于基于方法調用鏈的耗時明細,更加直觀方便,支持自定義組件化。3.4 耗時分析直觀展示服務之間的依賴強弱,實時監控每一個應用的服務質量(TPS、耗時,成功率,可用率)3.4 調用鏈拓撲3.4 全鏈路根因定位基于apm調用鏈AI模型掃描,挖掘故障節點關聯性,定位根因基于NLP運維日志模版提取與運維知識圖譜診斷故障根因覆蓋場景 AI算法與運維經驗融合的根因編排模型 多種定位策略靈活編排 定位速度快、準確率高、適用范圍廣主機離群分析算法主機離群分析算法3.4 日志模

17、版根因定位案例3.5 多維指標根因定位web場景異常和tp突增監控,并進行快速根因定位應用場景:當某個域名的TP耗時/TPS發生異常產生告警后,可按省份、運營商、機房、機柜、主機等各維度的TP耗時/錯誤狀態碼TPS突增等指標進行明細下鉆分析,通過強化學習搜索算法從數萬維度交叉組合數據中快速定位出異常的維度組合。運維算法賦能降本增效落地經驗04運維算法賦能降本增效-智能調度Archimedes-metrics應用畫像;監控數據特征提??;聚類算法;物理機器真實資源計算基于監控數據預測的調度器JDOS-MasterJDOS-Node基于預測的智能調度依托京東大數據,利用機器學習、深度學習算法,對應用

18、的資源使用情況進行畫像統計,并能對應用的未來資源使用情況進行預測,將在線與離線應用合理的進行混合調度部署。大促容量預測快速調度,降本增效,精細化運營。在線應用離線應用混部集群在離線任務互補提升資源利用率Archimedes-scheduler京東云在支撐京東全線業務正常運行下,超大規模集群的CPU資源利用率提升3倍,單位訂單資源成本下降30%,內存平均使用率提升57%模型結果大、小周期滑窗預測智能計算運維算法賦能降本增效-硬件故障預測利用運維算法技術,學習硬盤歷史故障數據,預測硬盤未來故障發生時間點,提升備件和修復響應時間,預測結果推薦核心業務做提前調度或者修復,提前止損,降低故障處置、復盤等

19、成本。技術先進性:標簽數據不足夠的半監督學習模式下,引入主動遷移學習,完成故障預測模型的訓練;基于時間窗口計算增強SMART特征,輸入給時間注意力分類模型,提升硬盤故障預測準確性。原始特征滑窗特征時空特征分類/召回Model結果硬盤故障預測基本流程京東云在支撐京東全線業務正常運行下,硬盤故障預測模型平均準確率達90%以上,平均召回率達80%左右。智能計算運維算法運維日志預訓練模型告警共性分析算法智能基線相似度計算蒙特卡洛樹根因定位因果推斷算法模型工廠學件1:基于多模型融合的異常檢測學件2:基于機器學習的主機離群節點識別學件3:基于時間序列分析的動態基線預測學件4:基于機器學習的時間序列相似性計算學件5:基于機器學習的多維屬性共性分析學件6:基于NLP的文本聚類學件7:業務異常多維定位學件8:基于SMART特征磁盤故障預測模型運維監控可視化大屏THANK YOU!

友情提示

1、下載報告失敗解決辦法
2、PDF文件下載后,可能會被瀏覽器默認打開,此種情況可以點擊瀏覽器菜單,保存網頁到桌面,就可以正常下載了。
3、本站不支持迅雷下載,請使用電腦自帶的IE瀏覽器,或者360瀏覽器、谷歌瀏覽器下載即可。
4、本站報告下載后的文檔和圖紙-無水印,預覽文檔經過壓縮,下載后原文更清晰。

本文(4-3 張靜-京東科技全鏈路故障診斷智能運維實踐.pdf)為本站 (2200) 主動上傳,三個皮匠報告文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對上載內容本身不做任何修改或編輯。 若此文所含內容侵犯了您的版權或隱私,請立即通知三個皮匠報告文庫(點擊聯系客服),我們立即給予刪除!

溫馨提示:如果因為網速或其他原因下載失敗請重新下載,重復下載不扣分。
客服
商務合作
小程序
服務號
折疊
午夜网日韩中文字幕,日韩Av中文字幕久久,亚洲中文字幕在线一区二区,最新中文字幕在线视频网站