《周昕毅-AI 驅動下的可觀測平臺架構升級實踐.pdf》由會員分享,可在線閱讀,更多相關《周昕毅-AI 驅動下的可觀測平臺架構升級實踐.pdf(46頁珍藏版)》請在三個皮匠報告上搜索。
1、AI驅動下的攜程可觀測平臺架構升級實踐演講人:周昕毅目錄01攜程可觀測平臺介紹02可觀測數據治理實踐03架構升級助力AIOPS04案例實踐與展望01攜程可觀測平臺介紹About -為用戶提供一站式旅行服務的網站-應用數量:1w+-實例數量(虛擬機+容器):40w+-每分鐘新增Metric數量:10億+-每日新增日志存儲:1PB+可觀測性數據有哪些Logging-系統日志-應用日志-業務日志-負載均衡日志-第三方系統日志Metric-系統性能指標-應用性能指標-業務埋點指標-日志聚合指標Tracing-事件上下文信息-函數級別調用棧-應用調用關系“問題”在哪里“問題”為什么出現“問題”的上下文網
2、站當前有沒有“問題”?聚合場景化可觀測性數據有什么用監控告警-硬件/OS 異常-應用級別異常-業務指標異常故障處理-提供“上帝視角”-提升故障處理效率-基于歷史經驗自動解決故障根因定位-確定故障影響范圍-全鏈路追蹤-專家系統的數據依賴快速發現加速定位根本解決AIOps&可觀測數據可觀測數據采集可觀測數據存儲硬件資源基礎軟件應用軟件AIOps智能化平臺智能決策智能分析大數據處理AI工具鏈攜程AIOps實踐數據算法AIOps輔助決策層監控告警-智能告警-告警歸因-故障定位-故障處理管理容量-容量評分-HPA/VPA配置推薦-容量預測&壓測分析管理變更-變更風險檢查-自動剎車-智能化發布攜程AIOp
3、s實踐-根因定位根據應用Metric報錯數據和應用調用鏈Trace數據 自動分析當前故障關聯關系,提升根因定位效率可觀測平臺面臨的挑戰有哪些微服務架構-應用數量快速增長-應用調用關系復雜云原生技術-HPA(分鐘級交付數千容器)-時間序列數據庫的基數膨脹1-5-10目標-1分鐘發現需要秒級告警-快速定位依賴可觀測體系可觀測系統穩定性-一站式平臺打通多個監控系統-監控數據延遲導致誤告警-容量規劃&指標治理體系數據及時性-海量新增日志秒級寫入-日志丟失率控制-全鏈路傳輸實時性查詢效率-Metric查詢毫秒級響應-1h Logging查詢秒級響應-日志平均保留天數7攜程可觀測平臺介紹攜程可觀測平臺一站
4、式產品入口Metric統一查詢層日志統一查詢層自研Tracing系統Metric DB1Metric DB2統一元數據Metric治理Clog系統ClickHouse冷熱分層CAT系統日志歸檔多指標聯動OTEL接入全局報表02可觀測數據治理實踐攜程日志系統架構可觀測性數據膨脹-日志量持續增長的問題-新增日志Senario:平均每月50+新增場景-存量日志場景保留天數持續增加(14-30-90)-日志容量峰值日增 1PB可觀測性數據膨脹-日志量持續增長原因分析-業務自然增長造成的日志增加 最理想情況:)-存量日志需要延長時間應對客訴處理、故障分析、審計和合規需求(Top100日志平均保存時長為9
5、8天)-做加法容易,做減法很費勁,研發普遍采用詳盡的日志記錄策略、為了確保后續排障時能有效定位-存儲字段不斷增加,大量場景需要保存請求報文和訪問報文,極端場景下單個報文字段長度超過20萬字符-ClickHouse壓縮率較高,是平均單價較低的一種存儲介質,相對而言容易出現濫用的情況Logging日志治理實踐從分散到統一-統一查詢、統一存儲-統一元數據-公司內推進日志使用最佳實踐日志查詢治理-用戶SQL智能改寫-查詢QPS限制、時間范圍限制-大表掃描限制-查詢歷史回顧日志存儲治理-本地磁盤+分布式存儲-冷熱分離技術方案-表級別Quota-租戶級別QuotaLoggig最佳實踐-遵循日志統一規范-設
6、置合理的保留天數-設置合理的發送閾值-超過閾值時有合理的采樣策略可觀測性數據膨脹-告警數量持續增長的問題-嚴重的告警信息被低優先級告警信息淹沒-“狼每天都來”,工程師對告警敏感性降低2024年初2024年底Metric Insert112 million/s150 million/sMetric Query4000 query/s5000 query/sTrigger Count15w18w可觀測性數據膨脹-Bigeyes告警中臺建設可觀測性數據膨脹-Bigeyes告警中臺建設可觀測性數據膨脹-告警治理手段告警分級-P0/P1/P2/P3-告警定期review-及時響應率-P0/P1 告警處理
7、時效性要求告警降噪-告警聚合能力提升-自動抑制和收斂機制-控制單位時間內告警數量 Oncall機制-引入Bot協助處理-告警自愈能力提升-故障響應及處理方法沉淀可觀測性數據膨脹-Metric高基數問題Metric-nameLabel-namesLabel-valuesCardinalityrequest_duration_secondsipaddress10.0.0.1/10.0.0.2/10.0.03HPA場景下會持續增加hostnameCTN-01,CTN-02,CTN-03.containeridaxxxx,bxxxx,cxxxx極端情況:應用有異常每30秒重啟一次,containeri
8、d 數量會持續累積增加appid10001,10002,1003可觀測性數據膨脹-Metric高基數問題解決方案監控工具功能升級-增加指標聚合能力-引導用戶進行聚合配置-原始數據降維,收斂指標維度-Metric Federation建設Metric指標治理-高基數指標的識別和檢測-非法寫入自動封禁-tag value禁止使用隨機數-字符內容最大值限制容量規劃-Metric存儲集群自身的監控-關注 ts數量增長-尖峰流量應對預案過濾能力-自動識別無效的維度-實例維度-應用維度-不期望單靠Metric解決所有問題03平臺架構升級助力AIOPSMetric Federation架構升級PROMXYM
9、etric Federation查詢入口VictoriaMetics DB1VictoriaMetics DB2VictoriaMetics DBnClickHouse統一API元數據管理預聚合管理自動限流構建日志統一查詢層(1)構建日志統一查詢層(2)SQL改寫日志緩存加速自動封禁-基于統計分析的不合理查詢過濾-基于規則的問題查詢禁用-平均每天攔截1.5K+不合理用戶查詢-自動禁用有問題查詢來源日志跨集群遷移工具-讓存量日志“動”起來日志跨集群遷移工具-“Clickhouse Balancer”-集群內服務器剩余空間趨同-業務高峰期擴容服務器縮容-“冷”“熱”數據定期搬遷攜程統一監控Agen
10、t實踐-采集內容系統級監控指標-CPU-內存-磁盤IO-網絡IO-其他系統服務內核級監控指標-ebpf metrics-內核異常-系統中斷情況-硬件監控-其他底層服務日志統一采集-syslog-kernel-log-安全登錄日志-auditlog-服務啟停日志Trip-All-In-One-AGENT操作系統硬件網絡安全審計攜程統一監控Agent實踐-收益分析格式和命名統一使用統一的監控Agent可以確保所有采集的數據采用一致的格式和標準,便于后續的存儲、處理和分析。統一的命名規范可以減少數據混淆,確保不同來源的數據可以正確關聯和對比。集中管控安全合規集中配置:通過統一的Agent,可以集中管
11、理和配置監控策略,減少了分散管理帶來的復雜性和錯誤風險。統一策略:可以應用統一的數據采集、存儲和處理策略,確保所有數據治理措施的一致性和有效性??梢詫嵤┙y一的安全策略,如數據加密、訪問控制和審計日志,確保數據的安全性和合規性。監控Agent在安全審計中是一個重要的環節,可以確保安全策略的收口,自動化巡檢,策略覆蓋度的提升落地。攜程統一監控Agent運營情況可觀測數據價值深入挖掘-整體思路MetricLoggingTracing統一查詢統一存儲規范治理“優質”數據“低效”數據定期歸檔資源回收AIOPS平臺價值落地可觀測數據價值深入挖掘-AI通用智能告警-數據采集-由可觀測平臺提供統一的數據抓取和
12、推送消息隊列-配置中心-由AIOPS團隊提供規則配置存儲-智能引擎訓練-AIOPS團隊消費消息訓練時序曲線??捎^測數據價值深入挖掘-AI通用智能告警04案例實踐與展望攜程AIOps實踐思路介紹“運維之眼”-監控工具提供基礎數據-可觀測平臺提升數據質量“運維之手”-自動化運維工具 API調用-運維流程workflowAIOps小助手問題診斷決策執行運維操作數據標準化工具接口標準化日常運維工作中的痛點問題-被動式故障管理發現問題匹配規則自動執行-典型場景包括:故障磁盤自動拉出集群;故障機器自動隔離;發現某類型日志自動重啟應用;-規則明確、執行流程固定、影響面可控的情況,接入AIOPS助手可以顯著提
13、升工作效率、降低故障處理時間日常運維工作中的痛點問題-被動式故障管理發現問題智能診斷日常運維工作中的痛點問題-被動式故障管理日常運維工作中的痛點問題-被動式故障管理日常運維工作中的痛點問題-RCA會議自動總結-可觀測性平臺提供基礎數據-借助大模型的能力,進行高效總結日常運維工作中的痛點問題-主動式故障管理發現“冒煙點”分析影響范圍升級處理-典型場景包括:智能告警、智能變更、根因分析、容量管理-被動式-主動式故障管理和故障防御機制基礎監控數據應用觀測數據業務日志Trace黃金三指標運維經驗積累知識積累“冒煙”事件告警補缺流程優化告警關聯容量管理借助AIOps能力解決痛點AIOps小助手AIOps智能Agent規則匹配自動執行告警自愈根因分析變更授權復雜場景輔助人工決策故障預測行為審計自動變更“手”“眼”合一,可觀測平臺持續升級,自動化工具+知識庫建設形成規范THANKS大模型正在重新定義軟件Large Language Model Is Redefining The Software