《基于 DeepSeek 的監控觀測平臺技術路徑探索-智能觀測進化論沙龍.pdf》由會員分享,可在線閱讀,更多相關《基于 DeepSeek 的監控觀測平臺技術路徑探索-智能觀測進化論沙龍.pdf(17頁珍藏版)》請在三個皮匠報告上搜索。
1、基于 DeepSeek 的監控觀測平臺技術路徑探索觀測云產品技術總監 黃小龍大模型驅動的監控測性平臺技術路徑探索1.什么是可觀測性和可觀測性平臺?2.構建大模型驅動的可觀測性平臺要具備什么條件?3.大模型驅動的可觀測性平臺有哪些可以落地的場景?CodeTestDeliveryRunOptimizeMonitorOperationUnderstand UserUser SupportUnderstand BusinessDevBusinessOpsUnified Data Collection AgentUnified Data AnalysisPowerful Data Visualisati
2、onMulti-Channel NotificationEnterprise-Grade IntegrationTrueWatch AIHigh Programmbility and ExtensibilityDelivery&Optimisation Backend Performance Monitoring Web App Performance Monitoring Mobile App Performance Monitoring Log Analysis Continuous Profiling Monitoring&Operation Infra Monitoring Docke
3、r Monitoring Network Monitoring APM Synthetic Tests Log Mgmt Metric Mgmt Service Catalog Cloud Cost MgmtUser&Business Analysis User Behaviour Analysis User Session Replay Click Heatmap and Retention Analysis Integration with Business Data,e.g MySQL,OUnified Observability Data Lake 什么是可觀測性?“Observabi
4、lity”本身是一種理念,它描述的是通過系統生成的數據來理解系統內部運行狀態的能力。DataContext+(數據)(關系)什么是可觀測性平臺?“Observability Platforms”是指一套工具或系統,它使得-對系統內部狀態的外部觀察和理解的“Observability”-變成可能。對于可觀測性平臺,通常包括:Data SourcesData CollectionObservability Data SourcesData ProcessingObservability Data PipelinesData StorageObservability Data Warehouse|D
5、ata LakeO11y ProductsData ExplorersData DashboardsData AI/MLData Monitors基于分散的監控系統落地AI可觀測性平臺的挑戰分散式的監控系統挑戰解決方案高質量的數據是構建AI可觀測性平臺的必備條件數據來源眾多,整合難度非常大數據之間缺乏統一的關聯標識海量數據存儲成本高,難以實時洞察數據查詢語義混亂,關聯洞察艱難智能 AI可觀測性平臺統一數據采集統一數據采集統一數據模型統一數據模型統一數據標簽統一數據標簽統一數據存儲統一數據存儲統一數據查詢統一數據查詢AI驅動的監控觀測平臺必備條件(一):統一數據采集ClientServiceMi
6、ddlewareInfraThird-partyeventstracelogsmetricsModulesInfraDatabaseMiddlewareCloud NativeLogRUMAPMText line.Observability DataText.Pipeline ScriptOut-of-the-box ScriptsCustomize ScriptsPipeline Build-in Functionsreplace()url_decode()set_tag().Grok()Json()Custom Data Processing Templatesadd_pattern(na
7、me,regex)Templates(Regex Library)ISO8601_TIMEZONE:(?:Z|+-%HOUR(?:?%MINUTE)NOTSPACE:“S+”IP:(?:%IPV6|%IPV4)Text line.Structural Data(Key-Value)execTime:2022-03-03 21:17:00.001,message:2022-03-03 21:17:00.001.service_name:“test,trace_id:8703525402362063273Pipeline 一體化架構設計:OneAgent 完成所有數據采集,包括 Metric/Tr
8、ace/Log等可觀測性數據,并統一結構化。開源&開放:能夠完全兼容主流的開源協議,包括但不限于 Prometheus/SkyWalking/Logstash/OpenTelemetry 等。完全支持云原生:基于云原生打造,可以完美覆蓋所有的 Kubernetes 生態圈的采集。開箱即用的采集能力:一鍵部署安裝,內置了上百種數據集成,安裝即可使用,無需增加額外的組件。邊緣處理的支持:提供可編程的處理引擎 Pipeline,內置大量的數據處理方式,方便提取非結構化數據。用戶端全方位支持:提供 Web、小程序、Android、iOS等終端 SDK,滿足前端用戶體驗追蹤分析。https:/ leve
9、l=info config id tokens valid1726640642123host:cn-shenzhen.172.16.45.35,host_ip:172.16.45.35,container_id:ec4ed8f67c7aefa437c1d11d2faf5ca0b5a18fef33826e1c4bfc67c2f401e067,filename:0.log日志message:resource:”select*frombiz_xx where id=xx”,metadb.instance:scm,peer.hostname:localhost1726640642123trace_id
10、:66ea735e000000001382f23574ec321c,service:mysql,span_type:entry,span_kind:client鏈路message:1726640642123source:action,view_id:64756202-a005-48c0-96a0-19b045b7e79a,view_path:/index,session_id:cd342379-7888-4864-8445-9baded57eabe,action_type:click,action_position:x:311,y:369RUM基于時間的半結構化統一數據模型AI驅動的監控觀測平
11、臺必備條件(三):統一數據標簽數據數據對象標簽對象標簽關關聯場景能力聯場景能力數據源鏈路日志主機主機關聯host_namehost_namehost_name容器container_idcontainer_id容器關聯host_namecontainer_idtrace_idtrace_id鏈路關聯事件host_namecontainer_idservice_nameprofiling關聯rumtime_idservice_name項目關聯project_idproject_idproject_idproject_idproject_idsession_idview_idresource_id
12、action_idlogtask_id.trace_id兼容ddtrace、zipkin、skywalking_v3、jaeger、zipkin_single_header、w3c_traceparent協議用戶端后端關聯分析場景 通過 trace_id 實現日志和鏈路,以及前后端關聯 通過 host_name 實現日志、鏈路和主機資源使用情況關聯 通過 container_id 實現日志、鏈路和容器資源使用情況關聯 通過 rumtime_id 實現鏈路和 profiling 關聯 通過 service_name 實現變更事件和鏈路關聯 通過 session_id 實現訪問會話和頁面的關聯統計
13、分析場景 通過 project_id 標簽快速查看項目的資源使用情況 通過 env 標簽統計生產環境服務調用情況和調用錯誤數 通過 version 標簽對金絲雀發布實現可觀測性 通過 order_id 標簽對訂單情況進行多維度統計分析 通過 user_id 標簽實現對用戶的多維度統計分析統一標簽化是實現數據關聯的基礎統一標簽化是實現數據關聯的基礎AI驅動的監控觀測平臺必備條件(四):統一數據存儲Observability Data LakeMetricsLogsTracesEventRUMObjecteBPF海納百川,兼容并包,支持 Schemaless 特性,可以應對任何類型數據的寫入和查詢
14、面向海量數據,要支持極高的性能+極低的成本支持倒排索引,能夠應對大部分日志查詢場景指標查詢能夠兼容 PromQL,滿足云原生下的查詢場景 存算分離架構 讀寫負載分離 支持物化視圖 隔離大規模查詢 基于S3極高穩定性GuanceDB 1.0InfluxDB/TDEngineOpenSearchDebug Query Language(DQL)Observability ProductsGuanceDB 2.0MetricStoreDorisDebug Query Language(DQL)Observability ProductsGuanceDB 3.0AI驅動的監控觀測平臺必備條件(五):統
15、一數據查詢T/LoggingM:cpu:(avg(cpu_usage)cluster=testing 1h:5m:avgM:httpserver:(derivative(request_count)by account_id sorder by account_id desc slimit 10L:(L:*limit 1000):(count(_docid)as count,collect(_docid,50)by drain(message,0.3)as sample sorder by count descT:RE(.*):(avg(duration):5m BY service,reso
16、urceR:view:(avg(largest_contentful_paint)country=CN BY view_urlE:monitor:(*):5mDQL 查詢大模型驅動的監控測性平臺落地場景“看數據”智能圖表生成異常數據分析智能分析報告自然語言查詢容量規劃建議成本優化分析日志聚類分析“查問題”故障根因推理故障報告生成智能告警收斂智能告警分析故障自愈建議性能瓶頸診斷+智能 AI可觀測性平臺統一數據采集統一數據模型統一數據標簽統一數據存儲統一數據分析大模型驅動的監控測性平臺落地場景(一)AI智能助手創建可觀測平臺智能體,通過自然語言的方式與平臺進行交互,包括智能客戶問答,chart2c
17、hat,異常信息解釋,數據分析報告等。根據語義自動生成查詢 DQL日志異常分析日志異常分析大模型驅動的監控測性平臺落地場景(二)AI告警收斂通過AI驅動的告警收斂功能,能夠對海量告警進行智能聚類、去重和關聯分析,生成簡潔、精準的告警摘要。日志告警事件指標告警事件鏈路告警事件網絡告警事件撥測告警事件可觀測性平臺大模型驅動的監控測性平臺落地場景(三)AI告警分析通過大模型輸出告警信息分類、產生原因、告警關聯和優化建議分析等,通過調節提示詞,輸出不同的告警分析結果。日志告警事件指標告警事件鏈路告警事件網絡告警事件撥測告警事件知識庫規則庫標注數據告警信息分類產生原因分析告警關聯分析優化建議分析5分鐘告
18、警事件聚合DeepSeek V3RAGprompt可觀測性平臺大模型驅動的監控測性平臺落地場景(四)AI根因推理通過大模型推理告警根因,針對不同類型的告警,融合觀測平臺的數據,讓大模型來推理告警產生的原因,提升故障定位效率。知識庫規則庫標注數據DeepSeek R1RAG告警事件可觀測性平臺指標告警事件可可觀測性數據觀測性數據DQL日志告警事件鏈路告警事件日志鏈路指標事件RUM這條告警信息在xxx業務中處于哪個環節,它影響到流程中的哪個上游環節?這條告警信息的根因是什么?這條告警信息如何解決?如果具有鏈路信息是否根因分析更精準,請查詢相關鏈路信息。prompt好的,我現在需要分析用戶提供的xx
19、x系統的告警信息在xxx業務流程中的位置、影響、根因以及解決方案。首先,我需要仔細閱讀并理解用戶提供的兩個主要信息:告警信息和xxx業務的流程信息。首先看告警信息。告警涉及的是xxx系統中的接口/xxx,該接口出現延遲較大的問題,屬于critical級別的告警。接下來是xxx流程信息,用戶提供了一個詳細的步驟列表,包含交易名稱、應用服務名和接口地址。我需要找到與xxx相關的步驟,以確定告警所在的環節。瀏覽流程信息時,發現第12步有xxx,對應的服務是xxx,但接口地址為空。而后續的步驟如xxx涉及xxx服務的/xxx,以及最后的xxx。不過告警中的接口屬于xxx服務的/xxx,可能在用戶xxx后,系統會回調通知結果,這個接口的延遲可能影響后續流程。影響方面:如果該接口延遲高,可能導致整個xxx流程卡在支付環節根因推薦根因推薦影響分析影響分析優化建議優化建議致力于打造全球化的智能可觀測性平臺在線注冊,開箱即用60+低延遲服務可用國家和地區支持多家公有云更加安全合規支持多家云通道KooGallery11個觀測云全球節點掃一掃添加微信觀測云公眾號THANKS