《簡志《AI大模型加持運維領域基礎模型》.pdf》由會員分享,可在線閱讀,更多相關《簡志《AI大模型加持運維領域基礎模型》.pdf(27頁珍藏版)》請在三個皮匠報告上搜索。
1、AI 大模型加持運維建設周琦(簡志)阿里云資深專家提綱 背景:數字化對生產力的要求 階段一:垂直工具驅動 階段二:數據和算法驅動 階段三:垂直模型助力 階段四:領域知識+AGI 展望數字化對生產力要求研發Debug研發測試聯調開發迭代監控運維開發迭代運維運營安全研發中集成中上線后上線中Scope變大:服務全球關注面增多:系統,軟件,用戶多能:承擔測試、部分運維與運營工作需要快速響應大量實時、碎片化、關鍵的數據分析工作觀察+分析部署+上線創新創新觀察+分析創新云計算+云原生數字化時代一套套垂直系統階段一:垂直工具驅動軟件Box:黑盒PerfCounterGlobalFlag模塊水平集成RPC 帶
2、來的需求:Trace控制:流量調度計算:Agg、Max、Group、Filter模塊水平集成計算:時空對齊,全局調度,根因分析控制:遷移更多Metric外部系統引入:可觀測數據融合 Log:可能在說什么 Metric(QPS/Latency):大致行為 APM/Profling技術:切開來看看?MetricLogSQLTraceSQLSearchSearchDSLSearch數據關聯,存儲分析Traces Metrics Logs統一的協議:OpenTelemetryOpenTracing,OpenCensus 合并為 OpenTelemetry可觀測數據的三大支柱:Logging、Metri
3、cs、Tracing多家廠商支持 OpenTelemetry,如 AWS,Azure,GCP,Alibaba Cloud,Datadog,Elastic,Dynatrace,New Relic,Splunk Logging:離散的日志信息 Metrics:聚合的指標 Tracing:請求級別的鏈路追蹤統一存儲統一分析數據關聯可視化編排Logging/Metrics/Tracing,可觀測多模態數據新視角一套套垂直系統可觀測數據統一存儲統一存儲、分析平臺階段二:多模態數據統一存儲+分析1.1.獨立系統獨立系統2.2.數據孤島數據孤島3.3.增加系統增加系統-人力負擔人力負擔統一采集、存儲、分析1
4、.1.接口統一接口統一2.2.數據互聯互通數據互聯互通3.3.增加數據增加數據-豐富場景豐富場景算力+算法 提升效率平臺型工具趨勢平臺型工具趨勢ITOMSIEMDevOps統一存儲帶來好處數據上游阿里云SLS 開放兼容的數據生態 兼容多源數據 統一采集(iLogtailiLogtail 已開源已開源)全棧能力 開放選擇:兼容開源及自有的實時計算生態 更高性價比更高性價比,免費計算資源,Serverless 兼容兼容 ElasticsearchElasticsearch、KafkaKafka、PrometheusPrometheus、CKCK,99%99%情況下無縫遷移情況下無縫遷移SLS 統一
5、可觀測存儲SLS 內置 Serverless 分析能力-查詢分析:查詢檢索(百億記錄秒級檢索);SQL 統計分析;日志聚類、內置算子;可觀測數據關聯分析-可視化:儀表盤,30+類型圖表;頁面嵌入自有系統兼容開源引擎與工具-實時計算:流式計算 Spark Streaming,開源 Flink,Storm;云產品函數計算,實時計算 Blink-可視化:Grafana,Tableau,KibanaLogLogKafkaFlumeBeats和 logstashSyslogWeb TrackingMetricMetricPrometheus 監控數據Telegraf 數據OpenTelemetryOpe
6、n-Falcon數據TraceTraceSkywalkingJaegerZipkinOpenCensusEventsEventsZabbix/Prometheus alerts 三方告警源云產品數據(日志云產品數據(日志/監控監控/審計審計/賬單賬單)ECS/OSS 等 50+云產品日志,云監控,Actiontrail,費用中心加工投遞加工投遞OSS(數據湖入湖)maxcomputeADB第三方第三方 SIEMSIEMSplunkQradar告警通知渠道告警通知渠道釘釘/電話/郵件/短信/Slack/飛書/企業微信/webhook 離線數倉 數據湖入湖的最佳方案 安全護(日志審計 投遞)數據下
7、游Knowledge垂直模型階段三:Metric/Log/Trace 垂直模型垂直模型與下游任務智能運維模型指標異常檢測、日志文本智能分詞、Trace 鏈路高延時診斷Copilot 智能問答準確將自然語言翻譯查詢語句及時找到結果人工輔助微調人工標注、結果打標修正模型根據人工反饋自動微調基礎模型開箱即用快速擴容和服務遷移通用模型靈活擴展logmetrictrace交互式根因分析NL2SQL 智能問答時序/鏈路異常檢測日志自動標注大語言模型Trace基礎模型時序基礎模型日志基礎模型知識游戲服務系統調用、依賴關系復雜,任何階段出問題都可能導致游戲操作失敗或卡頓,影響玩家用戶體驗場景描述根據服務中的
8、Trace 數據自動生成拓撲圖圍繞高延時分析、高錯誤率分析、系統熱點和瓶頸進行分析和診斷縮短問題處理時間,優化系統延時解決方案在海量 Trace 中快速定位異常根因和性能瓶頸無需人工干預,提高大規模分布式系統異常定位效率數千請求秒級定位根因,在生產中準確率達 95%方案價值探測導致 Trace 高延時或錯誤的服務關聯 Log/Trace/Metric,自動檢測根因錯誤&高延時 Trace 根因分析預測微服務系統的性能瓶頸服務性能瓶頸檢測將 Trace 聚合,找到 Trace 的 Pattern快速找到相同錯誤類型的報錯Trace 聚類異常 Trace 概覽15:2315:23 共有共有 1 1
9、 個入口服務產生個入口服務產生 28802880 條慢條慢 TraceTrace 其中入口服務其中入口服務 Front-endFront-end 的的 POST/POST/jordrgjordrg 發現次數最多發現次數最多共出現共出現 28802880 次占次占100.0%100.0%在根因分析結果中,主機在根因分析結果中,主機 pay-ment-pay-ment-5b7dBd684b-zjtzv5b7dBd684b-zjtzv 出現比例最高,其中出現比例最高,其中共出現共出現 28922892 次占次占 34.0%34.0%在根因分析結果中,服務在根因分析結果中,服務 paymentpaym
10、ent 出現出現比例最高,其中比例最高,其中共出現共出現 28922892 次占次占 99.0%99.0%在根因分析結果中,方法在根因分析結果中,方法 POST/POST/paymentAuthpaymentAuth 出現比例最高,其中出現比例最高,其中共出現共出現 28922892 次占次占 99.0%99.0%SLS MallSLS Mall 共有共有 1212 個服務,個服務,4545 個入口接口,個入口接口,在選擇的時間段中,共產生了在選擇的時間段中,共產生了 16411951641195條條TraceTrace,其中請求平均延遲,其中請求平均延遲 21288.11ms21288.11
11、ms場景示例:智能異常檢測與根因分析AI 基礎模型 Metric 模型Filling BlanksFragment ClassificationShort Term Predication任務設計模型選擇BERT/GPT-2/GLM數據編碼數據準備20+Categories15W+Metric KPIs3W+Metric ObjectsECS MonitorK8S MonitorOperation MonitorWeb Traffic MonitorResource MeasureMonitorOpen Source MetricTime EncodingPosition EncodingSe
12、riesEncoding能力特性針對 AIOPS 領域數據多樣涉及了日志場景中的 20+類別的數據涉及其中核心的 KPI 指標數量達到 3W+收集近 90 天的觀測數據附帶元數據的特征編碼時序數據的劃分需要動態的適配數據的形態考慮時序數據中的時間戳特征客戶價值收集海量真實指標數據,嘗試語言模型在指標數據上的遷移能力具備開箱即用的指標異常檢測能力video:視頻大小不要超過橙框區域AI 基礎模型 Log 模型Variables NERTempalte SimilarityNext Token PredictionBERT任務設計模型選擇數據準備200+Categories10W+Log Temp
13、lates100W+Log Records203.205.151.204:80 error:Could not connect to proxy proxy.cse.cuhk.edu.hk:5070-Could not resolve proxy.cse.cuhk.edu.hk error 11001能力特性針對AIOPS領域數據多樣包含 200+的系統層和應用層日志涵蓋 100W+的日志運維場景的日志理解定義了日志領域常見的 16 類實體自動提示實體信息客戶價值收集整理海量日志數據,提升語言模型在日志數據上的遷移能力幫助運維人員更好的理解非結構化數據video:視頻大小不要超過橙框區域AI
14、基礎模型 Trace 模型CDBDBDBDBClientFrontendLogicTiersBackendVAEVAEVAEVAEVAEVAEVAEVAEVAEVAEVAEVAEVAEVAECounterFactualLatencyInput Latency&MetricsRoot Cause Spans能力特性學習大量的微服務系統使用阿里云內部微服務系統的真實數據開發整套微服務系統生成的系統,通過混沌工程進行故障注入,獲取真實的標簽數據將圖和指標聯合建模探索使用多源異構數據進行聯合建模,解決圖模型的泛化問題設計無監督任務,利用反事實方法生成標簽客戶價值開箱即用,僅需要小部分 Meta 數據,
15、無需進行大規模的預訓練能較好的適配多種微服務系統video:視頻大小不要超過橙框區域Knowledge知識圖譜LLMDomain Expert+=知識+大模型=領域專家垂直模型階段四:領域知識+LLM=領域專家Alibaba Cloud Lens CopilotLLM:用戶意圖理解(BYOK)用戶提問用戶提問引導RAG:精細問題拆解LLM:基于表的Query生成元數據任務拆解Recall:向量召回LLM:基于知識的生成知識數據向量化引導執行執行能力特性用戶意圖識別通過引導模式,逐步聚焦用戶 Prompt 輸入建立場景的知識圖譜借助領域專家的能力,構建知識圖譜客戶價值可以較好提供 Cloud Lens 場景中的知識學習、場景問答等能力video:視頻大小不要超過橙框區域未來展望人力投入機器投入DevOps監控運營安全謝謝 謝謝 觀觀 看THANKS