《SRE-Copliot:基于大語言模型的智能運維架構-王寧.pdf》由會員分享,可在線閱讀,更多相關《SRE-Copliot:基于大語言模型的智能運維架構-王寧.pdf(28頁珍藏版)》請在三個皮匠報告上搜索。
1、大語言模型智能運維框架LLM&Aiops 在字節跳動的探索與實踐SRE-Copilot字節跳動-王寧AIOps 挑戰賽方案SRE-Copilot架構SRE-Copilot技術細節在字節跳動的探索實踐SRE-Copilot比賽方案闡述第一章節賽題及數據分析基于建行穩定性系統模擬建行生活類APP的真實環境希望解決企業運維團隊面對規模龐大、結構復雜、動態變化的運維數據需要解決的一系列挑戰系統架構圖入網負載均衡集群RedisMySQLKafka搶券集群基礎集群訂單集群出網負載均衡集群 調用鏈數據 業務黃金指標 集群性能指標(容器、Linux系統等)系統日志數據描述SRE-Copilot 優勢系統復雜,
2、海量數據痛點SRE-Copilot傳統AIOPS數據無標注,訓練成本高接入,維護成本高無法解決未知故障交互使用成本高單個運維專家,甚至單個團隊難以掌握上下游全部知識,技術細節。也難以處理全部告警/異常大部分異常檢測算法需要依賴標注,無監督算法能力一般。根因診斷算法更加依賴標注。專家經驗很難編碼成算法模型維護門檻高,要完全理解每一個復雜模型,客戶的數據和系統都是私域的,需為客戶現場定制與優化,增加了接入成本。調整或接入新數據要重新訓練無法推理未知故障 交互復雜,需要嚴格傳遞參數等 大模型幾乎能學習人類全部知識。通過Multi-Agent以及知識庫可以無限擴展把專家經驗經驗轉化為故障表現,讓模型推
3、斷,無需訓練通過“混合專家模型”的集成學習概念,只需關注組件與模型,客戶自己的模型/邏輯也可以像樂高積木一樣輕松接入,靈活調整。甚至框架自己可以動態編排 LLM已經出現了涌現和推理能力,基于自己的通用知識,并且可以不斷學習領域知識進行推理,似乎是解決新故障根因定位的最佳選擇自然語言交互,更加智能,可以開放給更多用戶知識庫問答SRE-Copilot:基于function-call的多功能實現故障報告故障分類故障自愈+代碼生成工作流生成(運維計劃)運維可視化LLM優勢:收斂模型統一入口,理解、拆分用戶意圖,編排調用不同工具,實現多場景復雜智能運維,并持續學習迭代比賽效果展示采用與建行云堡壘機同一套
4、代碼復現 相近配置(8c16g顯卡Nvidia Tesla-v100)模型chatglm3-6bSRE-Copilot架構第二章節AI-Agent相關概念:Tool callingFunction calling是可靠地將LLMs連接到外部工具以實現有效的工具使用和與外部API的交互的能力?!敖裉焯鞖庠趺礃??”再智能的大模型對這個問題也束手無策AI-Agent相關概念:RAG檢索增強生成(Retrieval-Augmented Generation,又稱RAG)通過檢索LLMs之外的數據源來支持其生成答案。RAG=搜索+LLM提示,根據用戶的查詢要求,LLMs會使用搜索算法從外部數據源獲取上下
5、文信息,最后,查詢和檢索到的上下文合成后送入到LLM的提示中。私域知識“公司服務器的數量,線上的利用率是多少”“當前工單狀態是什么”新知識問題“今天有哪些故障?”“最新電影的主演是誰”長尾問題“使用XX語言在某環境如何連接XX數據庫”AI-Agent相關概念:Reason+Act ReAct是一種LLM提示和結果處理方法,它結合了推理、行動規劃和知識來源的整合,使LLM超越其語言模型,在其預測中使用來自現實世界的信息。ReAct是推理和行動的結合。當任務是多步,或者任務復雜結果充滿不確定時,react表現更好AI-Agent相關概念Agent智能體AI代理的整體框架由三個關鍵部分組成:大腦、感
6、知和行動。大腦:大腦主要由一個大型語言模型組成,不僅存儲知識和記憶,還承擔信息處理和決策功能,并能呈現推理和規劃過程以處理未知任務。感知:感知模塊的核心目的是將代理的感知空間從純文本領域擴展到包括文本、聽覺和視覺模態。行動:在代理的構建中,行動模塊接收大腦模塊發送的行動序列,并執行與環境交互的行動。代理(Agent)指能自主感知環境并采取行動實現目標的智能體。SRE-Copilot架構簡介SRE-Copilot是基于LLM的多場景智能運維框架,支持Multi-Agent協作與動態編排,具備計劃、記憶、反思、推理與ReAct等能力,為SRE提供智能化服務。參考GPT的思想,通過集成學習多個專業的
7、LLM的agent組成強大的混合專家(MoE,Mixture of Experts)系統。CopilotRCAAgent多源數據Agent:對各種數據源進行異常檢測,返回故障描述功能型Agent:知識庫問答,工作流規劃,寫報告,寫代碼等功能意圖識別,參數提取,將任務調度分配給合適的子AgentLogAgentTraceAgentTradeAgentMonitorAgentCMDBAgentQAAgentWorkflowAgentReportAgentCodeAgentSRE-Copilot技術細節第三章節角色定義Copilot主持人:解析用戶需求,制定運維Plan,安排不同Agent工作(如根
8、因定位交給RCA)多數據源Agent:分別負責不同模態的數據,選擇合適的算法進行異常檢測與檢索RCAAgent:收集其他Agent檢測到的異常信息與鏈路、配置信息,進行根因定位Multi-Agent編排ReAct包括推理Reasoning和行動Action,推理幫助模型生成、追蹤和更新計劃并處理異常,行動允許模型與外部環境交互以獲取更多信息Observation,提升準確率與適應性每個Agent均根據檢測到的異常動態編排,RCAAgent負責收斂協作輪次,并根據其他Agent反饋決定下一步分析與下鉆的方向優勢模擬真實云平臺跨組件協同定位,可以采用多個agent替代多個組件運維團隊主要運維能力:
9、異常檢測基于ReAct框架與思維鏈CoT的Multi-Agent編排主要運維能力:根因定位基于RAG增強的推理與反思本次故障持續10分鐘,CPU飆升,內存打滿,接口出現大量失敗專家經驗:內存打滿后服務一般不可用,此時應重啟專家經驗:歷史故障:2023年11月5日,xx接口不可用,持續半小時,CPU飆升向量數據庫歷史故障:根因:內存打滿建議:重啟Knowledge 本次故障專家經驗:專家經驗:歷史故障:Question大語言模型應用專家經驗 RAG檢索增強:檢索相關/支撐文檔,作為上下文和原始提示詞組合,再提交給LLM使用。LLM的知識是靜態的,且會有“幻覺”現象,RAG讓LLM不用重新訓練就能
10、獲取最新相關信息或者私域知識我們用RAG檢索最符合本次故障的Top N專家經驗,交由LLM進行根因定位學習新的故障每次診斷結果會加入模型記憶,再次診斷時對最相近專家經驗與診斷結果進行推理,讓模型獲得持續學習的能力 反思 Reflexion:通過讓模型進行自我評估和自我反省,能夠進一步提升模型推理根因的準確率30%以上 推理未知故障對于未發生過的,也沒有專家經驗的新故障,SRE-Copilot也會根據自己的知識,嘗試推理故障根因本次比賽本地化部署的模型為6B的小模型,但我們仍然在一些新故障上發現模型的推理能力,比如在沒有經驗和歷史的情況下,正確診斷出磁盤寫滿/GC等故障字節的實踐探索第四章節基于
11、LLM的RCA-Agent構建我們優先選擇了在根因診斷的場景中探索Agent的模式,期望能夠在日常的故障定位,oncall等場景降低SRE同學的負擔01知識庫的構建02基礎工具的構建03核心工具:LLM根因推理04工作流的構建05Agent的使用場景知識庫的構建知識庫當前包含以下三個部分,后續我們還會持續引入用戶文檔,歷史oncall等不同類型的數據1.排障的專家經驗這里是只針對根因定位場景,業務同學可以將他們的經驗積累&管理起來。我們定義專家經驗是一組故障根因,故障表現,以及故障止損措施的組合。以便大模型去推理故障2.故障場景的SOP文檔通過sop文檔的形式,希望能提供給組件同學更加靈活的知
12、識管理方式當前由于大模型的能力局限,我們通過這種半規范的文檔,將指標/診斷項,診斷流程等內容管理維護起來3.歷史的故障信息每一次的歷史故障,會被記錄下來,用來給組件同學“訓練”/打標模型?;A工具的構建參考openai的tools/gpts的接入方式,我們將運維場景的指標和其他基礎工具管理起來?;A工具包含幾類,例如指標通用的異常檢測,變更事件查詢,組件自定義的檢測項。用戶實際部署的工具包含通用指標的異常檢測,變更事件查詢,自然語言的意圖理解,大語言模型的根因推理1.一些集群診斷場景的指標一些集群診斷場景的指標 2.自定義的檢測項自定義的檢測項核心工具:LLM根因推理相較于傳統的根因定位/故障
13、分類 -將異常時刻的時序信息等進行編碼聚類,在向量空間里面求距離和相似度進行分類。我們嘗試對異常時刻的信息映射到自然語言描述,利用大語言模型的能力進行分類用戶可以調整專家經驗,結果,prompt模板等,對模型進行測試展示了一個將診斷記錄和專家經驗整合的例子工作流的構建目前仍然依賴用戶自己配置同時在探索讓模型自己從用戶的SOP文檔中生成工作流未來期望可以利用ReAct的思路動態編排這些診斷項根據上述提到的基礎工具,用戶可以自由組合這個工作流Agent的應用與調試1.在群里/私聊機器人,用自然語言提問,會匹配你想要的工作流當前的一些使用場景12.事故拉群等場景自動匹配工作流,對聊天記錄里的關鍵信息提取,進行診斷當前的一些使用場景2通過引入了LLM,改變了傳統的交互方式甚至可以通過模糊地提問,識別意圖和參數。并將結果優化展示后返回未來展望第五章節1.更智能的大模型隨著大語言模型的發展,可以期待越來越智能的通用大模型3.