《A1--白瀟--螞蟻集團基于LLM的SRE智能體落地實踐.pdf》由會員分享,可在線閱讀,更多相關《A1--白瀟--螞蟻集團基于LLM的SRE智能體落地實踐.pdf(39頁珍藏版)》請在三個皮匠報告上搜索。
1、螞蟻集團基于LLM的SRE智能體落地實踐白瀟(白想)螞蟻集團白瀟(白想)螞蟻集團螞蟻集團平臺工程與技術風險部技術專家,目前主要負責螞蟻集團DevOps和LLM交叉領域的探索和實踐落地。通過OpsGPT大模型和SRE Agent/平臺工程Agent等技術方案的工程落地,實現對SRE團隊的賦能提效,以創新技術保障螞蟻集團支付寶、財富保險、國際科技等多個產品的高可用和穩定性。想也是白想,要做ReAct 是 由 Google Research Brain Team 在 ReAct:Synergizing Reasoning And Actiong In Language Models 論文中提出。在
2、ReAct 工作之前,大家往往將大模型的推理能力和行為決策能力分開進行研究。而ReAct 首次在語言模型中將推理和行為決策緊密結合起來,使得語言模型的推理能力能夠根據知識進行計劃安排,行為決策能夠與外界工具進行交互。目錄C O N T E N T S1.SRE智能體背景&目標2.SRE智能體構建思路3.SRE智能體實踐效果4.SRE智能體展望5.SRE智能體開源SRE智能體背景&目標01SRE工作體系監控告警應急響應故障排查故障復盤SOP梳理運維任務工單接手事項處理手冊編寫SOP調試SOP沉淀新的開始經驗沉淀應急工作日常工作SRE需要什么樣的智能體助手?我們團隊負責的業務報警了,如何應急排查?
3、我們平臺有新的用戶咨詢了,如何處理工單?DevOps平臺xx功能如何使用?平臺DevOps經驗團隊業務經驗報警:xx業務下跌80%!SRE日常工作應急工作SRE智能體的特殊性OpenAILLM Powered Autonomous Agents提出 AI Agent=LLM+記憶+規劃技能+工具使用,給出了大致的Agents系統組成。SRE領域的智能體對穩定規劃、消除幻覺、安全執行有極高要求,需要對Tool Use、Memory、Planning等相關模塊做最大程度的架構設計和優化改造。復盤文檔應急事件Tool UseEKG PlanCloud EnvSRE智能體構建思路02技術演進體系 如何
4、構建SRE智能體Planning(CoT/ReAct)FunctioncallingCodeinterpreterKnowledgeretrialThreadingPlanning(Think on Graph)Tool+Code+RAGOpsCoresession/task模型側工程側產品側OpsGPT-EKG圖譜游走并發調度異步回調參數反問應急多步推理應急流程咨詢OpsGPT-Tool權限可控執行可控參數可控評測體系一鍵接入oneapiCodeFuse沙箱安全代碼hack代碼修復附件管理一鍵上傳多種格式OpsGPT-RAG文檔爬取文本分段向量召回multi-index一鍵導入自動更新All
5、 ToolsPrompt管理Profile生成權限管理OpenAPI體系一鍵創建極簡模式加工程度加深AI AgentSRE智能體關鍵技術 Code+用戶query數據獲取意圖識別代碼生成代碼hijack代碼執行結果處理關鍵技術 Code+做快速診斷代碼生成代碼hijack代碼執行import jsondef analysis():monitorData=json.loads(monitorData)for md in monitorData:#數值大于500for x in mddata:if xcount=500:return Truereturn Falseif analysis():pr
6、int(是)else:print(否)用戶query判斷監控XXXX告警時刻有XXXX開頭的熱點賬戶的數值是否大于500;如果是,則輸出是。如果不是,則輸出否;如果函數返回里面不存在賬戶和數值信息,則輸出否。使用Code+寫代碼分析。monitorData的具體值查詢監控XXXX的Tool關鍵技術 Tool+OneAPI一鍵錄入對外API集成LLM友好的Tool信息管理Embedding訓練增強OpsGPT ToolModelTool SpecPrompt Manage開源 FuncCallModel對抗評測報告權限加固接口填參準確率注冊執行準確率評測單Tool評測多Tool選擇單Tool評測
7、多Tool單步評測多步任務拆解多Tool單步評測多Tool多步評測執行統一ExecutorHttp協議RPC協議Serverless權限管控錄入權限管控審批流程處理執行態管控可信執行環境用戶query改寫多輪信息獲取Embed/LLM召回Tool Model填參參數校驗關鍵技術 記憶組件記憶類型AI AgentSRE智能體Sensory Memory作為一種直觀的反映,體現在LLM的token prediction里面。通過微調風險領域的OpsGPT大模型增強Ops業務的理解。Short Term Memory為Agent提供工作記憶,在一個任務流中串聯任務上下文和多步工具決策。SRE智能體專
8、屬工作流程的上下文,比如一次應急事件的報警-協同-定位-止血-恢復的全生命周期。Long Term Memory為Agent提供長期記憶積累,能記憶用戶偏好和工作習慣,使得Agent在過程中越來越了解用戶,成為值得信賴的工作伙伴。一般使用向量數據庫作為承載。SRE智能體對于應急機制的經驗沉淀,對應急事件進行復盤,逐漸積累應急過程的最佳SOP。我們使用知識圖譜作為承載。關鍵技術 多步推理Planner復雜多步推理實踐下來,通過定制微調可以解決單步驟任務、單步驟工具使用,但實際現實中的場景是復雜多步驟的,面向專業領域,LLM只能給出泛泛而談的答案。面向C端用戶可能沒有問題,但是面向B/P端專業場景
9、沒有用處,尤其是Ops這種嚴謹、專業、私有領域。LLM只能逐步協助人來解決問題 OR 智能體能實際解決問題,核心在于Planner。嚴謹:邏輯嚴謹,容錯率低專業:專業領域,過程追溯私有:知識私有,環境私有PlannerMemoryTool Use多步推理 Eventic Knowledge Graph運維應急變更容量壓測核對活動容量日常容量應急容量活動前機器查詢活動后機器查詢CPU%水位查詢當前資源水位判斷資源水位正常資源水位偏低不執行縮容縮容機器數評估機器縮容資源回收資源擴容張三容量管家場景意圖事件流程組織關系多步推理 EKG推理調度Thread 0QueryTool UsePlannerT
10、hread 1IntentionTool UsePlannerThread 2IntentionTool UsePlannerThread 3TaskGraphMemoryEKG PlannerReAct Plannerplan1Plan1.1Plan1.2并發多線程調度IntentionIntentionIntentionIntentionIntentioncontextroute historytool historythoughtactionobservationVS多步推理 模型前置優化ToolSelectParamfillTool Use(Tool+)ToolExecuteSumma
11、rySelectLLMGPUParamLLMGPU模型前置API鑒權APIServerCPUCPUToolSelectCodeGenTool Use(Code+)CodeExecuteSummarySelectLLMGPUCodeLLMGPU模型前置RunSC安全容器PythonSandboxCPUCPUIntention:查監控xxxIntention:分析監控xxx錯誤碼分布用戶界面模型前置:盡量將模型概率(GPU計算)控制在調試階段。固化之后,在運行階段減少計算量和耗時冰山下面多步推理 EKG構建應急經驗沉淀文檔結構事理圖譜數據多源原始數據數據加工處理結構知識提取結構知識融合結構知識存儲
12、通過定義一次應急事件的智能復盤流程,挖掘應急用戶動線并推薦步驟,規范SRE的應急沉淀過程,并逐步提升內容的智能化占比,將應急復盤工作量減輕80%。再通過基于LLM的知識提取方式,利用Text2Graph技術,將沉淀下來的智能文檔轉換為Knowledge Graph中的節點和應急SOP,過程中輔以Diagnose調試技術縮短轉換和調試的成本??梢暰庉嫏嘞薰芸貞眲泳€推薦動線推薦完整方案設計 SRE智能體構建動線數據LLM信息推薦復盤文檔LLM信息抽取預置EKG(Alpha)OpsGPT-EKG(Beta)預置RAG(Alpha)預置Tool(Alpha)OpsGPT-RAG(Beta)OpsGP
13、T-Tool(Beta)團隊文檔轉換團隊工具注冊OpsGPT-EKG(GA)評測數據OpsGPT-RAG(GA)OpsGPT-Tool(GA)評測數據評測數據AgentBasicAgentProAgentBenchData proxy監控查詢記錄變更操作記錄日志查詢記錄xx動線記錄平臺自動評測用戶自主評測接口觸發評測OpsGPT-EKG(Release)RAGToolCodeWeb頁發布釘釘發布OpenAPI發布AgentReleaseSRE團隊智能體極簡模式解決30%高階模式解決60%評測管理解決10%+=SRE智能體Release應急經驗沉淀數據工程text2graphSRE智能體實踐效果
14、03Tool+一鍵接入易于注冊方便調試評測報告Tool+日常工作場景Tool+高危工作場景二次確認針對SQL查詢場景,可以二次編輯針對高危場景,可以人工確認高危確認應急經驗沉淀產品落地中考慮Product-Model-Fit通過Multi Agent接力實現完整產品從 文檔 到 知識SRE智能體構建演示SRE智能體使用演示EKG流程咨詢-回顧SRE智能體展望04SRE數字員工新增應急復盤文檔存量應急復盤文檔SRE團隊知識圖譜應急沉淀推薦執行Tool覆蓋AI交互用戶反饋沉淀Agent(user-proxy)執行Agent(EKG多步推理)全局風險知識圖譜用戶動線子圖融合自愈平臺Agent資金平臺
15、AgentPaaS平臺Agentxx平臺Agent任務派發SRE團隊智能體SRE平臺智能體SRE數字員工聯合推理并行處理SRE智能體開源05開源項目介紹muAgent-“點石成金”智能畫布全新體驗的Agent框架,基于LLM+EKG(Eventic Knowledge Graph行業知識承載)驅動,協同MultiAgent、FunctionCall、CodeInterpreter等技術,通過畫布式拖拽、輕文字編寫,讓大模型在人的經驗指導下幫助你實現各類復雜SOP流程。兼容現有市面各類Agent框架,同時可實現復雜推理、在線協同、人工交互、知識即用四大核心差異技術功能https:/ 推進中,待開源感謝聆聽關注公眾號