《左金虎-《大語言模型賦能開啟運維新篇章—中國移動IT運維大模型落地實踐》.pdf》由會員分享,可在線閱讀,更多相關《左金虎-《大語言模型賦能開啟運維新篇章—中國移動IT運維大模型落地實踐》.pdf(12頁珍藏版)》請在三個皮匠報告上搜索。
1、中國信息通信研究院左金虎中國移動信息技術中心/架構師個人介紹:中國移動信息技術中心架構師,中國移動“十百千”高級專家,長期從事運營商領域業務支撐系統架構云化、容器化等技術的演進研究及AIOps建設運營研究工作中國信息通信研究院大語言模型賦能,開啟運維新篇章中國移動IT運維大模型落地實踐演講嘉賓:左金虎中國信息通信研究院The Society of Mind“然而當時的計算機語言不足以描述智能體之間的交互”“The Society of Mind”心智社會理論,1986 人工智能是一個由多個agent(智能代理)組成的社會;每個agent有特定的身份,協同運作解決問題;多個agent的合作實現的
2、效果遠超出單個agent的效果;“當代人工智能之父”馬文 明斯基中國信息通信研究院大模型在智能運維上的探索中國信息通信研究院循環執行2-任務規劃3-API選擇5-結果觀察4-API調用6-生成反饋AGENT,讓大模型超越思考,解鎖運維操作當前AGENT聚合了大量了的運維工具用于配合運維人員要求完成對應的運維操作,基于運維工作需求,模擬運維人員的工作模式,結合COT技術提出大模型運維應用開發范式,讓會”做事”。LLMAPI自主AI AgentAPI 1API 2API 3系統告警API平臺(大量的包含Schema的API集合)1.先檢查網絡情況,確認網絡狀態;2.再確認分布式服務控制組件狀態是否
3、正常3.任務規劃服務節點狀態異常,建議1.平臺拉起薪節點接管流量2.當前節點重啟3重啟完畢后接入結論輸出服務節點的狀態檢查完畢,可能問題是由于XX進程掛死,報錯日志是.重啟后服務超時問題不再出現效果達到預期自主思考工具箱健康度檢查API組件狀態檢查API節點重啟API節點檢查API服務監控APIAGENT開發范式AGENT決策:感知、計劃、行動1-任務指令故障發生,服務超時生成反饋任務規劃API篩選/分配任務執行結果生成Agent工作流程分為四個階段:中國信息通信研究院Agent演進規劃大語言模型之所以能在運維領域發揮應用價值,關鍵點在于Agent能自主理解、規劃決策、執行復雜任務,可以代替運
4、維專家使用工具完成運維任務,基于大模型范式,規劃了AGENT發展的三個階段,通過持續對Agent能力進行演進,讓AGENT成為專業的運維專家?!叭祟愔允侨祟?,因為他會使用工具?!毙⊥獳I告警查詢API服務成功率查詢API故障定界模板輸出API簡單任務代理(一階段)復雜任務代理(二階段)自主任務代理(遠期)簡單運維任務 無法自動分析問題細節 模板化回答 有限領域運維場景 輔助專家運維 復雜運維任務 多輪問答明確客戶訴求 大模型思考回答 更豐富的運維場景 輔助一線運維 多模態觀測數據分析+復雜運維任務執行 流程無須人員介入實操 運維團隊更多負責監管與跨組織協同 完整的運維場景覆蓋 AI驅動運維
5、小瞳AI“系統有故障嗎?”“系統存在12個告警,服務存活率97%.”“檢查系統異?!毙⊥獳I觀察與監督“您問的是哪個系統?”能力調用規劃并調度執行小瞳AI深瞳運維能力引擎“經過分析,故障誘因為Redis部分實例僵死,建議重啟Redis集群,授權操作請回復授權碼?!鄙钔\維能力引擎自我驅動規劃調度執行“故障處理完了嗎?”“業務成功率下滑,小瞳已介入排查!”多模態數據觀測中國信息通信研究院AGENT能力進階技術SAASDatabaseK8SRedisHardwareOpenStack目前AGENT僅能代替一個普通的運維人員,但是無法代替運維專家進行復雜運維任務的解決方案規劃和思考,我們規劃通過強化
6、運維領域AGENT訓練構建運維排障樹思維,在后續階段打造運維專家級別AGENT。訓練設置任務推導自生成指令AgentLMAgentTuningAgentInstruct普通指令GBase資源登錄異常Trajectory 1Thought:我首先要查出GBase資源的所有用戶,然后 Action:SHOW USERS;Reward:0.0 XTrajectory 2Thought:我首先查看所有異常的登錄日志Action:query_login_resource(system=“GBase”)Reward:1.0 InstructionGeneration故障搶通故障影響范圍故障定位及處置建議參
7、考:AgentTuning:Enableing Ceneralized Agent Abilities for LLMs(https:/arxiv.org/abs/2310.12823)中國信息通信研究院智能運維愿景展望中國信息通信研究院The society of OPS(智慧運維社會)中國移動豐富的大型IT運維場景。其自研的大模型智能運維產品已落地多家單位。中國移動與復旦大學合作開展Agent-Tuning模型訓練,打造具備運維排障思維樹的基座大模型。Agent能力(社會成員)中國移動與復旦大學就運維大模型前瞻技術研究開展深度合作,推進智慧代理社會組織調度理論在運維領域的技術實現,攻關Us
8、er Proxy Agent、Conversational Agent等關鍵技術。Agent協同機制(社會制度)信通院發揮IT行業引領優勢,與中國移動合作搭建聯合創新合作平臺。協同信通院,與合作伙伴們一同構建規范化標準化的智能體聯動生態。Agent共創平臺(社會生態)L1(Tool)L2(ChatBot)L3(Copilot)L4(Agent)L5(Intelligence)Cache-Agent:檢查到有4%的Redis響應較慢,正在分析各項指標DB-Agent:數據庫響應在預期內,無顯著波動。已啟動巡檢,做進一步分析SaaS-Agent:套餐變更(營業廳)、套餐變更(掌廳)等7項業務指標嚴重下滑,已啟動全域Agent自檢。Cust-Agent:1分鐘前,套餐變更等多項業務,客戶已有感知。初步判斷為Prod集群實例僵死,已銷毀重啟。正在進一步分析中K8S-Agent:PROD中心集群ads82d-14dss22a等13個實例響應時長下滑嚴重,已銷毀實例,新實例啟動中IaaS-Agent:主機各項指標正常,網絡自檢中.接手人類工作,AI自主拆解目標,選擇并使用工具完成工作并與人類通信。人類監督下完成明確任務,AI實現目標后結束工作。中國信息通信研究院讓AI不僅會“作詩”更要會“做事”中國信息通信研究院感 謝 聆 聽中國信息通信研究院