《喬彥輝-大模型在華為云數字化運維的全面探索和實踐.pdf》由會員分享,可在線閱讀,更多相關《喬彥輝-大模型在華為云數字化運維的全面探索和實踐.pdf(26頁珍藏版)》請在三個皮匠報告上搜索。
1、大模型在華為云數字化運維大模型在華為云數字化運維的全面探索和實踐的全面探索和實踐演講人:喬彥輝目 錄01華為云智能運維發展之路02大模型使能運維規劃03運維大模型難點和解法04總結和規劃01華為云智能運維發展路線從單點,到復雜,再到自動化華為云AIOps發展之路-從單點,到復雜,再到自動化智能運維場景日志模版分析(2018)云服務單指標異常檢測(2019)告警智能壓縮(2019)網絡多級異常檢測(2020)硬件故障預測(2021)變更命令分級智能識別(2023)變更人員匹配度評估(2023)安全生產自動稽查(2023)變更風控駕駛艙(2023)串并聯智能運維,可視,可決策,可執行(2021-2
2、023)大模型使能運維,LLM+運維Copilot(2024)單場景智能運維,傳統ML算法(2018-2020)智能運維架構運維數據自然語言問答,運維信息查詢運維知識檢索故障自動總結故障案例推薦運維數據運維算法算法服務分析報表運維智能決策運維算法運維數據數據服務運維智能決策運維小模型運維數據運維大模型運維Copilot分析報表數據服務運維決策服務KPI,告警,日志KPI,告警,日志變更數據運維人員流程數據運維語料運維私有知識庫運維決策服務02大模型使能運維總體規劃聚焦高價值高門檻高人力場景,面向長期規劃大模型使能運維業務規劃:聚焦2條核心價值流,全面輔助運維人效提升場景WR故障處理流水線階段起
3、會故障通報影響評估故障定界故障恢復恢復驗證故障復盤痛點重復故障拉取通報內容生成繁瑣,涉及大量人力影響面評估難:依賴少部分人人工查看監控、告警系統查詢信息,效率低人工確認多個服務的恢復進展故障信息多處,人工總結耗時高機會點相似性識別:基于文本相似WR自動化判重內容生成:通過AI生成通報內容生成,并由值班經理確認后發布NL2Query:提供統一對話式查詢能力NL2Query:提供對話式查詢能力、支持查詢告警,監控指標,變更、事件等信息相似故障信息推薦:故障預案推薦NL2Query:結合恢復步驟檢測各云服務恢復情況內容生成:自動生成故障復盤報告場景事件單處理流水線階段事件受理事件分流事件解決案例總結
4、痛點定級不合理:事件單定級不合理,需要重新溝通確認定級分流不合理:針對事件描述和客戶實際訴求反復溝通,信息分流復雜度高解決方案覆蓋率和準確率低,且消費難:資料分散、缺少工具快速管理和檢索知識案例沒時間總結:案例書寫耗時,質量和數量難以兼顧機會點智能分級:根據用戶反饋結合大模型進行分級建議智能派單:根據派單規則和算法實現智能派單解決方案生成:檢索知識庫自動=生成解決方案案例生成:基于事件單自動生成案例TOP需求問答式運維信息查詢故障預案推薦運維知識檢索事件解決方案生成聚焦高門檻,高價值,高人力場景,擁抱大模型提升運維人效故障處理:2000+,平均參與人數10+(非自愈)事件處理:10000+,月
5、均參與人:200+故障信息總結生成構建運維盤古助手,聚焦運維人效提升,打造智能運維新高地多觸點構建:構建運維助手多種觸點模式,全面輔助運維場景,支持web,WeLink機器人和運維工具系統集成運維Copilot Stack :構建運維Copilot能力集,實現端到端運維對話,意圖理解,Agent和Tools建設,和運維大模型集成,實現運維大語言模型端到端構建;運維大小模型協同計算:小模型聚焦確定性量化分析,大模型注重內容理解和生成高質量運維知識語料中心:圍繞運維知識數據收集,知識規范,知識管理和運維語料標注全面建設2143 定位:沉淀大模型使能運維標準方案,建設全面輔助問答交互能力,打造運維副
6、駕駛AI Core多輪意圖理解模型故障智能根因算法意圖識別小模型Sop文檔風險評估算法盤古大模型場景模型微調運維提示詞工程RAG運維Copilot Stack意圖識別運維場景路由意圖增強運維內容檢索運維信息查詢故障根因推薦故障報告生成變更命令評估sop文檔評估運維Skill運維信息查詢Agent故障報告生成Agent故障根因推薦Agent變更評估Agent運維大小模型集成Cloud Copilot 框架Skill Builder數據管理模型管理運維知識語料中心運維“小”模型-確定性量化運維“大”模型-內容理解和生成運維大小模型協同計算獨立Web端WeLink機器人運維工具系統集成運維盤古助手-
7、多觸點構建流程規范云服務故障模式庫云服務故障預案庫故障回溯報告運維對話語料事件案例1234故障分析根因診斷預案推薦事件規范WR規范變更規范查監控指標查告警查日志查事件查資源查關系故障處理方案生成事件處理運維知識檢索運維信息查詢大模型輔助運維子場景03運維大模型應用難點和解法圍繞語料,知識,意圖理解和復雜決策以及新交互實現大模型應用運維的確定性圍繞運維大模型4大難點,構建6大方案4大難點:語料少,知識質量差大模型幻覺大模型邏輯推理難業務應用難,見效慢6大方案:運維語料數據增強全流程知識治理確定性運維意圖理解增強RAG實踐基于確定性決策實現大小模型協同故障診斷方案多觸點集成方案,提升業務生產力華為
8、云運維助手端到端鏈路流程運維助手運維操作類服務大模型結果知識類回復操作類回復客戶問答模型作答結果任務匹配標準答案分發結果接入端Skill編排層數據層知識管理切片產品文檔標準問答對知識管理向量化向量索引庫模型管理知識訓練管理模型層知識完整度路由分發中控問題改寫意圖分發(意圖理解路由)意圖路由分發糾錯標準術語轉換多輪改寫意圖理解準確率標注平臺意圖理解標注知識完備度標注知識檢索標注模型作答標注知識增強檢索RAG搜索召回精排模型作答高頻語料匹配標準問答對模型訓練模型部署知識答準率知識檢索前改寫語料管理運維語料數據語料收集生成評測優化運維語料數據增強:采用大模型合成數據和語料的持續迭代實現語料數據增強效
9、果:1 1個月完成運維領域10+10+運維語料數據集的建設,語料質量80%80%關鍵點二:采用大模型合成數據快速構建語料數據運維語料生產過程故障處理報告原始語料數據集真實事件檢索行為收集業務人員模擬問答通過提示詞模版生成語料增強運維語料數據集真實問答冷啟動階段語料訓練問答意圖識別真實語料意圖標注分析意識別圖模型評估意圖語料數據集修正符合預期真實應用階段關鍵點一:圍繞運維實際活動構建冷啟動原始語料集,確保使用真實性和有效性關鍵點三:構建真實語料意圖標注能力,持續進行運維語料的有效治理面臨的問題:1 獲取語料難:原始真實語料少,如何獲取真實問答語料2 真實語料少:冷啟動階段運維語料少3 運維語料持
10、續治理難:運維語料數據配比和有效性證偽難全流程運維知識治理:確定運維知識地圖,明確職責邊界,統一知識管理和存儲,構建知識消費運營體系關鍵點一:確定知識地圖關鍵點二:明確知識Owner和知識責任人事件管理流程WR運作規范事件通報規范應急預案管理規范案例庫通用流程/規范/指導書產品介紹文檔關鍵點三:統一知識管理和存儲關鍵點四:知識消費治理云服務事件解決方案案例庫云服務產品說明文檔知識Owner1、制定領域知識管理流程和內容規范2、領域知識的生命周期管理(更新、整合、下架等)知識責任人1、負責知識的產生與更新,對知識投稿評審確認。2、及時響應知識糾錯、問題與需求。知識產生知識審核知識創建知識發布知識
11、發布知識應用知識推薦知識搜索知識運營統計分析知識權限智能問答知識數據管理產品信息分類信息區域信息問題監控切片產品文檔知識管理向量化向量索引庫(知識湖)關鍵詞搜索向量搜索運維流程規范倒排索引庫(知識湖)故障預案事件案例知識解析多種格式:DocxPptxXlsx資料索引RAG搜索召回精排模型作答用戶原始問題問題通用改寫知識檢索BadCase集無知識知識覆蓋率【補知識】有知識知識檢索準確率【提效果】自動標注面臨的問題:華為云運維領域涉及多種知識:流程規范知識,產品使用知識,內部案例wiki,知識治理和消費難如何選擇知識?如何治理知識?如何管理知識?如何消費知識?效果:圍繞事件知識,運維流程規范知識和
12、產品知識,達成知識完整度:90%90%,知識準確率:85+%85+%確定性運維意圖理解:多層路由,結合大小模型構建運維多場景智能問答意圖識別能力意圖識別層通用embedding意圖相似匹配分類算法查詢變更語料集查詢告警語料集查詢指標語料集查詢拓撲語料集知識問答運維skill問答提示詞工程-知識問答or操作判斷盤古大模型作答運維通用意圖識別層意圖路由層事件知識問答Agent故障處理Agent默認Agent查詢變更查詢告警能力執行層指定式路由層智能意圖路由層關鍵點一:多層路由,簡化多場景運維意圖識別運維私域知識檢索skill意圖糾偏模塊意圖改寫關鍵字/正則相似意圖精確匹配模糊意圖分類模型槽位提取模
13、塊基于提示詞參數提取基于算法提取知識問答糾偏運維skill糾偏意圖糾偏層公域知識檢索關鍵點二:結合文本相似分類小模型和大模型實現意圖的快速分類路由面臨的問題:運維助手覆蓋20+意圖類別,新增意圖周級迭代1 精確控制意圖分類?2 解決大模型意圖識別幻覺?效果:意圖識別準確率從65%65%提升至80%+80%+關鍵點三:構建意圖糾偏層,結合BadCase實現小概率錯誤的意圖精準糾偏案例:結合分層意圖路由,支持20+高頻運維指令查詢查詢告警查詢監控指標查詢變更單查詢交換機設備全棧拓撲增強RAG實踐:從知識問答改寫到多路知識檢索全面提升意圖改寫層檢索層切片產品文檔知識管理向量化向量索引庫(知識湖)向量
14、搜索運維流程規范倒排索引庫(知識湖)故障預案事件案例知識解析多種格式:DocxPptxXlsxRAG搜索召回精排模型作答事件咨詢問題標準化事件問題分類故障咨詢類信息咨詢類協助操作類基于prompt進行關鍵信息抽取基于prompt構建問題分類器問答對問答對召回問答對向量故障咨詢類RAG信息查詢類RAG協助操作類RAG向量搜索數據層關鍵點一:結合提示詞工程實現問題標準化和分類改寫,明確檢索意圖關鍵點二:結合問答對,向量檢索和關鍵詞檢索實現多路由檢索提升檢索準確率關鍵詞搜索用戶問答面臨的問題:事件咨詢問題提問不精確,意圖缺失,影響知識檢索的有效性,多種知識相互干擾,回答存在幻覺問題1 如何理解真實知
15、識問題?2 多種知識提升檢索有效性?案例:面向事件信息事前自動提取問題概要,事后多路檢索提升大模型檢索準確率云主機被釋放了,但是沒有通知,不應該是現在被釋放?原始事件單信息意圖改寫后結果為什么云主機被釋放?大模型生成結果效果:問題理解準確率:50%+50%+提升至80%+80%+,AIAI答準率:30%+30%+提升至70%+70%+云主機釋放之后,如果快速恢復服務?云主機被釋放沒有通知原因是什么?如何預防云主機被意外釋放?大模型可能理解的意圖基于確定性編排構建大小模型協同的故障分析方案請分析一下告警XX的根因有哪些?步驟處理列表:【查告警】:告警ID【診斷模型路由】:數據庫【數據庫診斷】:告
16、警ID【根因問題改寫】:可疑根因生成故障分析步驟關鍵點一:借助COT,結合故障案例,確定故障分析步驟數據庫故障診斷小模型/分布式消息診斷小模型故障預案RAG檢索查告警診斷路由查日志查指標查告警關鍵點二:結合編排框架,實現執行鏈的確定性編排,降低復雜任務的推理和決策難度故障診斷總結查變更關鍵點三:組合故障大小模型,小模型精確診斷定界,大模型確定預案推薦和總結告警關聯分析拓撲根因定界根因定位智能告警壓縮算法知識圖譜KPI異常檢測算法KPI關聯分析算法故障決策樹故障匹配推薦面臨的問題:故障診斷涉及多種監控數據查詢,異常檢測,根因聚類定界,故障報告總結等多個環節,傳統大模型難以構建復雜推理決策能力1
17、大模型如何端到端解決運維復雜任務?歷史案例:請根據以下參考的故障案例生成故障處理步驟。故障案例:名稱故障現象:告警事件故障處理步驟如下:步驟1:查詢告警信息步驟2:基于告警信息確定診斷模型:云服務RDS場景,診斷模型:數據庫診斷 云服務ECS,診斷模型:服務器診斷步驟3:基于2的結果,確定診斷模型函數案例:結合編排框架實現運維故障總結分析概要自動實現多種信息內容聚合生成 關聯告警:XX 變更信息:XX 告警信息:XX 客戶保障:XX 綜合分析結論:XX多端觸點集成,實現運維助手全場景覆蓋,改變用戶交互行為工作群:智能答疑機器人運維助手模式三:統一運維助手Web端,新交互運維助手:查詢變更列表模
18、式一:流程嵌入,運維助手無縫融合統一運維助手Web端運維工具界面運維助手運維工具界面流程集成大模型模式二:副操作界面,Copilot輔助運維工具界面面臨的問題:運維助手使用頻次低,用戶習慣難以改變1 大模型如何融入運維流程,提升運維生產力?效果:運維使用人群整體覆蓋率達成30%30%,整體運維人效提升20%+20%+改變交互行為,提高運維生產力案例:模式一,深度融合運維工具鏈路,實現大模型問答無縫集成應用事件解決方案融入事件處理作業流,,進入處理界面自動生成推薦解決方案信息自動填充事件工單案例:模式二,運維工具和運維助手大小屏聯動分析,左屏可視,右屏輔助查詢分析指令輔助網絡設備查詢丟包率,錯包
19、率左屏做全局故障信息可視感知右屏作為輔助分析指令查詢左右屏聯動分析,降低跨端跨產品交互05總結和未來規劃結合人機協同,基于LLM和AI Agent構建運維數字助理驅動運維智能化演進總結和趨勢趨勢:業務演進:運維大模型使能三階段,輔助運維-運維工作流集成-運維數字助理算法架構:運維大小模型協同將是未來運維算法架構的常態未來技術:從自動化運維走向無人化運維,核心需要實現人機協同技術和AI Agent技術的集成應用總結:大模型使能運維重點圍繞提升運維生產力為主:選擇高門檻,高人力,高價值點場景大模型加速智能運維快速走向下一個階段,運維助手將改變運維的交互模式,從而真實實現從自動化運維走向無人化運維大
20、模型只是一個算法手段,降低模型應用的復雜度,但面向運維場景應用需要構建從知識語料運維大小模型算法調優編排框架Copilot Stack產品集成應用數據化運營端到端構建未來規劃:基于大語言模型和人機協同技術,構建運維智能中樞決策引擎,驅動運維無人化變革運維全面人效提升-打造人機協同運維副駕駛運維實時數據服務架構依賴網絡流量路徑租戶資源拓撲運維智能分析決策引擎-人運維多智能體協同處理引擎-機運維關系數據運維離線數據云超系統運維孿生數據底座監控系統數據變更系統數據指標異常檢測算法指標趨勢預測算法告警壓縮算法根因分析算法變更異常檢測算法高危命令檢測算法華為云盤古大模型運維專業領域小模型運維大模型華為云
21、行業大模型時序指標大模型日志大模型告警大模型事件大模型運維知識數據運維語料數據2運維Skill執行Action監控API變更API3 運維計劃管理Planning5 運維向量數據庫+大模型應用PROMPTRAG1 運維意圖理解和記憶 Memory4 運維Tool API大小模型協同計算運維孿生數據智能算法分析決策監控指標數據變更指標數據運維大腦-運維智能中樞決策引擎運維決策Agent故障處理Agent事件Agent變更Agent運維知識Agent運維信息查詢Agent3運維決策計算運維統一數據接入運維決策編排故障診斷規則變更評估規則站點風控規則運維數倉運維資源畫像監控數據畫像變更數據畫像運維管控數據畫像全域集成多源融合統一建模運維數字助理感知-決策-執行故障處理事件處理變更處理日常運營21人工決策+智能體(人+機)THANKS大模型正在重新定義軟件Large Language Model Is Redefining The Software