郭紅科-阿里云服務器智能異常調度系統及LLMOPS構建與實踐.pdf

編號:182427 PDF 27頁 4.78MB 下載積分:VIP專享
下載報告請您先登錄!

郭紅科-阿里云服務器智能異常調度系統及LLMOPS構建與實踐.pdf

1、阿里云服務器智能異常調度系統及LLM OPS構建與實踐郭紅科 阿里云演講嘉賓郭紅科阿里云 高級開發工程師畢業于大連理工,一直從事AIOps領域相關工作,專注于日志異常檢測、指標異常檢測和根因定位等多個方向。21年加入阿里云ECS異常調度,致力于探究并實現人工智能技術在云計算場景下的創新應用,具有在ECS變更攔截、實時批量風險檢測以及ECS性能診斷等關鍵場景中實現有效解決方案的實戰經驗。目 錄CONTENTS1.阿里云智能異常調度系統介紹2.大模型時代對AIOps行業的革新影響3.ECS智能運維在LLM OPS下的創新實踐4.總結&展望阿里云智能異常調度體系介紹PART 01異常調度復雜性500

2、0+集群1,000,000+設備 100,000,000+部件(CPUs,disks etc.)g8 通用型c8 計算型r8 內存型g6 通用型c6 計算型ARM計算gn7 GPUf5 FPGAgn6 GPUf3 FPGA異構計算EBM 彈性裸金屬(神龍)SCC 超級計算集群裸金屬&高性能計算g8 通用型X86計算c8 計算型r8 內存型g7 通用型c7 計算型r7 內存型sn2ne 通用網絡增強sn1ne 計算網絡增強se1ne 內存網絡增強re7 內存增強hfc7 高主頻計算型i4 本地SSD型d3大數據型hfg7 高主頻通用型d2大數據型hfr7 高主頻內存型d1ne大數據型i3 本地S

3、SD型數據庫web服務器高性能計算深度學習智能體系架構圖智能體系落地方法論 面向平臺 錦上添花 指標異常檢測 日志模式聚類 關聯關系發掘 橫向縱向 面向業務 雪中送炭 變更攔截 工單分類 性能診斷 大模型時代對AIOps行業的革新影響PART 02AIOps?MLOps?LLMOps?定義關鍵代表AIOpsAIOps是結合大數據和機器學習技術,去自動化IT運維過程,包括事件關聯、異常檢測和因果關系確定AI for Ops阿里云、必示MLOpsMLOps是設計、構建、啟用和支持在生產中高效部署ML模型的過程和實踐,以持續改進業務活動Ops for ML阿里云PAI、魔搭社區、Hugging Fa

4、ceLLMOpsLLMOps的意思是面向LLM的MLOpsOps for LLM阿里云PAI魔搭社區、Hugging FaceLLM for OpsAIOpsLLM OPS的行業的可能性道、法、術、器、勢志模式提取 Prompt請對輸入的log message進行模式提取,綜合考慮日志文本,保留日志中的頻繁信息,使用placeholder形式替換模式中的變量,Log messages:your messagesPattern results:輸出日志模式請對給出一段時序序列,序列等距排列,請分析序列,找出其中可能的異常波動,波動的類型有突增、趨勢上升等,請給出判斷結果和異常趨勢開始位置,下面是

5、一些例子:序列:1,2,3,5,6,7,8結果:趨勢上升,0序列:1,2,3,2,2,3,9結果:突增,6序列:series結果:判斷結果指標異常檢測 Prompt通義千問百川智能Meta Llama通模型通用模型通模型領域模型LogPatternLLMTimeSeriesLLMEcsRcLLMLLM OPS的行業的可能性道、法、術、器、勢RAG框架 Naive RAG 樸素的RAG Advanced RAG pre:索引(meta+index)檢索(rewrite、hierarchical)混合檢索 post:re-rank、compression Modular RAG 模塊+模式:靈活、

6、按需圖來源:Retrieval-Augmented Generation for Large Language Models:A SurveyLLM OPS的行業的可能性AgentLLMmemoryplanning tools分解 Chain of thoughts Tree of thoughts省 ReAct Chain of HindsightClassic AIOpsRAGAPIs(app、sql)道、法、術、器、勢對AIOps的革新影響決策AIOpsPro運維 采集個人觀點:基于LLM的Ops是AIOps的加強版,并不是顛覆,主要體現在Ops的器和術上,讓我們的檢測工具更多樣更鋒利,

7、可以讓決策的過程更絲滑。新的檢測方法 兼容不同場景,有可能真正實現all in one 更智能的統籌決策 簡化知識-code的轉化過程,更魯棒的決策能力成本 速度 幻覺ECS智能運維在LLM OPS下的創新實踐PART 03ECS智能運維在LLM OPS下的創新實踐QueryMemoryQuery重寫意圖識別AIOps AgentBI AgentRAG AgentPlanner我們的場景主要是ECS問題排查,包括值班、日常運維LLM OPS Memory&RAGMemory管理:向量+summery數據庫選型:向量+全文檢索數據庫選型優勢AnalyticDB PostgreSQL 版和使用Po

8、stgreSQL一樣,會有部分能力增強云原生內存數據庫TairTairVector+TairSearch,適合多租戶場景智能開放搜索 OpenSearch功能強大,入門門檻較高一次對話存儲 三方信息滑動窗口summary:總結信息在后記憶中的權重更大短期記憶:獲取topN長期記憶:向量召回+權重排序“content”:”1、IP 在 2024-03-10 10:26:05 2024-03-12 10:26:05 發起根因診斷,診斷信息如下:機器發起升級,運維重啟宕機,鏈接https:/llmops.aliyun-inc n 2、IP出現宿主機單Socket打滿可能會出現降頻為 n3、臺機器IP

9、云盤達到bps上限,“additional_kwargs”:“message_ids”:170507,170510,170513,type:systemLLM OPS Memory&RAGRAG數據庫選型:向量+全文檢索數據庫選型優勢AnalyticDB PostgreSQL 版和使用PostgreSQL一樣,會有部分能力增強云原生內存數據庫TairTairVector+TairSearch,適合多租戶場景智能開放搜索 OpenSearch功能強大,入門門檻較高 知識庫整理&文本chunk 高質量私有知識QA對 基于阿里云文檔智能的高效文本分析,支持OCR 向量索引:bge-large-zh-

10、v1.5 全文索引:停用詞庫、關鍵詞庫 詞法分析:Zhparser 多路召回&文檔壓縮:召回:BM25、RRF LLM Compression,需要考慮tokens、性能LLM OPS query重寫&意圖識別重寫的必要性:錯別字、語義順序、上下文實體用戶原問題:怎么買一臺?被改寫為:如何購買ECS云服務器?Query重寫 Prompt請跟據Hunam和AI的對話歷史對新問題進行重寫,使得新問題的主體和意圖更加明確,重寫請遵循如下原則:1、如果新問題是歷史對話的延續則根據歷史對問題進行重寫2、如果發現新問題與歷史對話沒有關聯則直接對新問題進行簡單的錯別字和語法糾錯,并以此作為重寫結果3、請使用

11、“重寫后的問題:”開頭輸出輸出重寫后的問題,直接返回重寫結果,不要進行詢問對話歷史:Human:ECS云服務器的定義是什么?AI:ECS云服務器是一種安全可靠、彈性可伸縮的云計算服務,助您降低 IT 成本,提升運維效率。新問題:怎么買一臺?重寫后的問題:意圖識別的必要性:tools、agent的定向和編排選中diagnose,調用aiops agent相關能力多輪對話中的query是被改寫之后的意圖識別 Prompt工具集中有一個特殊的工具:默認工具。當無法判斷合適的工具進行匹配時,使用默認工具。根據用戶輸入,挑選一個最合適的工具。工具集:qa:知識庫問答,值班問題答疑等問答diagnose:

12、對單個或批量的ECS實例或宿主機進行診斷,查看診斷信息、異常信息、性能問題、根因定位等。order_analyze:根據給出的工單鏈接或id,總結工單內容并給出處置建議默認工具:qa用戶輸入:幫我診斷下這臺nc:1.2.3.4json格式輸出:可有效提高召回和意圖識別準召!LLM OPS AgentAgent:tools調用+tools編排兩種式:個是RAG做協調節點個RAG作為tools的部分ReAct PromptAnswer the following questions as best you can.You have access to the following tools:hea

13、lth_check:check the status of vmmigrate:migrate the vm from nc to anotherUse the following format:Question:the input question you must answerThought:you should always think about what to doAction:the action to take,should be one of tool_namesAction Input:the input to the actionObservation:the result

14、 of the action.(this Thought/Action/Action Input/Observation can repeat N times)Thought:I now know the final answerFinal Answer:the final answer to the original input questionBegin!Question:inputThought:agent_scratchpad我們的嘗試之后的效果其實并不理想 如何讓agent不要陷入一個問題的循環?如何讓大模型在思考的過程中準確命中已知的解決方案可以嘗試的方案:把RAG作為tools中

15、的一環,通過prompt讓agent自行判斷如何調用RAG 把RAG從思考鏈中單列出來,外掛在觀察階段,這樣每次思考的結果也可以到知識庫或者記憶中尋找解決方案LLM OPS 結果問答&工單檢索自然語言診斷LLM OPS 結果一鍵智能診斷運維工具調用總結&展望PART 04總結&展望 Fine-tuning 還是 prompt?背靠大樹好乘涼 智能體如何更智能?如何讓agent有全局視野 AIOps基礎建設要跟上:tools本身也需要治理?巧婦難為無米之炊 如何做到知識共享?沒有或者少FT的情況下如何及時更新知識?1對多對話怎么做?如何確認知識邊界?做好取舍 大模型是萬能的嗎?More is d

16、ifferent?情緒價值?多模態附錄參考文獻【1】Retrieval-Augmented Generation for Large Language Models:A Survey【2】https:/lilianweng.github.io/posts/2023-06-23-agent/【3】Generative Agents:Interactive Simulacra of Human Behavior【4】https:/huggingface.co/spaces/mteb/leaderboard【5】Seven Failure Points When Engineering a Retrieval Augmented Generation System【6】Are Emergent Abilities of Large Language Models a Mirage?【7】ReAct:Synergizing Reasoning and Acting in Language Models【8】Automatic Root Cause Analysis via Large Language Models for Cloud Incidents THANKS

友情提示

1、下載報告失敗解決辦法
2、PDF文件下載后,可能會被瀏覽器默認打開,此種情況可以點擊瀏覽器菜單,保存網頁到桌面,就可以正常下載了。
3、本站不支持迅雷下載,請使用電腦自帶的IE瀏覽器,或者360瀏覽器、谷歌瀏覽器下載即可。
4、本站報告下載后的文檔和圖紙-無水印,預覽文檔經過壓縮,下載后原文更清晰。

本文(郭紅科-阿里云服務器智能異常調度系統及LLMOPS構建與實踐.pdf)為本站 (張5G) 主動上傳,三個皮匠報告文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對上載內容本身不做任何修改或編輯。 若此文所含內容侵犯了您的版權或隱私,請立即通知三個皮匠報告文庫(點擊聯系客服),我們立即給予刪除!

溫馨提示:如果因為網速或其他原因下載失敗請重新下載,重復下載不扣分。
客服
商務合作
小程序
服務號
折疊
午夜网日韩中文字幕,日韩Av中文字幕久久,亚洲中文字幕在线一区二区,最新中文字幕在线视频网站