陳詩雁-AI在操作系統運維中的應用和實踐.pdf

編號:159307 PDF 27頁 3.46MB 下載積分:VIP專享
下載報告請您先登錄!

陳詩雁-AI在操作系統運維中的應用和實踐.pdf

1、AI在操作系統運維中的在操作系統運維中的應用和實踐應用和實踐陳詩雁龍蜥社區系統運維SIG Contributor阿里云技術專家操作系統運維現狀和痛點OS運維現狀深度診斷工具缺乏業務故障驅動自動化程度低人力成本高OS運維痛點技術門檻高經驗依賴大組件關聯復雜問題定位周期長自動化困難目前主流企業使用的開源的運維工具,都是基于常規的系統指標進行監控的,從阿里巴巴這幾年的雙十一保障經驗得出,常規的監控指標在規模性大型IT系統顯得監控能力不足在操作系統社區,管理運維工具是必不可少的能力,需要一個有競爭力的運維產品來服務未來龐大的用戶群體操作系統和開源社區有大量的運維管理工具,但是工具碎片化嚴重,沒有形成統

2、一的系統化的競爭力,沒有系統化的運維平臺支撐用戶的日常運維管理,用戶對于操作系統運維都是用到哪學到哪。國內的OSV廠商還不具備提供系統化運維工具的能力,將我們多年的雙十一操作系統運維經驗產品化的輸出后,可以形成SIG-產品-合作伙伴-用戶-社區開發者-SIG的良好的生態循環操作系統運維平臺操作系統運維平臺SysOMSysOM操作系統一體化運維平臺SYSOM操作系統問題支持穩定性問題分析系統診斷工具AIOPS阿里云操作系統穩定性支持雙十一操作系統運維經驗穩定性問題分析報告完善工具覆蓋度,改善工具保障工具服務服務效率SYSOM一鍵診斷 深入診斷工具已知問題自動檢測腳本指標數據、日志分析火焰圖分析智

3、能健康度智能機器人告警、問題流程LLM咨詢答疑診斷copilot系統診斷AIOPS數據分析問題流程平臺協作LLM自動化智能化智能機器人SYSOM自動化、智能化操作系統運維平臺目錄01AI在宕機分析領域應用02監控指標的異常分析03監控日志的異常分析AI在宕機分析領域應用01什么是宕機宕機的表現內核輸出宕機日志可通過配置kdump,生成內核的core dump宕機的影響重啟、業務中斷難提前監控,難分析重復問題不斷發生,造成更大影響main宕機,指操作系統無法從一個嚴重系統錯誤中恢復過來,或系統硬宕機,指操作系統無法從一個嚴重系統錯誤中恢復過來,或系統硬件層面出問題,以致系統長時間無響應,而不得不

4、重新啟動計算機件層面出問題,以致系統長時間無響應,而不得不重新啟動計算機的現象。它屬于系統運作的一種異?,F象,任何電腦系統會出現這的現象。它屬于系統運作的一種異?,F象,任何電腦系統會出現這種情況。種情況。宕機匹配準確率仍需提升不同內核版本輸出差異,分析困難單純字符串匹配準確度低純調用棧匹配存在缺陷新宕機新宕機特征提取特征提取已知宕機匹配模型TF-IDF計算權重計算權重計算匹配結果和排名計算匹配結果和排名構建模型構建模型構建詞袋構建詞袋TF-IDF計算權重計算權重Multinomial Naive Bayes宕機類型宕機類型數據處理數據處理加載模塊加載模塊內核版本內核版本執行命令執行命令關鍵調用

5、棧關鍵調用棧內核異常日志內核異常日志內核異常日志調用內核異常日志調用棧棧數據選取數據選取數據清洗數據清洗數據轉換數據轉換利用處理輸出梳理實際1k+宕機兼容多種內核版本高匹配率、低延遲匹配不同調用棧的相同問題新手難分析海量信息難搜索內核補丁修復過程難如何找到一個宕機解決方案搜索引擎bugzillamailing listgit commit包含關鍵信息補丁占比少少無法只通過調用棧匹配宕機補丁范圍有限有限有效篩選提交格式沒有標準無法模式匹配Linux主線補丁現狀無調用棧20%有調用棧80%宕機補丁包含調用棧占比宕機補丁2%其他補丁98%宕機內核補丁占比提交格式和信息都不同數據來源于 github

6、中linux倉庫 master 分支中的所有提交記錄的分析統計github地址:https:/ COMMIT基于萊文斯坦距基于萊文斯坦距離的離的TF-IDF提取異常日提取異常日志志時間信息提時間信息提取取補丁內容補丁內容本地處理&匹配詞向量TF-IDF余弦相似自然語言轉換宕機分類特征提取數據清洗模式設計補丁子模塊補丁子模塊提取異常調提取異常調用棧用棧提取異常調用提取異常調用棧棧異常日志自異常日志自然語言轉換然語言轉換Sentence Transformers轉換成嵌入向量轉換成嵌入向量計算加權得分計算加權得分提取內核版提取內核版本本篩選符合時間段篩選符合時間段的的commit宕機分類宕機分類宕

7、機日志提宕機日志提取取commit日志提取日志提取中間處理中間處理調用棧匹配調用棧匹配時間信息增強過濾時間信息增強過濾輸出目標輸出目標commit通過宕機日志搜索upstream commit結果Top10Top10 average rankAliyunSyzkallerAliyunSyzkaller棧匹配+Sentence-BERT44/95(46.3%)1122/2739(41.0%)2.17072.4144基于加入位置信息的TF-IDF的棧匹配40/95(42.1%)777/2739(28.4%)2.80002.1737基于TF-IDF的棧匹配40/95(42.1%)765/2739(2

8、7.9%)2.85002.2235Sentence-BERT7/95(7.4%)597/2739(21.8%)4.85713.4522數據來源于公司內部測試數據監控指標的異常分析02指標異常檢測指標的關聯分析異常的類聚分析監控指標異常分析監控指標分析系統閾值方法固定閾值法同環比閾值法統計方法建模方法指標異常檢測方法標準差法指標離群統計法時間序列法神經網絡監控指標關聯分析根因分析:1、指標關聯,找出最相關的異常指標 相似性算法2、啟動異常診斷工具診斷根因 指標信息關系表 圖片來源于在自己測試集群本地部署龍蜥社區SysOM的監控截圖數據預處理相似性度量相似性算法數據缺失數據嚴重離群序列時間范圍選取

9、斜率斷崖情況配置限制導致指標異常找出最相關的監控指標監控指標關聯分析基于位置的指標基于數值的指標閔可夫斯基距離馬氏距離參數距離其他(編輯距離、漢明距離)Frechet distanceDTWHausdorffERPNEUTS(時間序列的神經網絡度量學習)監控日志的異常分析03異常日志提取和降噪異常日志分析異常日志診斷監控日志異常分析日志匹配算法大語言模型LLMDiagnose toolsmetalog_dict元日志字典prm num參數個數level日志等級field所屬領域lognum_list編碼表含多變量的程序日志匹配日志存儲結構 插樁算法(編輯距離算法演變)海量日志中高效提取關鍵日志

10、日志初篩+次篩 單詞編碼(hash)桶排序查找異常日志提取和降噪聊天助手寫作助手知識問答助手會議內容總結 知識庫文檔總結報告/文章/郵件等工作性文本總結LLMLLM核心應用場景核心應用場景文檔命名實體提取 關鍵詞提取標簽生成敏感內容審核 情感分析評價分類文本語義檢索 圖片語義檢索 視頻語義檢索文本糾錯文本潤色文本翻譯生成生成Generate總結總結Summarize提取提取Extract分類分類Classify檢索檢索Search改寫改寫Rewrite問題分類產品語義檢索簡歷語義檢索大語言模型LLM日志分析日志分析診斷診斷請分析以下日志異常的原因:BUG:soft lockup-CPU#10

11、stuck for 22s!GC Thread#16:45479?這個日志異常是由于CPU#10在22秒內無法響應操作,導致系統出現了軟鎖定。這通常是由于系統資源不足或者代碼中出現了死循環等問題所導致的。具體原因需要進一步分析GC Thread#16:45479線程的工作情況和系統負載情況,可能需要檢查線程的代碼實現、內存使用情況以及CPU占用情況等,并找到對應的解決方案,例如增加系統資源、優化代碼等。請分析以下日志文件是否有異常并給出原因或解決方案:dmesg.txt(100MB)這個日志文件存在以下嚴重異常日志:BUG:soft lockup-CPU#10 stuck for 22s!GC

12、 Thread#16:45479?原因是系統可能由于系統資源不足或者GC Thread代碼中出現了死循環等問題所導致的。同時檢查到日志中的異常調用棧匹配已知問題#bug 12348,可用hotfix 12344修復該問題。請分析以下IP機器是否有異常并給出原因或解決方案:11.233.44.4 該IP機器存在以下嚴重異常日志:BUG:soft lockup-CPU#10 stuck for 22s!GC Thread#16:45479?Memory cgroup out of memory:Kill process 原因是同時檢查到日志中的異常調用棧匹配已知問題#bug 12348,可用hot

13、fix 12344修復該問題??梢允褂胹ysak oomcheck進一步診斷oom的原因?!臼褂面溄印縇LM機器人智能機器人智能診斷機器人LLM日志分析診斷示例宕機智能搜索摒棄單純調用棧匹配使用模型匹配結合Sentence-BERT和語義分析的upstream commit搜索指標異常根因分析海量日志智能搜索多場景指標異常檢測關鍵指標的關聯算法指標異常和診斷工具聯動指標類聚快算法速定位已知問題日志降噪算法快速提取關鍵日志LLM輔助分析AI和診斷工具的智能聯動總結SysOM-操作系統集群一體化運維平臺交互診斷修復告警監控機器管理安全中心龍蜥社區系統運維聯盟(SOMA)介紹聯盟成員單位平臺或系統廠

14、商及理事單位運維廠商科研院校及事業單位p 故障演練系統建設p 故障場景和案例開發p 評測系統開發,評測項建立p 產品demo系統開發p 聯盟官網建立p 技術創新與合作p 資金、人力等投入p 評測標準和評測項建立p 年度/半年度運維行業報告發布p SysOM 技術創新與項目合作p 微服務業務系統建立p 聯盟相關系統建設p 聯盟相關系統建設p 服務器等資源提供p 用戶需求引導、承接、流轉p 相關文檔組織p 資金、人力等投入p 活動組織、聯合宣傳SOMA(System Operation&Maintenance Alliance)龍蜥社區系統運維聯盟是由龍蜥社區聯合平臺廠商、運維廠商、高校及科研院所

15、、事業單位和廣大行業用戶等,按照平等、自愿的原則,發起并成立的,以推動系統運維技術進步、促進產學研合作為目的的非營利性組織。聯盟通過建立一套故障演練平臺和運維產品力評測系統,為平臺廠商、運維廠商和廣大客戶建立起溝通的橋梁和紐帶,讓客戶對運維產品拼圖有全局認識;同時通過產業分析和實踐報告及運維技術交流合作,提升聯盟成員在國內外的影響力,促進運維產業健康和高效發展。聯盟將圍繞故障演練、系統評測、技術創新三個方向推動產業發展和技術進步。u 基建任務:聯盟官網入口,宣傳和發布渠道;產品體驗系統u 標準和報告:評測標準、評測項,評測報告模板制定,年度/半年度運維行業報告發布u 系統搭建:故障演練系統、產

16、品評測等系統開發u 交流合作:基于 SysOM 的項目合作(故障預測、機器學習等),每年舉辦運維聯盟為品牌的峰會、Meetup等活動聯盟宗旨聯盟任務聯盟組織l 組織機構:聯盟由“龍蜥運維委員會”管理,負責確定聯盟的制度、發展方向等管理事務,首批成員由10+家成員單位和龍蜥社區委派擔任;聯盟設執行秘書數名,由龍蜥社區技術委員和運營委員及若干聯盟代表組成,組織和落實聯盟工作。l 聯盟治理:定期召開月度會議,由聯盟成員單位輪流組織,表決參照按社區章程規定。運維聯盟官網(https:/ 等工具節點端業務系統(購票、售票、余額查詢等微服務業務,部署在ACK 集群,通過數據庫訪問)產品力評測系統故障演練界面(注入故障類型,展示演練結果)功能選擇(故障演練、產品評測、產品Demo)評測系統界面(選擇評測項,評測數據分析、輸出評測報告)操作界面演練和評測系統業務和運維系統產品Demo界面(選擇運維產品,數據展示,告警等)采集業務和系統數據Prometheus等數據接入監控等數據采集業務數據故障注入已知故障類型及預期行為輸出故障場景評測數據SysOM 等工具中心端故障演練數據THANKS

友情提示

1、下載報告失敗解決辦法
2、PDF文件下載后,可能會被瀏覽器默認打開,此種情況可以點擊瀏覽器菜單,保存網頁到桌面,就可以正常下載了。
3、本站不支持迅雷下載,請使用電腦自帶的IE瀏覽器,或者360瀏覽器、谷歌瀏覽器下載即可。
4、本站報告下載后的文檔和圖紙-無水印,預覽文檔經過壓縮,下載后原文更清晰。

本文(陳詩雁-AI在操作系統運維中的應用和實踐.pdf)為本站 (張5G) 主動上傳,三個皮匠報告文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對上載內容本身不做任何修改或編輯。 若此文所含內容侵犯了您的版權或隱私,請立即通知三個皮匠報告文庫(點擊聯系客服),我們立即給予刪除!

溫馨提示:如果因為網速或其他原因下載失敗請重新下載,重復下載不扣分。
客服
商務合作
小程序
服務號
折疊
午夜网日韩中文字幕,日韩Av中文字幕久久,亚洲中文字幕在线一区二区,最新中文字幕在线视频网站