1、中國 AIOps 現狀調查報告(2022 年) 中國 AIOps 現狀調查報告 (2022 年) 2022 年 7 月 28 日 中國 AIOps 現狀調查報告(2022 年) 2 報告目錄 前言 . 3 核心觀點摘要 . 6 一、調查背景 . 9 (一)調查方法及樣本 . 9 1、調查方法 . 9 2、樣本描述 . 9 3、樣本說明 . 12 (二)報告術語界定 . 13 二、AIOps 發展現狀 . 14 (一)AIOps 能力建設基本情況 . 14 (二)AIOps 場景應用情況 . 29 (三)AIOps 發展趨勢與挑戰 . 37 三、AIOps 實踐案例 . 40 (一)運營商篇 .
2、 40 (二)銀行證券篇 . 49 (三)服務提供商篇 . 63 中國 AIOps 現狀調查報告(2022 年) 3 前言 隨著互聯網與信息技術的快速發展、企業數字化轉型、以及在大數據、云計算、人工智能等新技術的加持下,近年來,智能運維正成為企業高效管控種類繁多數量龐大的物理設備、精準定位故障信息、實時防護網絡攻擊、快速迭代需求變更等新時代運維場景下不可或缺的科技力量和解決方案。 國務院關于印發 “十四五”數字經濟發展規劃的通知中指出,數據的爆發增長為智能化發展帶來了新的機遇。加快推動智能化應用建設,促進各環節智能化升級,提升基礎設施網絡化、智能化、服務化、協同化水平,加快優化智能化產品和服務
3、運營。產業數字化的經營理念在各行業持續滲透,激勵著越來越多的企業提升信息化建設的戰略地位、增加數字化投入,這也將進一步突出 IT 運維對于企業管理和業務創新的重要意義。 為進一步了解中國 AIOps 產業發展現狀, 梳理中國 AIOps 產業發展脈絡, 云計算開源產業聯盟開展了 2022 年度 AIOps 現狀調查。問卷以中國信息通信研究院牽頭編制的智能化運維(AIOps)能力成熟度模型系列標準為參考,聚焦中國 AIOps 能力建設成熟度現狀,對 AIOps 產業發展現狀、未來 AIOps 發展趨勢、企業當前面臨的困難與挑戰等情況進行了調查,共收回有效問卷 1807 份。本報告以調查結果為基礎
4、,結合行業專家的深度訪談、研討,力爭詳實客觀地反映企業對 AIOps 落地實踐的需求,為廣大關注 AIOps 的從業人員、專家學者和研究機構提供真實可信的數據支撐。 本次調查由中國信息通信研究院聯合近 60 家企業共同發起,包括中國工商銀行、中國農業銀行、建信金科、浦發銀行、平安銀行、交通銀行太平洋信用卡中心、華泰證券、安信證券、深圳證券通信有限公司、中國聯通軟件研究院、中國移動集團、中國鐵塔、騰訊、阿里巴巴集團、阿里云、螞蟻集團、京東科技、華為云、蘇寧消費金融、亞信科技、浪潮云、博睿數據、廣通優云、宇信科技、擎創科技、必示科技、浩鯨科技、IBM、BMC 中國公司、戴中國 AIOps 現狀調查
5、報告(2022 年) 4 爾科技集團、愛數、潤建股份、北京華佑科技、新炬網絡、東軟集團、金蝶天燕、云杉網絡、華青融天、紫羚云、思特奇、寶蘭德、綠盟科技、北京基調網絡、西駿數據、鼎茂科技、嘉為科技、普元信息、LinkedSee 靈犀、星漢未來、烽火通信、金山云、創新奇智、同創永益、上海疊念、金現代、日志易、云新信息、高效運維社區、dbaplus 社群等,各地 AIOps 實踐企業和社會各界也給予了大力支持,在此,謹表示最衷心的感謝!同時也對參與中國 AIOps現狀調查訪問的企業朋友表示最誠摯的謝意! 云計算開源產業聯盟 2022 年 7 月 中國 AIOps 現狀調查報告(2022 年) 5 參
6、與編寫單位:中國信息通信研究院、中國工商銀行、中國農業銀行、建信金科、浦發銀行、平安銀行、交通銀行太平洋信用卡中心、華泰證券、安信證券、深圳證券通信有限公司、中國聯通軟件研究院、中國移動集團、中國鐵塔、騰訊、阿里巴巴集團、阿里云、螞蟻集團、京東科技、華為云、蘇寧消費金融、亞信科技、浪潮云、博睿數據、廣通優云、宇信科技、擎創科技、必示科技、浩鯨科技、IBM、BMC 中國公司、戴爾科技集團、愛數、潤建股份、北京華佑科技、新炬網絡、東軟集團、金蝶天燕、云杉網絡、華青融天、紫羚云、思特奇、寶蘭德、綠盟科技、北京基調網絡、西駿數據、鼎茂科技、嘉為科技、普元信息、LinkedSee 靈犀、星漢未來、烽火通
7、信、金山云、創新奇智、同創永益、上海疊念、金現代、日志易、云新信息、高效運維社區、dbaplus 社群。 參與編寫人員:楊玲玲、牛曉玲、尚夢宸、白瀚雄、劉凱鈴、劉昭煒、任政、耿鵬、馬琳、陳俊、金艷、洪磊、周東杰、權寧升、曹家豪、盤隆、董善東、張穎瑩、王月凡、張憲波、蔡小剛、顧黃亮、李紅霞、張永皋、孫光濤、李驊宸、任志強、葛曉波、曹立、趙成棟、劉渝、李康、胡永樂、陳剛、梁銘圖、羅先橋、李飛、包彤、劉玉節、劉亞軍、張潤滋、徐國忠、何亮亮、何永進、胡忠想、吳偉峰、李慶焐、李啟明、董彥廣、黃國標。 中國 AIOps 現狀調查報告(2022 年) 6 核心觀點摘要 AIOps 能力建設基本情況 多數企業
8、近年來在運維方面的資金投入仍處于增長階段。近 4 成企業運維方面年平均投資規模超 5000 萬元,投資規模在 5000 萬元-1 億元的企業占比 11.24%,1 億元-5 億元的企業占比 13.45%。 超半數企業在實現自動化運維、自動化部署的基礎上進一步增強監控、運維智能化能力。根據本次調查顯示,61.21%的企業選擇優先關注和投資 DevOps 自動化部署,52%的企業選擇優先關注和投資升級監控和 AIOps。 以結果為導向的 IT 運維 KPI 指標是當前企業關注的重點,企業對于用戶體驗的關注正在持續升溫。根據本次調查顯示,60.04%的企業最關注 “可用性、正常運行時間和性能” 指標
9、。用戶滿意度也獲得了 44.66%的關注,這反應了企業對于用戶體驗的持續升溫。 智能運維已經在各行業逐步落地應用,特別是在科技、互聯網、金融、電信幾大領域應用效果十分顯著。根據本次調查結果,科技和互聯網行業受訪者所在企業表示已建立了智能運維平臺并形成了相關評價體系分別占比 49.64%和 37.96%,其次是銀行占比 28.99%和電信企業占比 25.97%。 內外雙修,智能運維系統/工具/平臺既可用于增強企業自身運維能力,同時也可以對外輸出產品能力。 根據調查顯示, 企業的智能運維系統/工具/平臺同時具備行業特性, 如 48.29%的科技公司和 43.64%的互聯網企業, 主要對外提供智能運
10、維產品及解決方案, 50.36%的金融企業則更多面向內部使用。 超半數企業以自主研發的方式建設 AIOps 能力。 根據本次調查結果, 超過半數 (57.83%)的受訪者所在團隊主要以自研的方式搭建智能運維平臺/工具, 22.98%的受訪者所在團隊中國 AIOps 現狀調查報告(2022 年) 7 采用共研方式搭建智能運維平臺/工具,另外還有 19.20%的受訪者所在團隊選擇采購第三方解決方案搭建智能運維平臺/工具。 多數企業內部組建了專職團隊負責 AIOps 能力建設。根據本次調查結果,25.84%的受訪者所在企業組建了專職團隊/部門負責智能運維能力建設,此外還有由多個團隊/部門聯合組建 (
11、13.17%) , 各團隊/部門分別建設 (13.06%) 和聯合第三方廠商/外包組建 (12.45%)等多種團隊模式。 將現有監控平臺、大數據平臺等多種數據源接入智能運維工具/平臺,進行多場景數據融合是當前比較常用的智能運維實踐方式。目前近一半(46.21%)的企業采用數據接入方式,同時還有 37.85%的企業智能運維工具/平臺具備數據采集能力。 持續完善數據能力,搭建計算分析引擎,進行數據分析和模型構建是智能運維能力中不可或缺的一部分。根據本次調查結果統計,目前 76.93%的受訪者所在企業均已搭建了計算能力引擎,主要以自研(36.86%)和采用第三方提供(40.07%)兩種方式為主。 A
12、IOps 場景應用情況 AIOps 仍處于初期發展階段, 受訪者對目前 AIOps 能力水平的評價與期望超過其所在企業實際應用的情況。 從整體來看, 30.27%的企業自評目前處于輔助智能化運維階段, 28.61%的企業自評處于進階智能化運維階段。 智能運維在質量、成本、效率、安全四大運維領域均已開展部署和應用,其中質量領域最為關注。調查顯示,54.79%的企業當前著重關注智能運維的質量領域(包括異常檢測、告警收斂、根因分析、故障處置等)能力建設,其次 45.77%的企業關注效率領域,45.49%的企業關注成本領域,30.82%的企業關注安全領域。 中國 AIOps 現狀調查報告(2022 年
13、) 8 大部分企業在數據分析和算法模型分析方面已經逐步開始場景探索。并且已有 15.61%和11.07%的受訪者所在企業將數據分析方法和算法模型應用與大部分業務場景。 通過使用智能運維算法,可快速提升運維智能化、自動化水平,大幅降低故障平均檢測時間,加速平均修復時長。通過調查發現,目前已經有 11.95%的企業核心系統故障服務恢復時長可以達到 10 分鐘內的水平,11.23%的企業已經達到 15 分鐘內完成系統故障恢復。 AIOps 發展趨勢與挑戰 多數企業領導層已經對智能運維能力建設加以重視并付諸行動, 但在智能運維的建設過程中仍有諸多困難與挑戰。根據調查統計,目前遇到的困難和挑戰主要在不同
14、運維場景中的實踐探索中產生的,比如“能力定制化,難以跨業務應用或泛化成本高”(35.81%),“場景有限, 大量運維場景沒有成熟的方案”(33.98%) ,“新場景建設周期長”(30.71%) 。 需求驅動能力升級,除普遍關注的質量場景,安全場景成為更多企業未來關注和提升的方向。根據本次調查結果,質量場景仍然是主要提升方向。36.75%的企業在未來將提升故障的根因定位效率,32.82%的企業將會提升故障修復速度,31.82%的企業將完善故障預測能力以及 23.52%的企業將會建立故障處理流程規范。 安全場景得到更多的關注, 40.79%的企業將加強對安全事件的快速響應以及相應的防范措施的建設。
15、 未來趨勢:加強人員與技術方面投入,持續探索智能運維場景,持續優化現有場景能力,提升穩定性,易用性。47.76%的企業將在目前已有的智能運維場景中繼續優化改進,提升效果。44.71%的企業將在易用性、可用性、穩定性等方面持續改進。 中國 AIOps 現狀調查報告(2022 年) 9 一、調查背景 (一)調查方法及樣本 1、調查方法 本次調查報告采用在線問卷調查方式,共收集到有效問卷 1807 份。 2、樣本描述 參與調查企業所在行業:包括互聯網、科技、電信、銀行、能源、證券、教育、咨詢與服務、零售等行業。 數據來源:中國信息通信研究院 圖圖 1 1 行業分布行業分布 中國 AIOps 現狀調查
16、報告(2022 年) 10 參與調查企業規模:人員規模在 500 人以上的企業占比接近六成。近四成的受訪企業資產規模在 1 億元以上。 數據來源:中國信息通信研究院 圖圖 2 2 企業人員規模企業人員規模 數據來源:中國信息通信研究院 圖圖 3 3 企業資產規模企業資產規模 中國 AIOps 現狀調查報告(2022 年) 11 參與調查人員地域分布:覆蓋全國 31 個省級行政區近 90 個城市。 數據來源:中國信息通信研究院 圖圖 4 4 個人地域分布個人地域分布 參與調查個人職位:超過 5 成的受訪者來自運維與研發部門, 其中 28.33%的受訪者來自運維部門,28.22%的受訪者來自研發部
17、門,12.68%的受訪者來自技術及架構相關部門。 數據來源:中國信息通信研究院 圖圖 5 5 個人職業分布個人職業分布 參與調查個人工作經驗: 超過半數的受訪者工作經驗在 4 年以上,工作經驗為 6 至 10中國 AIOps 現狀調查報告(2022 年) 12 年的受訪者居多,5.31%的受訪者工作經驗超過 20 年。 數據來源:中國信息通信研究院 圖圖 6 6 個人工作經驗個人工作經驗 3、樣本說明 序號 N 值 說明 1 N=1807 樣本總量 中國 AIOps 現狀調查報告(2022 年) 13 (二)報告術語界定 智能運維概念:智能運維(AIOps)是將大數據,AI 機器學習和其他技術
18、相結合,通過主動,個性化和動態的洞察力,用以增強和輔助主要的 IT 運維工作,是企業級 DevOps 在運維(技術運營)側的高階實現。 智能運維系統/工具:具備數據處理、智能計算能力,采用智能化方法解決某種運維場景問題(如質量域下的異常檢測場景等,成本域的資源優化場景等) 。 智能運維平臺: 具備數據處理、 智能計算能力并且能力已覆蓋了多個傳統運維領域 (質量、成本、效率、安全)場景的智能運維系統/工具。 中國 AIOps 現狀調查報告(2022 年) 14 二、AIOps 發展現狀 (一)AIOps 能力建設基本情況 在當前數字化轉型的浪潮下,企業 IT 運維方面的投資規模將逐步增加,IT
19、運維的關注方向也將逐步從自動化運維向智能化運維發展。伴隨著企業規模擴大,業務模式更新,以及云計算、大數據、人工智能等新技術應用,智能運維能力已在科技、互聯網、金融、電信等行業逐步落地應用,并呈現出多樣化的發展趨勢。 近三年中, 近 4 成企業在運維方面年平均投資規模超 5000 萬元, 此外投資規模在 2000-5000 萬元的受訪者所在企業占比 12.74%,500-2000 萬元占比 18.55%,100-500 萬元占比 21.26%,100 萬元以下占比 13.88%。 數據來源:中國信息通信研究院 圖圖 7 7 企業運維年平均資金投入規模(企業運維年平均資金投入規模(20192019
20、- -20212021) 中國 AIOps 現狀調查報告(2022 年) 15 在實現自動化運維、自動化部署的基礎上進一步增強監控、運維智能化能力。根據本次調查顯示 DevOps 自動化部署(61.21%) 、升級監控和 AIOps(52%)是大部分企業的優先關注和投資的方向。數據匯總來看,提升系統自動化部署能力,實現基礎架構代碼化、測試自動化等是企業當前投資的重點方向。另外可觀測性、SRE 等時下熱點也成為企業的投資方向和選擇。 數據來源:中國信息通信研究院 圖圖 8 8 企業在技術投資時優先考慮的企業在技術投資時優先考慮的 ITIT 運營指標運營指標 中國 AIOps 現狀調查報告(202
21、2 年) 16 企業 IT 運營首要目標是減少故障發生次數,提高故障修復效率,以保證系統高效穩定運行, 并進一步降低運營成本。 根據調查結果顯示, 60.04%的受訪者所在企業最關注 “可用性、正常運行時間和性能” 指標, 同時有 46.60%和 44.66%的企業關注 “發生故障/事件的數量”與“用戶滿意度”, 40.29%的企業關注“MTTR(平均恢復時間)”, 此外 28.33%的企業將“IT 運營成本”也納入了運營關注指標。 數據來源:中國信息通信研究院 圖圖 9 9 企業企業 I IT T 運營關注指標運營關注指標 中國 AIOps 現狀調查報告(2022 年) 17 智能運維已在各
22、行業逐步落地應用,特別是在科技、互聯網、金融、電信幾大領域應用效果十分顯著,根據本次調查結果,科技和互聯網行業受訪者所在企業表示已建立了智能運維平臺并形成了相關評價體系分別占比 49.64%和 37.96%,其次是銀行和電信企業(28.99%和 25.97%)。 數據來源:中國信息通信研究院 圖圖 1010 企業智能運維能力建設情況企業智能運維能力建設情況 中國 AIOps 現狀調查報告(2022 年) 18 內外雙修, 智能運維系統/工具/平臺既可用于增強企業自身運維能力, 同時也可以對外輸出產品能力。 根據調查顯示, 企業的智能運維系統/工具/平臺同時具備行業特性, 如科技和互聯網企業,主
23、要對外提供智能運維產品及解決方案(48.29%和 43.64%),金融行業則更多面向內部使用(50.36%),電信行業相對較為均衡,面向內部使用,同時也對外提供產品及解決方案(51.80%)。 數據來源:中國信息通信研究院 圖圖 1111 智能運維系統智能運維系統/ /工具工具/ /平臺提供服務類型平臺提供服務類型 中國 AIOps 現狀調查報告(2022 年) 19 超半數企業以自主研發的方式建設AIOps能力。 根據本次調查結果, 超過半數 (57.83%)的受訪者所在團隊主要以自研的方式搭建智能運維平臺/工具,22.98%的受訪者所在團隊采用共研方式搭建智能運維平臺/工具,另外還有 19
24、.20%的受訪者所在團隊選擇采購第三方解決方案搭建智能運維平臺/工具。 數據來源:中國信息通信研究院 圖圖 1212 團隊搭建智能運維平臺團隊搭建智能運維平臺/ /工具工具的方式的方式 中國 AIOps 現狀調查報告(2022 年) 20 多數企業內部組建了專職團隊負責 AIOps 能力建設。根據本次調查結果,25.84%的受訪者所在企業組建了專職團隊/部門負責智能運維能力建設,此外還有由多個團隊/部門聯合組建(13.17%),各團隊/部門分別建設(13.06%)和聯合第三方廠商/外包組建(12.45%)等多種團隊模式,共研(19.81%)或者采購第三方服務的形式(16.55%)搭建智能運維平
25、臺/工具。 數據來源:中國信息通信研究院 圖圖 1313 企業企業智能運維能力建設智能運維能力建設組建團隊組建團隊/ /部門部門情況情況 中國 AIOps 現狀調查報告(2022 年) 21 智能運維解決方案豐富而多樣,反映了市場的創新活躍性和多元化發展。本次調查統計了目前中國市場已有的智能運維解決方案提供商(數據僅根據問卷調查結果統計,不涉及市場份額情況,僅供參考): 智能運維解決方案提供商 新炬網絡 ZnAiops 智能運維管理平臺 騰訊藍鯨智云 BMC Helix 數字化服務智能運營平臺 阿里云 AIOps 智能監控解決方案 亞信全域智能運維平臺 AISWare AIOps 華為云 AO
26、M 浪潮云云澤智能運營平臺 西駿數據 MC-Stack 統一運營管理平臺 擎創夏洛克 AIOps 智慧運營平臺 必示智能運維平臺 博睿數據智能運維算法能力平臺 Swift AI 建信金科孔明產品 紫羚一體化智能移動 IT 運營管理平臺 寶蘭德 Opslink AIOps 解決方案 云杉網絡 DeepFlow 云原生可觀測性平臺 百度智能運維平臺 日志易智能日志中心 廣通優云智能運維管理平臺 AIOps 中國 AIOps 現狀調查報告(2022 年) 22 華青融天鷹眼 EZSonar 業務監控系統 浩鯨 WhaleDI IntelliOps 智能運維平臺 IBM Watson AIOps 解決
27、方案 聽云北冥 LinkedAIOps 根因分析 愛數 AnyRobot Family 3 基于機器數據的場景化運維平臺 鼎茂科技 AIOps 智能運維平臺 ARCANA PaaS 思特奇圖南智維平臺 創新奇智 AIOps 智能運維平臺 中國電信翼維智能平臺 7x OPS 翼維智能平臺 星眼一體化運維平臺 綠盟智能安全運營平臺 ISOP 睿象云 戴爾科技集團 CloudIQ (AIOps) 星漢未來云原生基礎治理平臺 SchedulX 云新信息 iBSM,DCOS 金蝶天燕 AIOps 智能運維平臺 中國 AIOps 現狀調查報告(2022 年) 23 智能運維,數據先行,數據是智能運維的“原
28、料”,是搭建智能運維能力的基礎。多數企業仍處于智能運維場景的探索和實踐階段: 開始關注和梳理運維數據, 建設數據規范化能力,為下一階段運維數據的智能化分析做準備。目前企業智能化運維重點還在于數據的采集和規范方面。 根據調查顯示, 37.84%的受訪者認為開展智能運維最優先的能力是對數據采集分析,其次是對數據的規范化能力(22.54%)和工具平臺的支持(21.09%),在此基礎上完善算法能力(9.79%)。 數據來源:中國信息通信研究院 圖圖 1414 智能運維的前置條件智能運維的前置條件 中國 AIOps 現狀調查報告(2022 年) 24 將現有監控平臺、大數據平臺等多種數據源接入智能運維工
29、具/平臺,進行多場景數據融合是當前比較常用的智能運維實踐方式。目前近一半(46.21%)的受訪者所在企業采用數據接入方式,同時也有一定比例(37.85%)的智能運維工具/平臺具備數據采集能力。 數據來源:中國信息通信研究院 圖圖 1515 智能運維工具智能運維工具/ /平臺數據獲取方式平臺數據獲取方式 中國 AIOps 現狀調查報告(2022 年) 25 當前企業的智能運維系統/工具更多集中于對系統(服務器、操作系統)監控數據和業務/應用監控數據的處理和分析。 根據本次調查顯示, 目前 57.39%的企業智能運維系統/工具處理分析的數據中包括應用指標、日志等數據,53.35%涵蓋系統監控數據,
30、其次占比 42.50%的是網絡監控運維中關注的流量類型數據,最后是動力環境監測數據,占比 20.14%。 數據來源:中國信息通信研究院 圖圖 1616 智能運維工具智能運維工具/ /平臺分析的數據平臺分析的數據種類種類 中國 AIOps 現狀調查報告(2022 年) 26 多數企業采用第三方提供的智能計算引擎為 AIOps 系統提供算法能力支持。根據本次調查結果統計, 目前 78.57%的受訪者所在企業均已搭建了計算能力引擎, 主要以自研 (37.63%)和采用第三方提供 (40.91%) 兩種方式為主, 在使用第三方提供的計算引擎的基礎上, 20.96%的受訪者所在企業根據業務需求進行了定制
31、化開發,更好的適配業務場景需求。 數據來源:中國信息通信研究院 圖圖 1717 企業智能運維計算能力引擎企業智能運維計算能力引擎 中國 AIOps 現狀調查報告(2022 年) 27 大部分企業已經在數據分析和算法模型分析方面已經逐步開始場景探索。智能運維中的計算分析能力,包含了常用的數據分析方法和算法模型分析,從目前的應用情況來看,企業實踐普遍集中于在部分典型場景進行試點及應用。并且已有 15.61%和 11.07%的受訪者所在企業將數據分析方法和算法模型應用于大部分業務場景。 數據來源:中國信息通信研究院 圖圖 1818 企業當前運維工作中數據分析與算法模型應用情況企業當前運維工作中數據分
32、析與算法模型應用情況 中國 AIOps 現狀調查報告(2022 年) 28 圍繞智能運維,大量的算法模型被嘗試和應用。在本次調查中,我們統計了目前智能運維領域中使用較為廣泛的數據分析和模型分析方法。 運維工作中常用的數據分析方法,包括密度聚類 DBSCAN、相關系數 Pearson、正態分布N-sigma、統計學分類 Bayes 等方法。 數據來源:中國信息通信研究院 圖圖 1919 企業目前運維工作中常用的數據分析方法企業目前運維工作中常用的數據分析方法 運維工作中常用的算法模型分析方法,包括深度學習 LSTM、聚類分析 K-means、關聯規則挖掘 Apriori、趨勢預測 Arima、孤
33、立森林 Isolation Forest、時間序列預測 Prophet 等算法。 數據來源:中國信息通信研究院 圖圖 2020 企業目前運維工作中常用的算法模型分析方法企業目前運維工作中常用的算法模型分析方法 中國 AIOps 現狀調查報告(2022 年) 29 (二)AIOps 場景應用情況 根據由中國信通院牽頭制定的行業標準云計算智能化運維(AIOps)能力成熟度模型 第1 部分: 通用能力要求 中的 AIOps 能力建設分級要求, 可以將智能化運維整體能力從感知、分析、決策、執行、知識更新五個維度進行級別劃分,系統的參與程度隨智能化程度逐級遞增,并結合智能運維應用場景特點,形成 AIOp
34、s 能力成熟度模型。 圖圖 2121 AIOpsAIOps 能力成熟度級別劃分能力成熟度級別劃分 從目前的發展情況來看, 現階段 AIOps 能力大多集中在 L2 級別, 主要以系統輔助分析,幫助人工進行決策和操作為主,較為領先的能力實踐可以達到 L3 級別,而 L4 和 L5 級別隨著 AIOps 的技術發展和能力的逐步增強,將是未來智能運維能力建設的發展方向和目標。 中國 AIOps 現狀調查報告(2022 年) 30 AIOps 仍處于初期發展階段,受訪者對目前 AIOps 能力水平的評價與期望超過其所在企業實際應用的情況。從整體來看,參與本次調查半數以上的受訪者自評企業目前智能運維處于
35、輔助智能化(30.27%)和進階智能化階段(28.61%) 。此外,21.47%的受訪者自評處于初始智能化運維階段,13.72%的受訪者自評已達到全面智能化運維階段,5.92%的受訪者自評達到了高度智能化運維階段。 數據來源:中國信息通信研究院 圖圖 2222 企業企業 A AIOIOpsps 發展階段發展階段 中國 AIOps 現狀調查報告(2022 年) 31 不同 AIOps 能力成熟度階段的企業關注領域各不相同,達到全面智能化運維階段的企業更加關注在效率和安全領域的智能化運維能力建設。根據本次調查結果顯示,自評為初始智能化運維階段的受訪者更多的是從質量領域開始進行場景探索(50%),質
36、量領域的關注度遠超其他部分。自評為輔助智能化運維階段的受訪者持續增加了質量領域(61.97%)的關注度,并且開始探索成本(52.47%)和效率領域(46.62%)的實踐。而自評為全面智能化運維的受訪者在質量、成本領域的關注度比較均衡(49,60%,45.16%),并且關注度逐漸向效率領域(55.65%)傾斜,以及增加了對安全領域(40.32%)的關注和投入。最后自評為高度智能化運維階段的受訪者認為在質量、成本、效率、安全四個領域的關注度接近一致,也說明未來要達到高度智能化運維階段需要逐步完善各個領域及場景的智能化運維能力。 數據來源:中國信息通信研究院 圖圖 2323 各階段智能運維場景關注情
37、況各階段智能運維場景關注情況 中國 AIOps 現狀調查報告(2022 年) 32 智能運維在質量、成本、效率、安全四大運維領域均已開展部署和應用,其中質量領域最受關注,調查顯示,54.79%的受訪者所在企業當前智能運維著重關注質量領域(包括異常檢測、 告警收斂、 根因分析、 故障處置等)能力建設, 其次是效率領域(45.77%)、 成本領域(45.49%)和安全領域(30.82%)。 數據來源:中國信息通信研究院 圖圖 2424 企業當前智能運維重點關注領域企業當前智能運維重點關注領域 中國 AIOps 現狀調查報告(2022 年) 33 質量領域最先考慮的智能運維場景是異常檢測(62.26
38、%)和告警收斂(57.55%) ,其次是故障預測能力(46.76%) 、故障自愈(43.72%) 、根因分析(42.67%) ,最后是故障預防(33.04%) 。 數據來源:中國信息通信研究院 圖圖 2525 智能運維能力智能運維能力- -質量領域應用情況質量領域應用情況 中國 AIOps 現狀調查報告(2022 年) 34 成本領域的場景建設較為均衡,資源優化(44.49%) ,成本評估(40.40%) ,容量預測(40.40%) ,但有 20.59%的受訪者所在企業表示還未開展成本部分內容,也是這四大場景中占比較高的。 數據來源:中國信息通信研究院 圖圖 2626 智能運維能力智能運維能力
39、- -成本領域應用情況成本領域應用情況 效率領域最先考慮的智能運維場景是效率評估(37.52%) 、知識構建(36.58%) 、智能變更(34.42%) ,智能問答(30.99%) ,輿情分析(16.60%) 。 數據來源:中國信息通信研究院 圖圖 2727 智能運維能力智能運維能力- -效率領域應用情況效率領域應用情況 中國 AIOps 現狀調查報告(2022 年) 35 安全領域最先考慮的智能運維場景是風險可視化(40.12%) 、威脅感知(32.82%) 、安全知識圖譜 (31.10%) , 其次是脆弱性感知 (24.02%) 、 SOAR (20.09%) 、 UEBA (16.05%
40、) 。 數據來源:中國信息通信研究院 圖圖 2828 智能運維能力智能運維能力- -安全領域應用情況安全領域應用情況 中國 AIOps 現狀調查報告(2022 年) 36 隨著智能運維能力的持續完善以及應用場景的不斷深入,將明顯感知到智能運維帶來的效率提升。相較未引入智能運維能力,在使用工具鏈、智能運維工具/平臺處理一次典型的故障(如核心系統的一次故障發現到完全修復), 整體故障處理時間大概有多大提升。 從數據來看,53.96%的受訪者還是可以感知到智能運維帶來的效率提升,其中 25.4%的受訪者表示有一定效果提升(15-25%),16.77%的受訪者表示提升效果明顯(30-50%),還有 1
41、1.79%的受訪者感受到效果十分顯著。 數據來源:中國信息通信研究院 圖圖 2929 故障恢復時長與效率提升的感知情況統計故障恢復時長與效率提升的感知情況統計 通過使用智能運維算法,可快速提升運維智能化、自動化水平,大幅降低故障平均檢測時間,加速平均修復時長。通過調查發現,目前已經有 11.95%的受訪者所在企業核心系統故障服務恢復時長可以達到 10 分鐘內的水平,并且還有 11.23%已經達到 15 分鐘內進行恢復。大部分受訪者所在企業處于 15-30 分鐘的恢復時間(18.76%)和 30-60 分鐘進行故障服務恢復(17.54%),僅有 7.86%的受訪者所在企業恢復時間超過 4 小時。
42、 中國 AIOps 現狀調查報告(2022 年) 37 (三)AIOps 發展趨勢與挑戰 智能運維發展道路欣欣向榮, 通過調查我們發現, 絕大多數的領導層已經對智能運維能力建設加以重視并付諸行動,但在智能運維的建設過程中仍有諸多困難與挑戰,主要是在不同運維場景中的實踐探索中產生的。比如“能力定制化,難以跨業務應用或泛化成本高”(35.81%),“場景有限,大量運維場景沒有成熟的方案”(33.98%),“新場景建設周期長”(30.71%)。技術應用方面,如“數據集成與標準化成本過高”(27.95%),“模型效果難以維持,持續優化成本高” (23.46%)。企業內部環境和組織架構方面,如“環境復雜
43、,難以支持智能運維建設”(19.76%),“受限于 AI 團隊規?!保?8.43%)。此外還包括了智能運維的運用和價值體現,“運用困難,不了解如何使用智能運維的分析結果指導運維決策與管理”(17.49%),“智能運維的建設價值難度量和體現”(16.93%)。 數據來源:中國信息通信研究院 圖圖 3030 智能運維建設過程中遇到的困難智能運維建設過程中遇到的困難 中國 AIOps 現狀調查報告(2022 年) 38 需求驅動能力升級, 除普遍關注的質量場景, 運維下的安全場景成為更多企業未來關注和提升的方向。根據本次調查結果,我們將運維系統中需要進一步完善和提升的能力按照場景進行劃分,質量場景仍
44、然是主要提升方向,其中包括提升故障的根因定位效率(36.75%),提升故障修復速度(32.82%),完善故障預測能力(31.82%)以及建立故障處理流程規范(23.52%)。 成本場景中,包括需要進一步優化資源配置與成本優化(33.31%),建立系統健康度評估(29.88%),完善對變更過程的檢測(19.98%)。 效率場景中,涵蓋運維知識庫的構建與相關解決方案的關聯(32.15%,23.63%),并同時將輿情信息納入運維場景分析(26.34%)。 安全場景得到更多的關注,其中需要加強對安全事件的快速響應以及相應的防范措施的建設(40.79%)。 數據來源:中國信息通信研究院 圖圖 3131
45、目前企業使用的運維系統改進方向目前企業使用的運維系統改進方向 中國 AIOps 現狀調查報告(2022 年) 39 企業不斷優化現有場景能力,提升穩定性、易用性,持續探索智能運維新場景并加強人員與技術方面投入是未來發展趨勢。 47.76%的企業將在目前已有的智能運維場景中繼續優化改進,提升效果。44.71%的企業將在易用性、可用性、穩定性等方面持續改進。40.73%的企業將在更多新場景的應用中建設智能運維能力。32.1%的企業將研究與探索新技術/場景以滿足未來業務的增長需求。27.67%的企業將加強人員方面投入,對技術人員進行 AIOps 相關培訓。 數據來源:中國信息通信研究院 圖圖 323
46、2 未來企業智能運維未來企業智能運維建設建設方向方向 中國 AIOps 現狀調查報告(2022 年) 40 三、AIOps 實踐案例 (一)運營商篇 隨著國內企業數智化轉型的深入推進,電信行業運維從傳統的基礎設備運維逐漸轉為軟硬件結合的綜合管理,運營和運維工作面臨著越來越大的壓力。運維人員數量無法隨著設備數量線性增加,每萬臺服務器運維人員的數量持續下降,亟需引入智能化運維手段,解決人力不足的矛盾。同時,也需要借助智能化工具提高資源的可用性,提升用戶使用體驗。 案例 1 智能運營平臺應用 聯通數字科技 智能運營平臺是聯通數字科技有限公司自行研發的一款基于動態基線算法進行設備監控的產品,在業界得到
47、了廣泛的應用。該平臺采用人工智能技術,根據基線動態配置浮動閾值, 參照實際業務場景配置安全范圍, 對不同設備的時序數據進行強針對性監控。 國家開放大學的實驗學院信息化改造項目選用了聯通數字科技有限公司開發的智能運營平臺, 對國家開放大學三個校區 (五棵松、 魏公村、 東直門) 200+臺 IT 設備及動環設備進行集中監控管理。 智能運營平臺在三地的部署圖 中國 AIOps 現狀調查報告(2022 年) 41 該項目實現了故障診斷、問題定位、分析結果自動化,結合運維知識庫,確定處置方案;實現了自動完成故障感知、決策、執行的全過程,實現自動擴容、流量調度等操作;實現了對性能數據進行特征提取、分類,
48、利用機器學習算法進行集成學習, 動態分析設備運行參數的變化趨勢, 針對重要特性數據進行預測算法學習,預測網絡流量、性能趨勢、磁盤容量以及故障發生的可能性,規避潛在系統風險; 實現了對人工無法覆蓋范圍的延展, 對客戶動環指標進行全方位移動式環境監測、周期巡檢;實現了定期檢測資源的能耗指標,計算資源能耗,自動生成能耗報告, 運用機器學習算法對未來資源能耗進行預測。 通過預設能耗管理模型,結合業務負載情況,動態調整 IT 設備的上下線、關機、啟動,達到綠色節能的目標。 智能運營平臺幫助客戶解決了監控手段匱乏、故障發現滯后、動環監控死角、能耗管理落后、運維重要趨勢無法預測等問題。 案例 2 基于指標異
49、常檢測在云平臺網元健康度判斷的應用 浙江移動 隨著系統架構逐步虛擬化、容器化、微服務化,IT 云資源池規模及技術棧類型也在逐步增加,指標數據日益增大;網元間的業務差異性要求網元評分標準“千人千面”, 同參數模型精確度差; 獨立參數配置雖然能部分解決問題, 但需要極高的維護成本;為了解決數字化轉型出現的問題,結合 AI 算法、大數據技術、自動化操作能力等打造了晴雨表產品。 晴雨表系統采用可視化展現層、應用分析層、數據采集層三層架構。評分結果通過頁面實時展示,同時結果回寫至 Kafka 后再存入 ES 集群進行長久保中國 AIOps 現狀調查報告(2022 年) 42 存,整個過程無需等待指標采集
50、上報。 系統架構部署方案 通過大數據運維,AI 算分,自動化操作發現低分故障網元,推送故障詳情信息到 kafka,自愈系統消費到 Kafka 數據后匹配到對應的自愈腳本執行自愈,實現自動化故障恢復,減少人工干預。 晴雨表以交付類產品進行輸出,支持一站式解決方案部署。目前已在浙江移動、新疆移動、集團大數據 BG、浙江創新研究院等多個環境投入生產使用。 接入流程圖 新疆移動于 21 年 4 月在本地部署了晴雨表,對接現場數據采集能力,通過內置模型及個性化模型編排耗時一周成功上線,解決了系統實時監控盲區,故障感知率提升 90%。 集團大數據 BG 于 21 年 12 月在一級 IT 云哈爾濱資源池部
51、署了晴雨表,用于行程碼系統日常監控保障,截止目前使用良好。 晴雨表目前打分覆蓋 33000 余個網元,基本涵蓋云平臺所有組件,日均評分網元約 10w 個,平均每年規避 G4 及以上故障 50 起,平均先于用戶 5 分鐘中國 AIOps 現狀調查報告(2022 年) 43 感知發現故障,有效縮減了用戶斷服時長,提升了用戶感知。晴雨表中基于OCDT 算法的智能異常檢測模型, 目前已在參與評分的千余條指標中進行運用,提高了晴雨表 16%的查準率,大大減少誤報情況。 案例 3 業務端到端故障智能發現診斷自愈 中移動信息 云原生技術的引入使得 IT 系統規模龐大、 架構復雜, IT 運維迎接新的挑戰,I
52、T 業務系統集群規模越發龐大,傳統的告警不能及時有效的發現系統異常,海量日志無法有效分析, 業務調用鏈復雜, 可觀測性差, 導致故障定界定位極其困難。 本案例圍繞業務系統的 metrics、log 、trace 數據進行橫向業務分析,縱向 SaaS/PaaS/IaaS 分析,實現智能運維故障發現、診斷、自愈三個階段的端到端分析操作。 方案框架圖 故障發現階段采用無監督 metrics、log 異常檢測,通過多維數據分析實現故障發現。無監督日志異常檢測算法,可自動學習日志的模式,如新的類型、新的日志比例、新的異常參數等。算法首先基于預訓練的 AI 模型和專家詞典對日中國 AIOps 現狀調查報告
53、(2022 年) 44 志分詞,然后基于詞序和詞頻等相似度特征,將日志聚類成多種模板進行異常檢測。 故障診斷階段使用 trace 日志還原業務鏈拓撲、節點信息。通過業務鏈異常挖掘算法進行橫向根因分析,確定引起了整個業務鏈故障的節點排名。通過日志異常檢測算法智能發現相關節點的異常日志,以及結合跨層告警,結合知識庫關聯分析,在主機進程、中間件、網絡拓撲中縱向定位根因。 故障自愈階段使用自動化編排,實現自愈策略配置,人工確認故障準確后,系統自動完成自愈。操作完成后,系統自動跟蹤自愈后的指標、告警,完成故障處理的閉環。 價值與效益: 故障發現時間平均提前 20 分鐘。 基于 AI 算法定位,排除大量的
54、無效告警,月均告警量下降 20%。 故障定位耗時從 30 分鐘縮短到 10 分鐘。 西藏 CRM 系統運維自采用本系統的 7 個月來,累計節約 260 人/天,獲得約 55 萬收益。 案例 4 異構系統智能故障診斷平臺的應用 廣東移動 近年來廣東移動業務支撐系統加快向云化、 容器化、 微服務化的架構轉變,帶來系統架構復雜、故障點激增的問題,對故障處理的人員技術水平要求隨之中國 AIOps 現狀調查報告(2022 年) 45 提高。為解決痛點問題,融合業界規范,發展成為廣東移動特色的“異構系統智能故障診斷平臺”。2020 年 10 月份開始生產應用,已持續穩定運營一年以上。 基本實現流程,通過日
55、志、告警、KPI、性能指標、調用鏈、資產多種維度數據進行精準的故障診斷。其中有三個創新點: 1.全息模型:綜合多維度數據異常檢測綜合評估,精確度高。而一般通用方案是對單個指標異常檢測,并不能代表系統真的有異常,不夠精準。應用的算法包括 3sigma、柯西、基于 fft 的 SR、arima、FP-growth、xgboost、tf-idf、 有向圖隨機游走 pagerank 算法和 pcmci 根因定位算法 (針對容器環境) 。 2.無差別診斷:自動適應 Kubernetes 容器化/微服務云化環境與傳統物理機、虛擬機的環境。針對云化環境與傳統環境有不同相關性分析,傳統環境因為拓撲穩定,采用
56、FP-GROWTH 相關性分析,而針對云化環境,采用有向圖隨機游走的分析方式,能夠明確告警指標等原始數據的相關性。 3.故障知識圖譜: 在異常感知和故障識別階段能夠根據自建的知識圖譜對故障診斷的結果做修正,保證診斷結果的正確性。 故障診斷流程圖 中國 AIOps 現狀調查報告(2022 年) 46 投入使用以來, 該平臺為我司帶來實際的應用效益, 可使故障診斷智能化、故障定位迅捷化、運行質量高質化,降本增效。 前后變化 運維效率 人力投入 處理時間 傳統運維 人工排查處理 5 名高級運維工程師 平均每個故障 30 分鐘 本能力 AI運維 AI 智能處理,90%的系統故障可依賴本能力準確診斷 1
57、 名初級運維工程師(成本降低 80%) 平均每個故障 2 分鐘(效率提升 93%) 案例 5 AI 驅動決策,雙換助推轉型, “七步法”構建智慧投訴服務運營新模式 遼寧移動 隨著 IT 技術的迅猛發展,投訴運維體系的不斷演進,投訴運維逐漸從人工運維轉變為智能運維,如何進一步推進智能化運維,體現智能投訴價值,是智慧運維平臺面臨的新挑戰。傳統方式下,投訴投入再多人力,也難以滿足用戶對問題快速解決的訴求,對業務拓展及客戶滿意度已經形成風險,人工運維方式急需改變。 在此背景下,遼寧移動通過小步快走,植入 AI 智慧、自動化敏捷能力,通 AI 技術對海量的投訴工單進行分析,多種模式組合運用,鑄造核心價值
58、,提升投訴處理效率,提升服務支撐質量,降低投訴量。 智慧投訴平臺整體技術架構分為門戶和服務層: 投訴門戶層包括營業廳用戶、地市支撐用戶、省支撐用戶各自相應的定制門戶,可以將定制化的服務能力集成在門戶中;投訴服務分為兩部分,分別是針對投訴的應用和場景服務,和應用或場景服務所需的基礎能力服務(黑色部分) 。 中國 AIOps 現狀調查報告(2022 年) 47 智慧投訴平臺整體技術架構圖 相關組件功能如下: 1. 投訴門戶:實現各個角色或渠道門戶頁面展示。 2. 投訴預處理:實現營業員反饋問題智能交互,預處理工單相似/同源推薦; 3. 業務一致性平臺(投訴前移處理) :實現投訴前移 web 及后臺
59、維護功能,支持業務指標一鍵核查,預案執行; 4. 投訴工作流:實現投訴流程扭轉,投訴工單相似/同源工單推薦,投訴敏捷處理能力; 5. 投訴敏捷處理平臺:實現投訴處理預案編排、跟蹤、執行、記錄功能; 6. 智能投訴平臺:通過 AI 智能模型,提供公告關聯推薦、FAQ 關聯推薦、投訴關鍵分析分解; 7. 投訴知識庫:實現熱點 FAQ 導航關聯、FAQ 知識搜索、FAQ 導入/編輯/刪除、FAQ 點擊量統計等能力; 8. 投訴基礎應用:實現公告、調查問卷、優化建議、常用口徑的管理能力; 價值收益: 中國 AIOps 現狀調查報告(2022 年) 48 自 2021 年智能投訴機器人、智能知識推送能力
60、上線以來,全省各地市累計調用 190 余萬次,平均每月 12 萬余次,且使用量每月程上升趨勢。 借助智能化手段,業務支撐類投訴月均工單量同比去年下降 36.8%,投訴處理時長縮短 30%以上,投訴處理滿意度正向改善 6.68%。 中國 AIOps 現狀調查報告(2022 年) 49 (二)銀行證券篇 科技金融日益繁榮,其支撐金融業務的技術架構和上層應用更是日新月異,日趨復雜, 以銀行、證券業為例,信息系統訪問量和數據存儲量呈現爆炸式增長,相關軟硬件資源數量也急劇攀升,金融 IT 運維部門面臨巨大的壓力和挑戰。智能運維通過大數據和人工智能算法模型對產生的各類運維數據進行采集、處理與分析,迅速發現
61、問題根源并對未來可能出現的問題進行預測預防, 提升IT運維質量和效率, 已成為迎接挑戰不可或缺的科技力量和解決方案。 案例 6 工行 AIOps 智能運維體系建設實踐 中國工商銀行軟件開發中心 在互聯網金融時代,業務數量呈爆發性增加,業務模式更新迭代頻繁,依賴人工經驗的運維模式越來越無法保障 7x24 小時生產環境的穩定可靠,為解決云平臺運維中的“痛點”,中國工商銀行基于已有的運維數據,通過機器學習等手段提升運維的自動化、智能化程度,布局 AIOps 智能運維建設,逐步打造銀行業智慧運維。 在平臺建設方面覆蓋了智能運維體系的全方位領域, 主要由門戶、 數據源、技術支撐和運維數據分析平臺四部分組
62、成: 門戶提供各類智能運維場景的配置和調優服務并提供可視化展現;數據源實現監控、日志采集存儲,通過緩沖層滿足數據多渠道消費分析的需要; 運維數據分析中心完成平臺技術支撐服務的封裝,為智能運維各類應用場景提供數據清洗、在線標注、模型訓練和模型計算等全套服務; 平臺技術支撐層實現運維資源供應及大數據和機器學習的平臺化能力,根據模型計算的需要提供匹配的流式計算能力,并持續豐富模型算法庫。 中國 AIOps 現狀調查報告(2022 年) 50 AIOps門戶故障管理平臺技術支撐大數據平臺運維數據分析中心基礎設施云系統監控應用監控中間件監控故障診斷故障自愈異常檢測操作系統日志中間件日志監控中心日志中心故
63、障預測應用平臺云機器學習平臺應用日志數據模型庫離線學習基礎指標模型在線學習數據存儲時序數據庫緩存數據庫業務數據模型調用拓撲模型OLAP數據庫關系數據庫分布式監控服務監控IT數據池網絡(含硬件)存儲(含硬件)計算(含硬件)搜索引擎持久化存儲成本管理資源優化負載畫像成本優化容量規劃變更管理智能決策配置管理智能變更自動驗證服務咨詢智能問答運維知識庫在線檢測離線標注參數訓練算法選擇在線標注在線評估在線報警回溯實驗離線評估運維可視化儀表盤PC大屏移動端自定義報表平臺 智能運維平臺架構圖 在應用場景設置方面,將場景劃分為故障管理、成本管理、變更管理和服務咨詢四個大類。故障管理大類被作為主要切入點,通過人工
64、智能算法實現報警閾值的自適應調整,完成報警指標的壓縮和關聯性分析,提高報警準確性,實現智能異常檢測;根據監控指標的變化情況,預測其未來增長趨勢,提早發現潛在風險,實現智能故障預測;通過監控指標多維度下鉆和聚合分析鎖定故障范圍,進一步通過運維數據比對推薦故障原因,實現智能故障診斷;探索應急重啟、容災切換等故障修復手段的智能化判定與執行,實現部分場景的故障自愈。 目前,工商銀行已完成交易安全管控、交易異常定位、日志模式診斷等多個場景的落地實踐與探索。 案例 7 工行數據中心智能運維技術應用實踐 中國工商銀行數據中心 工商銀行正處于向數字化轉型發展的關鍵時期,隨著業務快速發展及 IT架構向分布式轉型
65、,數據中心規模大、信息系統技術棧復雜,對傳統運維模式中國 AIOps 現狀調查報告(2022 年) 51 提出了嚴峻的挑戰,迫切需要運維模式向智能化轉型,通過數據來驅動運維決策,提升穩定性保障能力。 工商銀行數據中心重點圍繞信息系統運維可視化和快速排障能力提升開展智能運維(AIOps)技術的應用創新,構建了以動態運維地圖、日志及指標分析引擎為基礎的多模態智能運維框架,融合了知識圖譜、自然語言處理(NLP) 、異常檢測、關聯分析等機器學習算法,面向運維應用提供分布式架構下拓撲自發現、日志模式自動化解析、指標無閾值監控等服務,并在多個運維場景中取得了良好成效,提升了異常感知能力,輔助實現快速故障定
66、位。 動態運維地圖實現架構與圖譜示意 工商銀行數據中心已構建起基于動態運維地圖、 日志及指標分析引擎的智能運維框架,初步具備了 AIOPS 的服務化能力,面向運維應用輸出實時運維大數據分析能力,提供動態地圖查詢導航、單指標動態基線檢測、指標趨勢預測、多指標關聯分析、日志模式識別及異常檢測等智能分析服務?;谠撈脚_的服務,開展了數據庫健康監測、分布式存儲監控、業務級故障定位等運維場景的研發及落地,并取得了預期的創新成效。 中國 AIOps 現狀調查報告(2022 年) 52 案例 8 AIOps 智能根因定位 中國農業銀行 業務數字轉型與架構分布式轉型對商業銀行業務系統的運維保障工作帶來了巨大挑
67、戰,如何在海量的監控指標、復雜的調用關系中快速識別和定位故障根因成為一個亟需解決的難題。主要體現在以下三個方面:一是數據量大,分布式架構下,告警、指標、鏈路等數據體量龐大,而根因定位又對時效性有較高要求,需要能夠保證較高的算法性能;二是定位數據源種類繁雜,除了監控指標體現出的異常,關聯應用、運維活動、鏈路調用等各類數據均可能導致系統故障,不同類型的數據須采用不同的算法進行分析;三是定位效果差,由于故障根因分析缺少大量有效的訓練集, 因此完全依賴算法在前期較難達到預期效果,往往需要結合一定的專家經驗進行輔助決策。 針對故障根因定位面臨的難點問題, 農行通過構建系統運行健康度實時評估體系、優化海量
68、資源指標算法分析手段、打造 AI 算法與專家經驗相結合的全方位根因定位平臺等方式,實現對系統運行情況的智能洞察與快速定位,有效提升了運維故障的發現和處置效率。 中國 AIOps 現狀調查報告(2022 年) 53 故障根因定位總體流程圖 此外,農行還打造了線上化的智能根因分析工作臺,實現系統關聯信息、資源拓撲信息、運維時間線信息、性能指標信息、根因定位結果的一站式全景匯聚,提供沉浸式根因分析體驗。 目前農行智能根因定位場景已在生產上得到了廣泛應用,為生產異常的“及時發現、準確定位、快速處置”提供了有力支持,其中 AI 根因定位已覆蓋全部應用系統,專家定位流程覆蓋 70 余個系統共積累 200
69、余條專家經驗,生產異常的定位時間壓縮至 5 分鐘以內。 案例 9 AIOps 在銀行業運維操作風險控制領域的實踐 建信金融科技有限責任公司 中國 AIOps 現狀調查報告(2022 年) 54 隨著銀行業務數字化程度不斷提高, 以及監管機構對銀行信息科技風險監管的持續加強,銀行業金融機構需不斷提高自身信息科技風險治理水平,持續加強自身信息科技風險管理能力。建信金科與中國建設銀行運營數據中心合作,共同探索 AIOps 在銀行業運維操作風險控制領域的優良實踐。 根據 DAKOps 和 AIOps 理念,建信金科自主研發了孔明系統智能運維產品。本案例利用其中的采集功能模塊(IT 服務管理等) 、決策
70、功能模塊(運維數據平臺等) ,可視化功能模塊(運維報表等)覆蓋了運維數據的全生命周期管理, 并結合運維操作風險控制場景集合, 形成了對運維操作風險的有效監管。 孔明智能運維產品全景圖 1. 采集、集成運維操作相關數據; 中國 AIOps 現狀調查報告(2022 年) 55 2. 結合“信息科技風險監管報表及監管評級”等監管指標、IT 內控制度、過往銀行操作失誤案例等建立起的風險場景模型和知識,與采集集成的運維操作數據進行分析對比; 3. 利用 AI 算法對 IT 組件使用情況進行預測,結合運維操作相關數據進行建模分析; 4. 通過可視化平臺形成高危風險操作事前預警和風險違規操作事后報告,為后續
71、風險處置等管理活動提供依據。 項目成效: 效率提升:基于運維數據平臺數據收集分析功能、風險控制模型,實現對運維操作行為數據的加工與展示,提升風險檢查的自動化水平。 信息準確:相對于人工抽檢運維風控相關數據,使用該平臺后,大幅度提高發現風險違規操作的全面性和準確性。 風險降低:本案例正在不斷豐富運維領域風險控制場景,結合內審發現問題,可針對部分高危操作行為(例如在監測資源繁忙度高水位場景下實施變更操作風險等) ,實施操作前預警提示,避免操作行為最終違規。 管控及時:構建個人和組織風險審計視圖,對運維操作違規行為進行即時展示及預警,使其及時發現審計風險等問題并跟蹤整改,避免操作風險處理不及時帶來的
72、影響。 案例 10 打造智能運維利器,助力運維數字化轉型 浦發銀行 浦發銀行運維管理經歷多年探索實踐,從“腳本化”走向“自動化” 、進而中國 AIOps 現狀調查報告(2022 年) 56 “智能化” ,近年來利用大數據、人工智能技術自主研發,建立多中心多活實時數據通道、算子可編排流式計算開發框架、多數據源大數據存儲、所見即所得可視化展現、自助可配智能算法建模、面向租戶數據科學家實驗室、自動數據質量校驗數據治理等基礎能力,基于其上探索實踐智能運維場景。 智能運維架構圖 1. 數據中心數字孿生 將數據中心管轄對象數化建模,分場地環境、基礎設施、IT 軟硬件、應用系統、業務交易五層建模,利用大數據
73、、流式計算,建立大中小三屏聯動可視化體系,滿足業務保障、參觀展示、故障定位等需求。利用 kafka、flink 等開源技術,對交易報文、應用日志等多種數據解析聚合,實現端到端鏈路延遲 5秒內。 2. 趨勢預測 根據時序數據趨勢性和季節性特征、節假日和活動大促、時間點突變,結合機器學習分段線性擬合或分段邏輯回歸, 較好的適應數據中易出現波動變化的趨勢項,最終做出對未來的容量評估。目前應用于文件系統和數據庫使用率上,利用歷史三周樣本預測未來一周走勢,提前規劃清理變更或空間擴容。 3. 多指標異常檢測 中國 AIOps 現狀調查報告(2022 年) 57 通過交易指標異常觸發,從海量監控實體的性能指
74、標中,排查出異常的實體并自動分類排序。聚類不同表征的異常機器,采用搜索引擎排序技術Learning-to-Rank 中的 pointwise 對機器指標做排序,利用邏輯回歸方法,自動訓練出合適的排序模型。 隨著應用微服務化、系統架構分布式、數據中心多地多活發展趨勢,浦發銀行在數據可視化、運行監控、容量管理、應急處置方面創新實踐各類智能運維場景,收效顯著,浦發運維人將繼續秉承對運維精細化追求、對運維精進之路持續探索,向數字化、智能化方向邁進。 案例 11 “數字華泰”的智能運維(AIOps)建設 華泰證券 華泰證券于 2019 年啟動全面數字化轉型,2021 年 5 月 24 日, “數字華泰”
75、運營指揮中心正式上線?!皵底秩A泰”運營指揮中心定位于用科技賦能系統運行保障和業務運營分析,引領全面數字化建設,探索運營智能化,打造金融科技“數字指揮中樞”。 華泰證券選擇西駿數據的 MC-Stack 作為基座, 結合華泰證券的實際運維工具體系和運維場景需求,打造“數字華泰”的智能運維大腦: 1. 通過低代碼方式接入現有各種運維工具數據。接入數據源包括統一監控平臺、 CMDB、 日志分析系統、 RPA 系統等等。 接入方式包括 kafka、 Restful-API 等。支持通過配置來實現數據的接入。 2. 構建高性能智能運維大數據平臺,實現實時算法服務。以 X-HDC 大數據管理引擎為核心,分別
76、構建時序數據、日志數據、指標數據、關系數據等中國 AIOps 現狀調查報告(2022 年) 58 的標準化模型,通過分布式任務引擎實現實時大數據分布式處理,提供海量大數據高性能服務。在此基礎上,通過運維算法平臺提供實時算法服務。 智能運維大數據平臺 3. 支持指標的異常監測及 AI 賦能。 基于動態閾值進行指標異常監測, 支持將監測分析結果反向輸出到傳統監控工具, 提升傳統監控工具的預測預警能力。 4. 支持業務場景下的指標、日志關聯分析。支持從日志中抽取各項業務指標,進行關聯分析,及時發現和預警故障隱患。 5. 基于事件追蹤,實現告警根因定位。通過對告警數據的 AI 算法處理,及時發現肇始告
77、警、快速識別告警事件,結合操作記錄、配置變更、日志數據等關聯分析,快速定位告警根因。 “數字華泰” 的智能運維平臺建設, 一方面實現了華泰證券以往分散的 “運維孤島”的數據整合和能力提升,有力保障了華泰證券各項業務的穩定高效運行;另一方面以智能運維平臺為基礎,開啟了華泰證券運維數字化、數智化的轉型之路。 中國 AIOps 現狀調查報告(2022 年) 59 案例 12 智能運維平臺建設實踐 光大證券 光大證券升級大數據平臺、完善日志管理、引進業務監控工具、重構CMDB、建設統一消息總線,完成了基礎工具和數據準備。與必示等智能運維前沿科技公司合作, 不斷探索適配證券行業特點的智能運維場景, 以異
78、常發現、故障定位以及故障處置作為智能運維的建設路徑, 構建符合運維需要的智能運維平臺,并順利完成投產。 基于已積累的豐富運維數據, 光大證券智能運維平臺可利用機器學習算法快速分析大規模運維數據,從異常發現和故障定位兩方面,將現有各類 KPI 數據與業務明細數據、日志數據相結合進行自動化關聯分析,有效改善了故障的發現與定位流程。 光大證券智能運維平臺架構圖 異常發現能力:包括業務指標異常檢測和日志異常檢測場景,業務指標從功能號的角度對業務可用性指標進行實時檢測, 并將指標粒度從分鐘級提升到中國 AIOps 現狀調查報告(2022 年) 60 秒級來適配交易時效性高的特點;日志則從應用日志、系統日
79、志的角度發現日志數據中蘊含的異常事件,并作為故障排查時的佐證。 故障定位能力:包括業務明細多維定位和機器指標異常定位場景,業務明細數據中蘊含豐富的維度數據可用于判斷異常根因維度和故障影響范圍, 機器指標數據則用于判斷 IT 基礎設施對象的運行狀態在故障時段是否存在異常。 智能運維平臺上線以來,取得了顯著成果,有效提升了業務系統的運維質量和系統穩定性,使應對業務系統運維難題和系統潛在風險的能力明顯增強。 項目成效: 海量數據實時檢測分析:核心應用系統運維數據接入檢測范圍和覆蓋率達到 100%,目前核心柜臺運行數據、交易終端運行數據、網絡流量全部已經接入檢測分析,每日實時處理數據近 1T。 節省人
80、力、提升運維效率:實現運維數據集中化管理,節省至少 10 人力/年,提高運維管理人員工作效率。 輔助排障決策,提升系統可用性:在業務指標發生異常時,可以在 1 分鐘之內完成 17 個維度的分析,給出可能的異常維度(組合) ,MTTR 降低50%;系統事件發生后,響應時間從 5 分鐘下降到 1 分鐘,目前平臺已接入近 5 萬個機器指標,通常在 1 分鐘內可以給出根因定位結果。 降低運維成本:通過以開源技術替代商業軟件,直接節約經濟成本 700 余萬元。 案例 13 智能運維分析系統,助力業務運營高效平穩發展 中國 AIOps 現狀調查報告(2022 年) 61 安信證券 安信證券以開源平臺為基礎
81、、利用運維實踐與算法相結合打造智能運維分析系統。從海量的日志和運維數據中提取出有價值的信息幫助系統管理人員更好的了解系統、預測潛在風險、繪制系統畫像、探尋數據規律、感知系統健康度。 智能運維分析系統在技術上主要以開源工具為主體,配合自研前端,靈活運用當前流行的算法和計算框架。系統邏輯架構如下: 智能運維分析系統架構圖 1. 結合券商業務高實效性的特點,平臺采用流批一體的數據處理技術、流式窗口聚合方式,實現了實時采集、秒級處理、秒級查詢。通過流批一體數據處理引擎調用 Kafka Topic 中的數據進行實時解析和聚合,支持對導入的數據進行一定程度的清洗和轉換,如按時間聚合、去重等。并把結果數據寫
82、入持久化數據庫。 2. 平臺利用券商業務規律的特點,利用開市、休市等不同時間的數據對中國 AIOps 現狀調查報告(2022 年) 62 告警系統進行訓練,利用告警熵值計算的方式形成告警收斂,幫助運維人員更加快速定位告警的優先級。 本項目以業務和基礎設施運維數據作為數據采集的核心, 以智能化場景作為切入點。支持應用水平擴展、集群化部署。通過監控,數據,算法三合一的方法,幫助運維人員快速便捷的發現和處理問題,達到智能化運維的效果。 項目成效: 提高業務監控能力,降低運維風險。智能監控平臺是所有監控工具重要信息的匯集處理中心,通過統一的管理平臺,進行告警統一管理發送、性能集中展示、報表集中生成等運
83、維和運營的操作和管理。 提升數據 AI 計算能力。 日志速析異常檢測方面, 我們保留原有的傳統日志監控的同時,增加了速析功能,通過 dtmos、spider 等開箱即用的算法,可以全面覆蓋關鍵字檢測無法監控的日志,對突然出現及偶爾出現的日志進行預警,并且還會監測日志數量突然快速增加或突然減少的情況進行告警,快速的發現基于人工經驗無法識別的異常情況。 中國 AIOps 現狀調查報告(2022 年) 63 (三)服務提供商篇 近幾年,數字化業務轉型正在推動我國 AIOps 市場快速發展,IT 投入在企業中占比逐年增長。我國智能運維行業大致可分為企業自研 AIOps 平臺,企業在已有業務線的基礎上融
84、合AIOps 平臺能力以及專注于 AIOps 系統工具與解決方案領域的 IT 技術產品服務提供商。其中,IT 技術產品服務提供商依托自身創新型智能運維產品和服務模式,為各行業不同業務場景提供豐富多樣的智能運維方案,為企業業務的高速發展提供有力保障。 案例 14 5G 時代 NFV 網絡故障智薦平臺 亞信科技 隨著網絡功能虛擬化(Network Functions Virtualization,簡稱 NFV)等技術的引入,5G 網絡開放性和兼容性進一步提高,結構愈發復雜,技術組件更加多樣,告警數量持續增多,傳統的運維監控手段變得力不從心,亟需引入智能化運維手段和平臺能力,助力故障快速分析。 亞信
85、科技全域智能運維產品助力某運營商,建立 NFV 網絡故障智薦平臺,基于多個網絡資源池數據,及時發現異常并準確定位根因,有效解決告警風暴問題,顯著提高運維效率,保障網絡質量。 在現有網絡云的運維體系中,建設 NFV 網絡故障智薦平臺,定位于提供智能化分析引擎,并與現有系統和流程集成對接,形成 5G 時代網絡智能運維整體方案。 中國 AIOps 現狀調查報告(2022 年) 64 NFV 網絡故障智薦平臺建設方案 NFV 網絡故障智薦平臺通過標準數據接入和處理能力,從監控系統和資源管理系統獲取多個資源池的告警、資源、指標、日志等各類型數據,調用亞信科技自研算法,構建異常檢測、根因分析等多種學件能力
86、,對告警事件按故障維度進行收斂,并通過模式匹配、故障樹和中心度等多維度 AI 方法,進行故障根因智薦,并將結果以 API 方式推送,進一步支持多維故障監控、工單合并收斂等場景應用,為網絡運維注智賦能。 項目成效: 自主構建:方案與運維系統松耦合,以學件能力支持,可自主快速構建新增資源對象分析任務; 融合決策:自研多種算法能力,支持模式匹配、故障樹和中心度多維融合決策,事件收斂定位準確率高; 適用廣泛:方案可適配不同廠家設備,兼容并蓄,適用廣泛; 中國 AIOps 現狀調查報告(2022 年) 65 一體運營:支持智能分析與標注運營閉環管理,效果持續迭代,不斷優化。 目前,該方案已接入多個廠家
87、20 余個資源池的 10000+設備數據,經過長期運營跟蹤,事件聚合準確率 90%左右,根因推薦準確率達到 99%,將網絡云的故障發現和事件收斂時間從原來的平均 1 小時縮短到分鐘級,將故障定位時間縮短到秒級,工作效率得到顯著提升。 案例 15 智能運維云監控平臺,賦能云服務生產能力 擎創科技 隨著國產化系統的逐步替代, 國外商業監控軟件無法進一步實現安全有效的云平臺監控,數據中心等運維管理難度和重要性日漸凸顯,對業務連續性和運維服務質量的要求不斷提高,亟需建設一套科學高效、自主可控的智能化云監控平臺。 為解決企業客戶對智能運維監控系統的國產化需求, 擎創科技智能運維云監控平臺通過智能化組件實
88、現對基礎監控數據的集中查詢和展現, 全面替換原有國外商業監控軟件,實現云平臺中對物理機和虛擬機的智能監控。一方面,該平臺采用自研采集組件,增加統一報表、儀表盤等功能,實現生產環境非云平臺服務器、存儲設備、容器平臺等資源的智能監控;另一方面,平臺搭建多地多數據中心的平臺框架,實現統一聯動的智能化監控。同時,云監控平臺深化智能運維場景,增強 PB 級運維數據納管能力,通過 AI 機器學習平臺,實現故障智能化的定位和自動處理等功能,充分挖掘運營數據價值。 項目成效: 中國 AIOps 現狀調查報告(2022 年) 66 兩端統一監控:監控平臺的目標用戶包含運營端和租戶端;在運營端,監控平臺滿足用戶規
89、?;?、自動化以及智能化的監控需求;在租戶端,監控平臺滿足不同租戶個性化的監控需求。 多態統一監控:包含了傳統物理設備、IaaS、PaaS、容器等多種形態的運維對象,監控平臺滿足多態環境中對不同類型運維對象的統一管理。 跨域統一監控:云監控平臺包含了系統、網絡、日志、應用等不同領域的監控,底層構建統一的運維對象模型,關聯組織不同領域的運維數據,滿足用戶端到端管理的需求。 數據采集、數據處理和數據持久化模塊支持橫向擴展,以確保每個模塊的單位時間的吞吐量以及處理能力,同時每個模塊內部為分布式部署,保證了系統高可用以及數據安全。 數據采集、處理、存儲以及分析等模塊采用了目前主流成熟的開源組件和產品,既
90、有效利用了開源社區的力量,避免重復建設,同時有選擇性地利用以及優化改造,彌補了功能性的不足。 案例 16 基于 AIOPS 的智能運維數字員工 新炬網絡 數字化轉型是企業以客戶為中心, 通過數字化技術推動自身業務重塑和轉型,目前企業 IT 發展已進入全面數字化時代。 “運維數字員工”是圍繞運維數字化管理打造的智能解決方案,基于新炬網絡公司自主研發的智能運維產品中臺,融合智能 ITSM 服務管理和流程引中國 AIOps 現狀調查報告(2022 年) 67 擎、超級自動化 RPA 技術和運維知識圖譜等人工智能技術,為企業級客戶提供服務響應、服務交付、專家支持和安全審計的創新應用,該解決方案在降低運
91、維成本的同時,能提供秒級服務響應,極大提升服務效率與質量,并支持快速橫向擴展到人事、行政、財務等企業管理數字化需求??梢詮V泛應用于各行各業的企業級應用場景,例如:違規/風險識別、智能巡檢、應用發布、數據修復、服務開通等。 新炬網絡智能運維產品中臺 運維數字員工可以將日常運維工作中各種周期性、 重復性以及低價值的運維瑣事自動化高效處理,把運維人員從瑣事中解放出來,投入到創新性和高價值的運維治理工作中: 1. 運維智能客服通過應用自然語言處理技術識別即時通訊軟件中用戶提交的運維服務請求, 基于運維知識圖譜, 檢索和查詢服務結果快速反饋給用戶,實現 7*24 服務請求的秒級響應,可以極大地提升用戶的
92、運維服務體驗。 2. 運維數字員工通過自動化運維操作人工審核和監督,能識別高風險的運維操作,自動審計記錄、風險通告直到完全阻斷高風險運維操作的執行。 中國 AIOps 現狀調查報告(2022 年) 68 3. 通過實時識別故障的特征, 按預案執行自動化處理故障, 實現常見故障的自愈和自動化處理。 技術創新、業務發展以及眾多的新技術的出現也對運維體系帶來了挑戰,金融行業數字化轉型正在積極構建以客戶為中心的數字化運營體系, 以提供長久的核心競爭力。 項目成效: 降低運維成本超過 50%, 大幅度減少重復性和機械性勞動, 解放人力資源。 支持 7*24 小時數字化服務,秒級服務響應,極大提升服務效率超過 70%。 有效避免 90%人為失誤,規避可能出現的合規風險,每步操作都更具可追溯性。 提供多種渠道數字化服務,更高效的線上用戶服務,更優質的用戶體驗。 中國 AIOps 現狀調查報告(2022 年) 69 編后語 云計算開源產業聯盟將繼續關注、跟蹤我國企業實踐 AIOps 的能力成熟度情況。歡迎AIOps 領域廣大企業、研究機構、專家學者和從業人員與報告編寫組聯系(聯系郵箱: ) ,提出您感興趣的調查問題,反饋您的寶貴意見和建議,幫助我們持續提升報告的針對性和實用價值。 感謝您對中國 AIOps 現狀調查報告的大力支持。 云計算開源產業聯盟 2022 年 7 月