智能運維是什么?
智能運維(AIOps)是使用AI算法,在海量運維數據中全自動學習并匯總規則,進而作出決策的運維方式。智能運維可以快速處理數據,分析出有效的運維決策,執行自動化腳本以實現對系統的整體運維,從而有效運維大規模系統。
這一概念最早由Gartner提出:智能運維就是將人工智能加入運維系統中,基于大數據和機器學習,從不同數據源中采集海量數據進行實時或離線分析,使之主動性、人性化和動態可視化,增強傳統運維的能力。
智能運維的好處
在智能化轉型進程中,傳統運維模式面臨以下三大挑戰:
1.安全運行
如果業務對技術系統的安全穩定運行方面有著高要求,但是功能涉及多個系統應用,所采用的事后處置為主的運維模式,有著異常定位困難、處理效率低等缺陷,這種被動異常響應模式不能滿足異??焖俣ㄎ缓吞幚淼囊?。
2.人力緊缺
由于工作內容枯燥、工作量巨大,運維崗位對人才的吸引力不高。運維需求不斷上升,而人力資源依舊緊缺,這成為了技術系統發展中無法避免的矛盾。
3.遠程運維
在單數據中心發展為多數據中心的過程里,由于地點偏僻、巡檢工作繁瑣重復等困難,會導致傳統運維方式成本和壓力較大。
為了解決以上問題,必須在運維領域引入新技術、新思路和新體系,才能有效提升運維水平,從而確保系統安全穩定高效的運行。如今相關技術已從自動化運維向智能運維演進,借助人工智能,能夠進一步提高運維質量和效率。
目前許多公司正在布局智能運維,探討如何在運維中引入人工智能,以實現事前智能預警、事后快速定位等一系列的智能運維目標,方便應對新環境下的三大運維挑戰,進一步解放與發展生產力。

智能運維的應用場景
智能運維的建設是從局部單點應用的探索,到單點能力完善,再到完全解決某個局部問題的一個過程,直到將各個智能運維場景相結合,構成一體化智能運維能力。
智能運維的應用場景可分為以下幾個層面:
1.運維大數據平臺建設
數據是智能運維具體實施的基礎,因此必須率先建立運維大數據平臺,采集、分析并存儲運維數據,定義標準化的指標體系,選取運維數據,同時積累大量有用運維數據。以性能指標體系為例,可對操作系統、數據庫、中間件等應用建立可供分析的性能指標體系,并在系統運行中獲取性能數據,以此來刻畫各應用的正常狀態、異常狀態的畫像,為后續的檢測、預測、分析等提供基礎的運維知識圖譜數據。
2.局部場景智能化
局部場景智能化意思是對運維場景中的硬件、網絡、數據庫等分別進行智能監控、異常預警、故障發現、故障自愈等場景。局部場景智能化的實現,能讓故障發現、處理、排查的效率得到迅速提升,從而有效確保業務穩定運行。與此同時,這種能力的實現可以讓智能化運維具備場景化、標準化、自動化等能力。
以網絡異常為例,如果智能運維系統檢測到網絡上有異常指標,就會出發告警時間,在運維人員發現并確認故障后,系統就會使用機器學習算法精準定位故障,并且調用自動化運維工具來進行相應的修復操作,完成該場景下故障自愈。
互聯網行業智能運維現狀
1.阿里巴巴
阿里巴巴開發了智能故障管理平臺,基于機器學習,能對業務異常迅速檢測并及時發現故障。利用時間序列分析、機器學習,可以對未來的業務指標趨勢完成預測。阿里云上已成功實行智能運維,故障發現準確率提高至80%,召回率升至90%。曾經由于誤報浪費的操作時間省下了29小時。
2.百度
百度成功實現單機房故障自愈能力,這一技術基于智能流量調度。能夠將止損過程分成三個階段:感知、決策與執行。利用策略框架支持智能化異常檢測、策略編排與流量調度,提升了單機房故障自愈能力。
3.京東金融
京東金融則在云計算數據中心布局了智能巡檢機器人,提高機房及數據中心的巡檢效率、智能化管理水平,不會有人工的錯檢和漏檢,能夠對巡檢數據從事數據化管理和高效利用。
4.騰訊
騰訊在機器學習的基礎上,成功在織云監控平臺完成時間序列異常檢測方案,在海量基于時間序列的日志信息中,極少的時間內實現了異常檢測。
推薦閱讀:
《中興:UniSeer智能網絡運維白皮書(21頁).pdf》
《NARI:智能化運維實踐之IT健康管理(23頁).pdf》
《容知日新-設備智能運維全環節布局互聯時代迎風起航-211019(22頁).pdf》