《4-1 可觀測系統中的告警管理實踐.pdf》由會員分享,可在線閱讀,更多相關《4-1 可觀測系統中的告警管理實踐.pdf(25頁珍藏版)》請在三個皮匠報告上搜索。
1、可觀測系統中的告警管理實踐王金良 北京睿象科技有限公司 技術總監|01可觀測性的整體生態02告警在可觀測系統中的價值03可觀測系統中告警管理的核心功能04智能告警管理最佳實踐目錄 CONTENT|01可觀測性的整體生態|運維可觀測性整體生態近兩年,可觀測性紅遍IT運維領域,火起來的導火索是CNCF(云原生計算基金會)在云原生定義中提到 Observerbility,并聲稱這是云原生時代的必備能力。加之包括谷歌在內的眾多大廠一擁而上,“可觀測性”正式出道。谷歌給出可觀測性的核心價值很簡單:快速排障(troubleshooting)對于業務系統,尤其是云原生時代的分布式、微服務化、容器化的復雜應用
2、,隨著系統業務量日益龐大、內部結構日益復雜、組件間交互日益頻繁,傳統的監控管理手段已經不足以滿足新時代的需求,可觀察性就自然而然地被引入IT領域,變成與性能、可用性、可靠性、可擴展性一樣的關鍵維度。有業界專家一句話總結傳統監控與可觀測性的區別:“監控告訴我們系統的哪些部分是工作的;可觀測性告訴我們那里為什么不工作了?!眧運維可觀測性整體生態業務可觀測性其實就是對一個系統內部狀態的測量、觀察的能力;在有一些領域也叫可維、可測、可控能力。談起可觀測性的概念,必須要從“三大支柱”這個名詞講起。2017年,一篇博文總結了可觀測性的三大支柱:指標(Metrics)、追蹤(Tracing)、日志(Logg
3、ing),文中將可觀測性問題映射到了如何處理指標(metrics)、追蹤(tracing)、日志(logging)三類數據上,由此形成了流傳很廣的業務可觀測性三大支柱理論。那么業務可觀測性就可以具體化為:如何定義、獲取、分析這三個層面的數據。實現對業務系統的運行狀態、異常狀況、服務質量的可觀測、可發現、可管理的能力。三大支柱理論出現后的幾年間里,這個觀點受到了業內的廣泛認可,發展為對可觀測性能力的基本要求,并且每一個方面都有了眾多成熟的解決方案。例如各類開源工具:聚焦于Metrics的:Prometheus、zabbix、Grafana等;聚焦于Tracing的:Skywalking、Open
4、Tracing等;聚焦于Logging的:ELK、Graylog等。|運維可觀測性整體生態1980s1990s控制監控管理CA(2018年被189億美元收購)BMC(2018年83億美元收購)IBM(市值1100億美元)HP(市值160億美元)2000s2010sITOM需求層次運營Solarwinds(市值50億美元)Splunk(市值300億美元)2020sOpsware(16億美元被HP收購)Atlassian(580億美元市值)Servicenow(1060億美元市值)dynatrace(120億美元市值)Elastic(130億美元市值,開源)Datadog(市值500億美元)產品以
5、APM和日志監測為主的IT運維公司;在2020年將事件管理加入產品體系Pagerduty(市值35億美元)為企業級用戶提供以實時運維管理和數據分析為主的IT服務平臺全球IT運維領域誕生了數十個百億美金公司|運維可觀測性整體生態國內市場 國內IT 運維的潛在發展空間超過千億元,其中,金融、制造、能源等領域的大中型客戶的年客單價達到幾百萬元。例如前瞻產業研究院數據顯示,2012-2019年,中國IT運維市場規模呈現波動趨勢。從增速來看,2014年達到近年來最高增速17.34%,達到了1121.2億元的市場規模。2019年,中國IT運維市場規模達到2324.3億元,同比增長15.73%,2020年我
6、國中國IT運維市場規模達到2690億元左右。艾瑞咨詢數據顯示,2021年中國IT服務將突破萬億大關,其中,IT運維市場規模在2021年達到2941.2億元,預計2023 年達到3236.4 億元,2020-2023 年的年復合增長率為 11.7%。引入業內大佬的一句表述:到目前為止,IT運維賽道已經逐漸的層級化,強者逾強,因為軟件領域一旦產品化程度高了,技術壁壘隨之建立起來,逐漸的收斂市場。在這樣的形勢之下,完全初創沒有積累的企業再進入,發展難度會越來越大。|02告警在可觀測系統中的價值|運維可觀測性整體生態圖片引自dockone.io可觀測性并不是在取代監控,它也不是一種我們通常理解的某一個
7、監控或運維工具的形態。相比較而言,可觀測性更像是描述一種屬性的范疇,很多時候是種能力的體現形式,越復雜的系統越需要這種屬性或能力??捎^測性也并非萬能的,它可以引導開發人員找到準確的答案,但也只是停留在引導層面,不能不能保證讓他們100%找到答案。這個過程當中依舊需要當事人對系統、網絡等有著良好的理解甚至直覺,才能讓定位問題變得輕松并高效。告警作為IT運維信號總量的金字塔尖,對于可觀測性接下來的流轉及判斷起著至關重要作用。而統一的、準確的、智能化的告警平臺的誕生,為可觀測性平臺的分析,提供了更為可靠的“現象”,可幫助運維人員接下來分析原因引導方向。|智能告警管理平臺企業數字化運營的中樞神經告警管
8、理成熟度模型|告警管理分級名稱定義特點L0有監控無告警通過監控工具或日志對IT系統的運行狀態進行監控,但未配置告警或缺少告警模塊,無法實時獲取系統故障信息。被動感知系統故障,運維效率低下。L1告警分散管理通過不同監控工具的告警模塊分別配置告警策略和通知機制,告警管理分散在各個監控工具之中。任務分派和通知手段單一,管理效率低下。L2告警統一管理將不同監控工具或系統產生的告警接入統一的管理平臺,實現告警的統一分派和通知,并能基于規則對告警進行去重和壓縮。豐富分派和通知手段,降低告警處理量。L3告警智能管理通過運用人工智能算法,無需人工參與的情況下,自動識別告警類別和新增類型,對復雜場景下的相似告警
9、進行更高比例的壓縮降噪。極大減少告警處理量,提升告警故障分析效率。L4根因告警定位通過運用知識圖譜技術和告警專業領域知識,能夠自動推薦各個業務場景下海量告警信息中的根因告警。自動定位系統故障根因,減低系統運維難度。L5告警自愈針對根因告警,通過結合告警故障知識庫和運維自動化工具,對系統故障進行自動恢復。并通過不斷地知識沉淀,提升自愈能力。沉淀運維知識,實現真正的無人值守。|03可觀測系統中告警管理的核心功能|睿象云智能告警平臺Cloud Alert簡介告警整合告警加工告警模式發現On-call 管理告警管理告警分析智能告警平臺核心能力:睿象云智能告警平臺是一套支持 SaaS 和本地化部署的告警
10、管理工具類產品,能夠收集企業內部的事件類數據(機器日志、告警等),IT配置信息(業務調用關系、CMDB 等),和知識數據(故障手冊、廠家文檔、告警處理意見等)等三種 IT 運維數據。通過事件驅動發現異常事件,自動分析事件根因,對未來可能發生的威脅及時預警,并結合解決方案智能推薦形成企業內部智能運維體系閉環。|CA智能告警核心能力:告警整合管理云監控基礎設施監控電話微信短信APP郵件APP應用和服務監控云監控網絡監控協作平臺通知工具會議協作項目和流程管理其他企業數字化運營中樞神經連接 10 大類近 100 種 DevOps 主流工具和平臺覆蓋開發和運維人員日常工作環境分鐘級完成系統和人員的連接|
11、CA智能告警核心能力:告警智能化處理 模式發現 基于規則和人工智能算法,對符合特征的告警進行分類、聚合、降噪,自動監測和發現異常情況,降低超過 95%的 IT 噪音?;谝巹t的模式發現:通過正則表達式,用戶自定義告警分類和聚合規則,對特征事件進行歸類和壓縮?;谌斯ぶ悄芩惴ǖ哪J桨l現:將無監督與有監督算法相結合,自動對告警進行識別分類,并對相似和相關事件進行聚合和壓縮。事件異常檢測:通過算法實時檢測告警發生頻次,基于信息熵,自動發現突發事件和異常事件。告警處理 通過數據格式化,自定義字段提取和內容豐富,為基于算法的模式發現提供數據準備。告警數據格式化:根據智能事件平臺數據規范和事件源的格式對應
12、關系,以鍵值對的形式分拆原始事件。自定義數據標簽:依據事件特征,賦予事件自定義屬性值;或從事件主體中自定義提取字段。告警數據豐富:通過映射豐富技術在數據映射表中查找關聯關系來為原始事件增加新的數據字段和值。1萬家 企業、2億條 原始數據230萬條 人工標注20種 人工智能算法3GB 專業特色詞庫2年 模型在線訓練和迭代95%+告警降噪比JZ-A-SW-02 I nterface Ethernet1/0/7:O perati onal status:dow n(2)網絡狀態i nterface|ethernet|operati onal|status|dow n網絡狀態 10%i nterfac
13、e|50%ethernet|10%operati onal|10%status|20%dow n原文分詞,標注Zabbi x server CPU i ow ai tti m e:89.94%Zabbi x agent i s unreachabl e ti m e:5 硬件處理器 zabbi x|server|cpu|i ow ai t|ti m e網絡狀態 zabbi x|agent|unreachabl e|ti m e硬件處理器 10%zabbi x|15%server|40%cpu|30%i ow ai t|5%ti m e網絡狀態 10%zabbi x|40%agent|40%un
14、reachabl e|10%ti m e特征選擇事事件件分分類類模模型型數據準備模型訓練使用反饋Free di sk space i s l ess than 20%on vol um e/l di sk磁盤人工標注分詞算法停用詞字典特色詞字典分類算法參數調整|CA智能告警核心能力:分派和協作On-Call Management 是智能告警平臺的管理控制模塊,幫助企業將事件處理流程固化下來,通過分派、升級、轉發、協作、排班等操作,確保信息在個人、組、團隊間高效的協同。分派:以任務為對象,根據一定的限制條件將事件指定給某個具體人員。升級:當前任務在約定時間內未被分派人員認領,該任務將自動升級到上
15、一級事件處理人員。轉發:當前任務處理人員無法解決該問題時,可以手動的將該任務轉發給其他人員或組。協作:對于需要多人共同處理的任務,可以交由多個個人或組來協作進行處理,也可發起面向第三方協作辦公工具的協作。排班:按小時、日、周、或自定義周期制定周期性的多人工作安排計劃。On-Call Management 通過落地企業事件管理最佳實踐,將任務分配工作變得更加簡單,加強了團隊內的責任和質量管理。通過直觀、靈活的調度和升級,可以確保重要信息每次都通知到正確的人員。|CA智能告警核心能力:知識庫和知識圖譜2020年9月份聯合中山大學計算機學院陳鵬飛教授團隊,發布全球首個面向運維領域的中文知識圖譜 CO
16、KG(Chinese Operation Knowledge Graph)。首批發布圖譜包含:30 多萬個實體,400 萬個實體關系,并成功應用于黑龍江移動、中船重工等用戶。知識圖譜是人工智能技術的重要組成部分,旨在幫助運維人員描述企業 IT 系統中各種實體或概念及其關系,從而構成一張巨大的語義網絡。知識圖譜是智能問答、知識推理、決策分析的技術基礎。COKG 運維知識圖譜模型跨用戶共用運維行業知識庫。單用戶私有知識庫。超過5萬條運維故障分析和處理建議。運維知識自動與告警信息相匹配,主動推送知識給處理人員。運維知識庫|CA智能告警核心能力:分析及可觀測事件分析 以服務為對象對事件進行多維度實時分
17、析,通過對事件、告警、事件集、服務、團隊、相應操作和業務影響的整體視圖,達成對告警態勢的可觀測性,最終實現更智能的實時決策。多維度儀表盤及APP以可視化方式展現運營指標和 KPI。事件智能降噪分析。智能事件異常分析。團隊成員績效分析。事件詳情分析。日、周、月報表查詢和導出。事件的歸檔和分析是形成事件管理閉環的重要組成,幫助團隊從海量的信息中實時洞察業務狀態,歸納事件特征,沉淀處理經驗。|04智能告警管理最佳實踐|助力德電中國打通運維監控最后一公里平臺價值平臺上線前平臺上線后告警匯聚監控工具多樣,告警散落在各個系統,缺少統一管理一個平臺對接處理所有監控工具的告警告警收斂告警量大,告警風暴、告警疲
18、勞,易忽略重要事件去重+降噪+聚類,聚焦重點問題,告警量減少98%告警分派告警無差別通知,缺乏自動升級機制和響應機制每類告警按規則分派到負責人,升級機制保障更及時響應,告警送達率100%告警通知通知方式單一,重要告警湮沒在海量郵件中5種通知手段,包括,微信、電話、郵件、短信、APP等根因分析人力有限,告警量多且難以定位故障根因,故障恢復慢幫助定位故障根源,更快解決問題,故障定位時間縮短80%分析優化沒有數據作為分析回顧,決策靠拍腦門頻發告警統計,告警規則發現,自動推送報告T-Systems 是全球信息和通信技術(ICT)領域的領導者之一,也是德國最大的云服務提供商,業務遍布 20 多個國家。德
19、電(中國)通信技術有限公司是 T-Systems 全資子公司,在北京、上海、香港、深圳和武漢都設有分公司,主要為在華德國企業和國內企業提供傳統系統和傳統 ICT 服務的安全運營、面向云服務的轉型以及新業務模型和未來業務領域的創新項目??蛻舯尘肮芾硖魬鸬码娭袊诟鞔箜椖恐薪⒘藰藴实倪\維服務管理體系,以及 24 小時的 Service Desk 團隊,負責通知工程師項目運行重要事件,但隨著項目的不斷擴容,不同監控系統中產生的事件逐漸增多,對告警系統提出了更嚴格的要求。當前的告警工具和流程無法及時準確的將信息通知到對的人,導致錯過了解決問題最佳時機,對項目運維造成了很大困擾。運維部門急需一個統一的
20、告警平臺,打通監控最后一公里。通過智能事件平臺實現對現有監控工具事件信息的接入和存儲。通過平臺的智能算法對海量告警進行去重降噪歸類。通過平臺的On-Call機制和通知手段,對告警進行及時分派和推送。推薦相關告警的根因,輔助運維人員快速定位故障。應對方案|助力德電中國打通運維監控最后一公里|為某國有綜合性投資集團成功搭建IT可觀測性平臺 某國有綜合性投資集團(以下簡稱“該集團”)是一家以金融為主體、涵蓋投資與資產經營的國有綜合性控股集團,成立于2004年。截止2019年末,該集團合井資產總額達1722.56億元。隨著信息化的不斷深入,該集團的T環境日趨復雜,傳統的監控手段已經無法滿足日常運維的要
21、求。睿象云分兩期為該集團成功搭建了IT可觀測性平臺??蛻舯尘肮芾硖魬饝獙Ψ桨疙椖恳爰谢婢翱梢暬\維理念,整合已建成的基礎監控、應用監控、模擬撥測、配置管理等多種運維工具所產生的告警信息,使其可集中通過內部APP平臺來進行告警統一發送;抽取現有基礎監控、應用監控、模擬撥測、配置管理等多種運維工具所產生的數據指標信息,通過監控數據多維度大屏展示等方式,實現運維數據高度可視化,同時針對互聯網區的業務系統,通過主動撥測方式實時監控其可用狀態。1多種監控工具告警分散:存在多種告警監控工具,包括基礎資源監控、應用性能監控工具、模擬撥測系統等,告警策略過于分散,管理較為不便;2.互聯網區的核心業務系
22、統缺乏監控手段:互聯網區的核心業務系統缺乏有限監控和觀測手段監控實時其相關性能情況;3.缺乏可視化大屏展示:缺乏可視化大屏視圖將一期的IT運行監控系統的數據通過直觀的、圖形化的方式呈現出來;|為某國有綜合性投資集團成功搭建IT可觀測性平臺通過可視化視圖將信息化建設成果、業務系統組成、系統運行態勢以及日常運維工作等信息通過多層次、多維度的展現視圖直觀、綜合呈現出來,其中包含基礎網絡可視化、服務器、數據庫等基礎IT軟硬件資源監控管理可視化、核心應用可用性呈現、核心應用運行態勢感知、告警可視化等內容,通過面向領導、管理者、運維人員構建不同的管理視圖,實現信息化環境和工作的可見??捎^測性成果智能告警平臺服務的客戶科技互聯網IT 服務游戲傳媒保險金融制造零售非常感謝您的觀看|