《高繼翔-可觀測技術應用現狀及發展趨勢研究.pdf》由會員分享,可在線閱讀,更多相關《高繼翔-可觀測技術應用現狀及發展趨勢研究.pdf(23頁珍藏版)》請在三個皮匠報告上搜索。
1、可觀測技術應用現狀及發展趨勢研究可觀測技術應用現狀及發展趨勢研究高繼翔(中國信息通信研究院 云計算與大數據研究所)01可觀測性的背景與價值02可觀測性應用現狀及場景03可觀測性未來發展趨勢發展:發展:從從電氣工程電氣工程到到軟件工程再軟件工程再到到云時代云時代從電氣工程領域誕生從電氣工程領域誕生最早最早的可觀測性概念的可觀測性概念軟件可觀測性提升軟件可觀測性提升系統故障排查效率系統故障排查效率可觀測性最早誕生于20世紀60年代的電氣工程領域,由工程師魯道夫卡爾曼提出,是為了解黑盒系統的運行情況,通過對應的儀表觀察輸出信號來判斷系統運行狀態而提出的概念。軟件普及以后,軟件從業者也需要對軟件系統的
2、運行情況進行檢測。因此,仿照對電氣系統輸出信號進行觀測,誕生了日志和監控兩種早期的軟件系統觀測手段,用于故障發現及故障排查。從從觀察到系統不工作觀察到系統不工作到到了解系統為何不工作了解系統為何不工作云原生讓云原生讓可觀測性可觀測性技術技術和工具持續和工具持續演進演進云原生時代的到來,使應用從單體化程序演變成微服務化,為實現服務可觀測,鏈路追蹤和eBPF應運而生。同時,更多的云廠商、可變基礎設施和第三方技術服務被引入,使可觀測對象持續豐富,觀測數據的治理方式持續進步。從從單體化的程序單體化的程序到到微服務化架構微服務化架構需求:日益復雜的軟件系統催生可觀測性需求:日益復雜的軟件系統催生可觀測性
3、復雜性提高:復雜性提高:傳統單體軟件系統的故障問題一般與代碼自身或數據相關,較容易在開發環境下重現問題并調試。云原生軟件系統往往涉及復雜的大規模分布式運行環境,服務實例可動態創建和銷毀,故障或服務實例可動態創建和銷毀,故障或問題可能與非常復雜的環境因素相關,難問題可能與非常復雜的環境因素相關,難以在開發環境中重現。以在開發環境中重現。應用生態復雜化:應用生態復雜化:傳統單體軟件系統能以自頂向下的方式掌握整體架構并通過靜態分析和演化分析實現架構看護,確保軟件實現與高層架構設計保持一致。云原生系統各個局部的應用及服務以相對獨立自主的方式演化,各服務獨立開發、部署和運行,傳統手段無法有效捕捉服務之間
4、的依傳統手段無法有效捕捉服務之間的依賴和交互關系。賴和交互關系。系統規模增大:系統規模增大:傳統的單體軟件系統規模和復雜度相對較低,開發人員可以通過IDE一次性加載全部或部分代碼,并使用斷點設置、單步調試等方法定位缺陷的根因和位置。云原生軟件系統包含大量分布式的云原生軟件系統包含大量分布式的服務,難以一次性加載并進行調試服務,難以一次性加載并進行調試,而且大量的服務間跨進程調用也使得單步調試無法進行??捎^測性需求增加可觀測性需求增加通過建設可觀測性平臺,高效全面的收集系統運行狀態數據,在此基礎上制定完善的告警策略,可大大提提高系統故障時的響應速率,降低運維人員排查成本,提高系統可用性。高系統故
5、障時的響應速率,降低運維人員排查成本,提高系統可用性。中國混沌工程調查報告(2021)數據顯示,僅不到一半不到一半的受訪企業故障平均發現時長(故障平均發現時長(MTTD)?。┬∮谟?小時小時;超過超過6成成故障平均修復時長(MTTR)超過)超過1小時小時,甚至有約20%的服務故障修復時間超過超過12小小時時。面對故障時無法及時發現、發現后無法及時定位修復,凸顯了系統可觀測性水平的不足。需求:可觀測性是系統穩定性保障的必要手段需求:可觀測性是系統穩定性保障的必要手段數據來源:中國混沌工程調查報告(2021)故障平均發現時長(MTTD)故障平均修復時長(MTTR)利用可觀測性技術所提供的海量系統運
6、行數據,可以構建判斷規則并訓練模型,實現故障智能識別、故障智能識別、根因分析、快速定位以及修復意見根因分析、快速定位以及修復意見。將可觀測性技術與混沌工程、全鏈路壓測混沌工程、全鏈路壓測等穩定性保障技術結合,構建智能巡檢系統,從被動解決問題轉為主動發現問題并預防問題主動發現問題并預防問題,提前規避線上生產環境中的未知故障發生。系統運行情況的觀測水平不足系統運行情況的觀測水平不足,面臨故障時的反應速度差強人意面臨故障時的反應速度差強人意 打造可觀測性底座,賦能其他穩定性保障技術手段打造可觀測性底座,賦能其他穩定性保障技術手段及時有效地觀測及時有效地觀測系統狀態系統狀態,可大大提高系統可用性,可大
7、大提高系統可用性需求:軟件全生命周期的可觀測提升應用交付質量需求:軟件全生命周期的可觀測提升應用交付質量 將可觀測性應用到軟件開發全生命周期,使得軟件開發、測試、部署、運營等關鍵環節白盒化,避免“暗疾”??捎^測性為業務對比及調優提供數據支撐,如A/B測試等多版本功能對比時,通過觀測數據對比版本業務效果優劣,助力服務質量提升。全生命周期可觀測全生命周期可觀測,避免開發過程中,避免開發過程中“暗疾暗疾”應用的CI/CD使得服務的更新迭代速度加快,通過觀測各個環節的指標狀態,確保每個版本更新都能滿足服務質量目標。業界也在推廣敏捷開發流水線與觀測工具的結合,打破打破“先發布,后觀測先發布,后觀測”的現
8、有格局的現有格局:流水線實時讀取觀測數據,確保部署前的測試過程無問題、部署之后版本運行狀況良好。在提升迭代效率的同時,保障版本質量。CI/CDCI/CD可觀測,敏捷開發的同時保障軟件質量可觀測,敏捷開發的同時保障軟件質量01可觀測性的背景與價值02可觀測性應用現狀及痛點03可觀測性未來發展趨勢應用現狀:可觀測性建設初見成效,實踐仍有擴大空間應用現狀:可觀測性建設初見成效,實踐仍有擴大空間可觀測性與傳統監控的認知度分布可觀測性與傳統監控的認知度分布應用價值:應用價值:較傳統監控的優越性得到普遍認可,較傳統監控的優越性得到普遍認可,可觀測性能在故障發現的基礎上可以可觀測性能在故障發現的基礎上可以進
9、行故障分析與診斷。進行故障分析與診斷。傳統監控普遍用于故障發現,難以實現故障分析與輔助故障解決,可觀測性優于傳統監控的特可觀測性優于傳統監控的特性之一即為故障分析與診斷能力性之一即為故障分析與診斷能力。應用成效:應用成效:業內可觀測性建設實踐初見成效,但仍有提升空間。業內可觀測性建設實踐初見成效,但仍有提升空間。當前業界可觀測性初有成效,52.23%的受訪用戶認為通過可觀測性實踐,可擺脫故障解決過程中的專家經驗依賴,42.16%的被測用戶表示大部分生產環境故障可大部分生產環境故障可以直接通過觀測數據解決以直接通過觀測數據解決。是否可以通過生產環境數據進行實時是否可以通過生產環境數據進行實時De
10、bug是否依靠觀測數據而不是經驗進行是否依靠觀測數據而不是經驗進行debug 痛點痛點:可觀測性當前缺乏統一認知可觀測性當前缺乏統一認知、缺乏統一建設方式、缺乏統一建設方式可觀測性概念認知缺乏統一性可觀測性概念認知缺乏統一性可觀測性的統一建設缺乏規范可觀測性的統一建設缺乏規范企業建設可觀測性平臺時,針對不同數據類型,需要搭建獨立的系統處理,導致同一個應用不同類型的數據被存儲在相互獨立的系統,可觀測可觀測數據不規范數據不規范,難以發揮數據最大的價值且維護成本高。目前市面上(開源或者商業)觀測工具琳瑯滿目,簡單組合拼接出來的可觀測性系統能看不能用。企業亟需企業亟需可觀測平臺標準及建設規范指南可觀測
11、平臺標準及建設規范指南??捎^測等同監控告警嗎?監控、日志、鏈路追蹤結合就可觀測嗎?廠商基于各自理解推出的產品,在數據采集、傳輸、存儲、可視化、告警等階段深度綁定深度綁定。行業研究中發現,仍有不少企業對可觀測性的理解還偏向于傳統的監控手段。對于可觀測性的概念缺乏統一認知。痛點痛點:多種可觀測性工具隔離造成數據間的割裂多種可觀測性工具隔離造成數據間的割裂面對越發旺盛的觀測需求,面對越發旺盛的觀測需求,缺乏可觀測的統一認知和建設規范缺乏可觀測的統一認知和建設規范,導致用戶拼接多個觀測工具組建可觀測系統,數據無法整合,出現各觀測工具間導致用戶拼接多個觀測工具組建可觀測系統,數據無法整合,出現各觀測工具
12、間互相獨立、數據互相割裂互相獨立、數據互相割裂的現象。的現象。數據來源數據來源:中國信通院:中國信通院中國混沌工程調查報告(中國混沌工程調查報告(20222022)多種觀測數據(日志、監控指標、鏈路追蹤)多種觀測數據(日志、監控指標、鏈路追蹤)間關聯能力分布間關聯能力分布接近九成的被訪用戶表示,在技術實踐中注重利用可觀測性的故障分析與診斷能力。調查結果顯示,超過半數表示團隊可觀測性工具未能達到足超過半數表示團隊可觀測性工具未能達到足夠靈活的數據關聯與跳轉能力夠靈活的數據關聯與跳轉能力,其中42.02%的用戶表示一部分觀測數據可以建聯并打通,另一部分需要跨平臺索引,而11.92%的用戶表示各種觀
13、測信息之間較為獨立,搜索時需要切換多個平臺。數據格式數據格式不同不同不同工具的數據格式定義各有不同,不同工具的數據格式定義各有不同,無法進行跨工具間的數據流通無法進行跨工具間的數據流通各工具間缺乏協調,數據內容涵蓋不各工具間缺乏協調,數據內容涵蓋不全面,要么重復采集、要么采集不全全面,要么重復采集、要么采集不全多種觀測數據間的內容無法互相印證多種觀測數據間的內容無法互相印證數據處理割裂數據處理割裂不同工具的數據采集方式不同不同工具的數據采集方式不同,造成采集時的資源冗余和浪費造成采集時的資源冗余和浪費不同工具的不同工具的數據儲存策略及載體不同數據儲存策略及載體不同難以跨工具對多種觀測數據難以跨
14、工具對多種觀測數據進行統一分析進行統一分析數據展示割裂數據展示割裂難以跨工具對多種數據進行難以跨工具對多種數據進行統一展示統一展示難以跨工具對多種數據難以跨工具對多種數據進行統一搜索查詢進行統一搜索查詢難以跨工具在多種數據間建立聯難以跨工具在多種數據間建立聯系、系、挖掘并展示數據間的關聯挖掘并展示數據間的關聯國內首個可觀測性行業標準國內首個可觀測性行業標準標準規范了可觀測性信息采集、數據處理、內容使用、以及運維支撐能力,詳細指導建設最先進的可觀測性產品能力。打通日志、監控、追蹤不同工具之間的鴻溝,統一采集可觀測性信息。目前已經有10家企業通過評估。標準化標準化:可觀測性技術可觀測性技術 平臺能
15、力分級要求平臺能力分級要求應用場景:系統實驗與測試應用場景:系統實驗與測試助力混沌工程實驗助力混沌工程實驗&提升全提升全鏈路壓測性能鏈路壓測性能融合場景:融合場景:成本可觀測成本可觀測資源利用率可視化資源利用率可視化&人力成本縮人力成本縮減減融合場景:安全可觀測融合場景:安全可觀測提高檢測準確性提高檢測準確性&幫助安全防護幫助安全防護規章制定規章制定融合場景:站點可靠性工程(融合場景:站點可靠性工程(SRESRE)提升提升SRESRE運轉效率運轉效率&優化系統抗風險能力優化系統抗風險能力擁抱風險服務等級目標(SLO)減少瑣事監控分布式系統自動化演進發布工程簡單化Embracing RiskSe
16、rvice Level ObjectivesEliminating ToilMonitoring Distributed SystemsThe Evolution of AutomationRelease EngineeringSimplicity雖然原則有雖然原則有7 7條條,但是核心只有但是核心只有2 2條條:風險管理風險管理 與與 自動化自動化01可觀測性的背景與價值02可觀測性應用現狀及場景03可觀測性未來發展趨勢可觀測性技術發展趨勢可觀測性技術發展趨勢未來可觀測性從概念未來可觀測性從概念認知、標準制定、建設規范等方面實現大一統,持續推動普及與應用范圍,認知、標準制定、建設規范等方面實
17、現大一統,持續推動普及與應用范圍,總體呈現以下趨勢總體呈現以下趨勢可觀測平臺標準化、普及化可觀測平臺標準化、普及化推進產業對可觀測性概念達成共識解決可觀測性平臺建設方式不統一以及多種觀測工具造成數據割裂等問題撰寫可觀測平臺標準及建設指南,推撰寫可觀測平臺標準及建設指南,推動普及可觀測性應用實踐動普及可觀測性應用實踐觀測數據統一化、豐富化觀測數據統一化、豐富化基于統一的可觀測性平臺,整合統整合統一各種觀測數據。一各種觀測數據。拓寬可觀測性范圍,豐富觀測數據豐富觀測數據的類型與內容的類型與內容應用領域多樣化應用領域多樣化推動可觀測性應用場景進一步擴展,向邊緣側、設備端側應用滲透,推動可觀測領域持續
18、多樣化??捎^測領域持續多樣化。趨勢趨勢1 1:可觀測平臺標準化、普及化:可觀測平臺標準化、普及化2021年,中國信通院牽頭業內可觀測性資深實踐企業編寫行業內首個可觀測性平臺技術能力要求可觀測性平臺技術能力要求行業標準,并納入中國信通院“系統系統穩定性保障穩定性保障”標準體系中,推動可觀測性產品建設標準化、普及化。結合到業界對可觀測性缺乏統一認知及建設指南的現實情況結合到業界對可觀測性缺乏統一認知及建設指南的現實情況,組織專家學者開展可觀測性的概念普及與可觀測性平臺標準化工作。組織專家學者開展可觀測性的概念普及與可觀測性平臺標準化工作。中國信通院聯合了業內頭部企業,與數十位業內資深專家一起編寫可
19、觀可觀測性技術發展白皮書測性技術發展白皮書,旨在向業內輸出一份可觀測性的建設指南及最佳實踐,指導企業可觀測性技術實踐落地。聯合觀測云、阿里云、騰訊云、華為云、日志易、PerfMa等企業的多位可觀測性技術專家共同編寫。趨勢趨勢2 2:觀測數據統一化、豐富化:觀測數據統一化、豐富化持續推動觀測數據的整合工作,持續推動觀測數據的整合工作,推動各類觀測數據的格式及處理的統一化推動各類觀測數據的格式及處理的統一化,持續豐富可持續豐富可觀測的目標對象和數據內容觀測的目標對象和數據內容。社區致力于推動多種觀測數據的格式規范及統一。CNCF所推出的OpenTelemetry作為整合版的可觀測性數據規范及工具,
20、涵蓋日志、監控、及鏈路追蹤,目前已經被業界廣泛使用。標準化的可觀測性產品和平臺也提供了統一化采集處理各類觀測數據的方式,通過對數據進行統一治理、關聯分析,達成數據利用最大化。隨著eBPF技術在可觀測性領域的持續應用,使原本難以觸達的內核級數據也可以被觀測和采集。在三大基礎數據之外,又衍生出了如profile,crash dump等新型數據展示手段,使可觀測性數據類型持數據類型持續豐富續豐富。支持用戶自定義數據采集自定義數據采集等相關功能也成為主流,推動可觀測性數據內容進一步豐滿。趨勢趨勢3 3:應用領域多樣化:應用領域多樣化隨著可觀測性技術發展,應用場景勢必持續增加,隨著可觀測性技術發展,應用
21、場景勢必持續增加,可觀可觀測測應用領域及場景多樣化發展應用領域及場景多樣化發展可觀測性應用領域將更加全面可觀測性應用領域將更加全面容器洞察容器洞察主動巡檢主動巡檢混合云場景混合云場景金融場景金融場景容器洞察容器洞察金融場景金融場景混合云場景混合云場景主動巡檢主動巡檢中國信通院牽頭建設可觀測性標準矩陣中國信通院牽頭建設可觀測性標準矩陣應用場景可觀測性平臺能力公有云公有云私有云私有云混部混部基礎資源可觀測存儲存儲計算計算網絡網絡CDNCDN消息隊列消息隊列數據庫數據庫CI/CDCI/CD觀測性觀測性運維觀測性運維觀測性業務應用可觀測業務應用可觀測基于eBPF的可觀測日志管理日志管理監控指標監控指標鏈路追蹤鏈路追蹤觀測數據觀測數據統一分析統一分析觀測數據觀測數據查詢分析查詢分析觀測數據觀測數據統一存儲統一存儲觀測數據觀測數據統一處理統一處理觀測數據觀測數據統一采集統一采集觀測平臺觀測平臺運維支撐運維支撐根因分析根因分析智能巡檢智能巡檢互聯互通互聯互通2021年-2022年2023年中國信通院牽頭建設可觀測性標準矩陣中國信通院牽頭建設可觀測性標準矩陣歡迎大家參與標準制定高繼翔 17802205852(同微信)關注我們獲取更多云原生資訊Thank you