《04華為云海量規模下故障定界實踐--吳振華.pdf》由會員分享,可在線閱讀,更多相關《04華為云海量規模下故障定界實踐--吳振華.pdf(21頁珍藏版)》請在三個皮匠報告上搜索。
1、華為云海量規模下 故障快速定界實踐華為云/吳振華目錄可觀測性的定義與挑戰華為云可觀測性平臺設計華為云故障快速定界實踐可觀測性未來與展望對于一個軟件工程師來講,寫代碼最痛苦的事情莫過于coding on legacy,但同時又給了工程師們各種說辭:*這些代碼太爛了,改起來太費勁【需要更多人】*這事做不到,因為以前系統架構問題導致的【責任不在我】*經過我的修改,現在已經好很多了,工單數量大批下降【我功勞顯著】*問題在于:下一個接手這些“你”改過的代碼的人其實也在重復說上述3件事情那么什么時候我們開始討論需要把現有系統重構:*代碼確實腐化到無法正常維護,或者新加一個需求代價很大*目前代碼的技術架構滿
2、足不了下一步業務的發展*很多特性已經下線作廢,卻跟有用的代碼藕斷絲連*業務邏輯隨著發展分散到不同的應用里,界限不清*專家級的未雨綢繆,著眼未來的規劃和新技術的應用*換老大了,需要立新的flagWorking on legacyWorking on legacy重構的價值重構的價值0000好書推薦好書推薦可觀測性的定義與挑戰效率要求更高效率要求更高系統更加復雜系統更加復雜環境動態性更強環境動態性更強上下游依賴更多上下游依賴更多開發模式開發模式系統架構系統架構部署模式部署模式基礎設施基礎設施可觀測性為應對復雜的云上環境及分布式系統的復雜性和動態性可觀測性為應對復雜的云上環境及分布式系統的復雜性和動
3、態性監控:監控:指標和日志來了解系統的狀態 檢測已知的故障模式(故障現象)業界主流玩家均積極跟進,已支持或即將支持該開源標準可觀測性:可觀測性:理解和衡量系統的內部,在由微服務構成復雜的云體系中,輕松快速從故障定位到原因主動發現主動發現排錯(Degugging),即運用數據和信息去診斷故障出現的原因;剖析(Profiling),即運用數據和信息進行性能分析;依賴分析(Dependency Analysis),即運用數據信息厘清系統之前的模塊,并進行關聯分析。儀表盤(監控)儀表盤(監控)設備運行監測(可觀測性)設備運行監測(可觀測性)數據采集數據采集&接入層:接入層:關注多源數據接入便利性、采集
4、數據全面性和標準化,聚焦構筑無侵入式數據采集、開放式數據接入、標準化數據模型和統一監控元數據能力高維度時序數據實時計算高維度時序數據實時計算&存儲層:存儲層:高維度時序數據計算、存儲、查詢的性能和成本數據關聯分析層:數據關聯分析層:構筑模型化數據關聯查詢和統計分析能力智能分析層:智能分析層:實時異常檢測和智能故障根因分析(AI+規則)數據展示層:數據展示層:按照不同層次模型自定義視圖展示能力和監控數據探索能力可觀測性平臺能力層次模型可觀測性平臺能力層次模型0101從監控到可觀測性從監控到可觀測性核酸檢測點檢測機構疫情防控中心機場火車站餐飲/酒店移動設備密接風險預警數據支付寶/微信檢測頻率:1天
5、、3天;主動檢測:流動性人口卡點;異常癥狀定義:咳嗽、發燒、呼吸困難發燒定義:37度;隔離措施:個人隔離、小區隔離、封城;風險等級:低風險、中風險、高風險公共場合準入規則:體溫、X天綠碼、行程碼場所所碼掃描:確定停滯地點基于定位的行程軌跡體溫檢測卡場所卡點:體溫檢測傳染范圍分析故障發現故障定級WarRoom故障定界故障恢復故障回溯故障改進華為云故障處理流程初步領域切割對比策略:策略:一、保證核酸檢測的完整性和關聯性;二、優化密接準確性和可操作性;三、降低新冠病毒的重癥率和爆炸面;四、管控兼顧成本、民生。0202疫情防控回顧疫情防控回顧影響面分析0303三個問題三個問題個體、簡單個體、簡單集體、
6、復雜集體、復雜三個三個問題問題如何準確定義個體異常如何準確定義個體異常如何準確定義集體異常如何準確定義集體異常如何快速的發現異常并恢復異常如何快速的發現異常并恢復異常三個挑戰三個挑戰個體異常的快速發現個體異常的快速發現個體與集體的關聯關系個體與集體的關聯關系系統全面可觀測性的應用系統全面可觀測性的應用向后擴散向前溯源華為云可觀測性平臺設計通過監測軟件通過監測軟件/硬件運行狀態,達到指導技術硬件運行狀態,達到指導技術運維和商業運營的目的,即監控運維和商業運營的目的,即監控=監測監測+控制控制監測軟件運行數據(可觀測性)控制采集計算存儲消費分析告警計算極致性能極致性能多維聚合告警多維聚合告警聚合計
7、算實時性能實時性能多維聚合多維聚合擴維計算實時擴維實時擴維標簽管理標簽管理數據查詢分析算子分析算子后置聚合后置聚合定制化消費定制定制ActionAction場景化預置場景化預置亞健康診斷故障預測故障預測異常檢測異常檢測數據采集采集標準采集標準采集方法采集方法 以運營為目的的監控業務占比不不足足5%5%,結合云成為基礎設施的大背景,中小企業上云,有巨大潛在商業價值!以運維為目的的監控業界趨于成熟,資源層、應用層、依賴關系等各項場景化能力建設逐漸完善,并結合AI在探索性進展;監測(可觀測性)監測(可觀測性)控制(價值目的)控制(價值目的)自動擴容運維控制運營控制容器漂移流量調度購物車放棄率審計預警
8、精準營銷 以運維為目的的控制重在保證可靠性可用性,自動化運維,降低資源成本和人力看護成本,提升對于異常情況響應速度;以運營為目的的控制本身在創造利潤,基于計算規則產生操作,結合數字化平臺DP能力建設實時商業自動運營能力。TracingLoggingMetric運維數據運營數據數據存儲存儲成本存儲成本多級存儲多級存儲配置版本一致性版本一致性配置即代碼配置即代碼根因分析依賴鏈路依賴鏈路爆炸半徑爆炸半徑自定義視圖健康度大屏健康度大屏服務視角拓撲服務視角拓撲日志轉指標實時性能實時性能轉義解析轉義解析1010華為云監控定義華為云監控定義監控即發現監控即發現監控即定級監控即定級監控即定界監控即定界監控即恢
9、復監控即恢復CloudScopeCloudScope租戶監控租戶監控CloudScopeCloudScope網絡監控網絡監控統一的可觀測性底座統一的可觀測性底座CloudScopeCloudScope全景監控全景監控采集計算存儲配置監控告警配置即代碼監控告警配置即代碼Monitor Alarm As CodeMonitor Alarm As Code基礎設施即代碼基礎設施即代碼Infrastructure As CodeInfrastructure As Code指標配置SPI告警配置SPI視圖配置SPI指標代碼化告警代碼化視圖代碼化可觀測性可觀測性底座底座全景監控業務底座標準模型標準模型&協
10、議協議Standard Standard Model&ProtocolModel&Protocol日志 log指標 metric調用鏈 trace通用采集管道通用采集管道Universal collection pipelineUniversal collection pipeline事件 events端側預聚合標簽SDKAPIAGENTScripts根因分析根因分析Root Cause AnalysisRoot Cause Analysis網絡拓撲資源拓撲服務拓撲事件/指標/日志/鏈路時序數據行為分析行為分析BehaviaorBehaviaor Analysis Analysis指標探索異常
11、分析告警計算告警計算Alarm CalculationAlarm Calculation指標計算指標計算Metrics CalculationMetrics Calculation指標流式擴維日志流式轉指標指標流式聚合5m/1h/1d空間維度時間維度高階算子告警匯聚/告警抑制分布式自研引擎指標存儲指標存儲Metrics StorageMetrics Storage日志存儲日志存儲Log StorageLog Storage指標日志查詢分析指標日志查詢分析Metrics StorageMetrics StorageGeminiDBCSS后置聚合四大領域模型四大領域模型指標領域模型Metrics
12、Domain日志領域模型Logs Domain調用鏈領域模型Traces Domain告警領域模型Alarm Domain可觀測性可觀測性模型模型分析面向業務本質建立穩定的模型標準,兼容opentelemetry開源生態可觀測性可觀測性場景化場景化租戶資源監控業務底座網絡監控業務底座站點監控主機監控容器監控全局預警Resource FormationGeminiDBCSSMRS云服務云服務Service On Service 基于彈性伸縮、故障隔離的云服務構建告警匯聚SLO鏈路監控監控告警指標告警租戶實例監控站點監控服務監控多生態接入監控定制大屏自定義看板路由監控黑盒撥測監控網絡硬件監控Int
13、ernet質量監控監控告警網絡診斷流監控數據報表網絡拓撲場景化的監控平臺能力DII MaasDWS三方接入三方接入Open AccessOpen AccessOpentelemetry開放式SPI查詢分析服務化服務化聚焦根技術聚焦根技術靈活編排靈活編排穩定開放穩定開放1111華為云可觀測性平臺華為云可觀測性平臺華為云快速定界實踐2121問題定義:指標、癥狀、生病問題定義:指標、癥狀、生病/故障故障CPU90%CPU90%MEM70%MEM70%80DISK8080DISK80體溫體溫3737是否咳嗽是否咳嗽是否流鼻涕是否流鼻涕個體、簡單個體、簡單集體、復雜集體、復雜指標指標癥狀癥狀生病生病指標
14、指標癥狀癥狀系統指標系統指標血壓血壓120/80mmHg120/80mmHg血壓血壓120/80mmHg120/80mmHg確診新冠確診新冠接口響應時長接口響應時長接口吞吐量接口吞吐量確定服務不可用確定服務不可用故障故障對外可見對外可見對客戶可見對客戶可見對象的定義是面向場景的相對關系集群是個體對象的聚合新對象12340基于單節點異常后聚合的集群異常節點ACPU90%閾值水位CPU90%閾值水位節點B節點C節點A異常節點B異常節點C異常CPU90%閾值水位北京四Region三個節點異常聚合定義集群異常三個節點異常聚合定義集群異常1240多節點實時聚合的集群異常節點ACPU90%閾值水位CPU9
15、0%閾值水位節點B節點C節點A異常節點B異常節點C異常CPU90%閾值水位北京四Region3同一窗口三個節點指標異常定義集群異同一窗口三個節點指標異常定義集群異常常相同采集周期下(采集頻率即成本)實時空間聚合在集群異常問題發現比基于異常節點異常數據后再聚合快2分鐘降噪方法:多個數據異常定義為異常多個數據異常定義為異常時間窗和連續點關于3 3個異常點個異常點檢測對比12345678905分鐘時間窗首次告警命中綠色三個點連續3次首次告警命中紅色三個點CPU90%閾值水位節點A1234567890單次閾值沖高通常采取降噪采取降噪不做告警CPU90%閾值水位節點A時間窗比連續次數統計在抖動階段即可發
16、現問題快整個抖動時間2222如何準確有效的發現癥狀如何準確有效的發現癥狀物理機1網絡拓撲+跟蹤VM1Service A網絡1物理機2Service B網絡2VM2VM3VM4物理機3Service C網絡3VM5VM6資源依賴+時間窗告警變更告警告警告警告警重啟服務依賴+服務Trace指標+租戶標簽過濾日志指標日志指標日志指標事件時間維度生長逐步生長的時空多維因果要素圖譜因果要素圖譜生成器對象鏈構建圖譜生成數據收集根因分析引擎場景化決策模型軟件故障環境故障硬件故障網絡故障通用因果知識專有因果知識智能分析模型告警指標探索圖譜式探索HWQL探索新增指標及因果知識迭代識別統一數據源指標鏈路日志數據關
17、聯模型統一事件中心統一事件中心租戶/服務/硬件/網絡異常、變更等事件CloudMapCloudMap服務依賴、資源依賴、網絡依賴事件事件事件告警告警影響分析1234云服務訂閱SLI/SLOSLI/SLO告警或事件告警或事件2323如何基于癥狀快速定位根因如何基于癥狀快速定位根因1分鐘發現5分鐘定界10分鐘自愈屬性(指標)對象邊-關系時間流隱患對象故障對象故障影響關系A A應用應用B B應用應用C C應用應用提前告警告警即定界5分鐘恢復提前告警容災預案免受影響告警告警1 1分鐘發分鐘發現現基于依賴預警基于依賴預警基于多維指標快速定界基于多維指標快速定界基于依賴快速定界基于依賴快速定界容災預案啟動
18、容災預案啟動自愈自愈/手動恢復手動恢復2424如何基于病況預防關系方的影響如何基于病況預防關系方的影響2525華為云海量實例下立體依賴網中快速定界實踐案例華為云海量實例下立體依賴網中快速定界實踐案例redis.clients.jedis.exceptions.JedisConnectionException:*CES AgentAppCES租戶租戶ECSECSAOM AgentRedis實例1RedisRedis節點節點AOM AgentRedis實例3RedisRedis節點節點AOM AgentRedis實例4RedisRedis節點節點DCN1DCN1DCN2DCN2AOM AgentR
19、edis實例2RedisRedis節點節點AOM AgentRedis主RedisRedis節點節點AOM AgentRedis備RedisRedis節點節點硬件監控物理機物理機硬件監控物理機物理機AOM AgentRedis主RedisRedis節點節點硬件監控物理機物理機CARECS HAECS HAAOMCMCredis.clients.jedis.exceptions.JedisConnectionException:*CES AgentApp租戶租戶ECSECS機房間網機房間網絡異常絡異常節點節點HAHA客戶端讀客戶端讀寫異常寫異??蛻舳俗x客戶端讀寫異常寫異常主備切換主備切換流量下跌
20、流量下跌硬件硬件告警告警變更事件流量下跌流量下跌EventDBEventDB客戶側客戶側華為側華為側MNEtCMSSMARTIT硬盤損壞硬盤損壞CLS可觀測性未來與展望理論理論監控對監控對象象微服務監控方監控方法法鏈路分析全局視圖單機服務集群服務ServerLess微服務微服務ServiceMesh?多端采集根因定界根因定位單指標告警故障預判流量預測采集智能化行為分析自我保護聚合分析多指標告警日志分析調用鏈異常檢測資源監控應用監控軟件行業的發展集群單體系統云計算1.0云原生不確定單點監控一體化監控可觀測性智能化智能閾值標準化采集監控理論的演進亞健康診斷個人感冒:單一故障感知流行性感冒:集體故障
21、感知新冠疫情防控:集群細粒度溯源&影響?故障發現故障定界故障恢復變更風險容量規劃SRE故障定位性能優化架構依賴DEV問題定位監控設計開發&測試環境灰度&現網環境發發布布軟件生命周期軟件生命周期前提增強角色角色角色場景角色場景監控場景監控場景BOSS/CXO業務方向決策,績效評估等大屏,報表報表,決策決策,報警運維值班,日常變更,問題解決,風險評估,例行演練大屏大屏,值班值班,變更變更性能數據對比,安全安全風控,故障定位與解決故障定位與解決,故障演練,報表,報警報警產品經理/運營產品/工具的交付上線和運營產品體驗產品體驗,活動效果對比活動效果對比,報表研發產品交付上線,軟件生命周期端到端,功能性
22、能持續優化大屏大屏,值班值班,性能調優性能調優,故障定位故障定位與解決與解決,產品體驗產品體驗,報警報警測試測試全流程活動,故障模擬演練性能調優性能調優,故障復盤,產品體驗安全安全全流程活動,安全攻防演練安全風控安全風控,安全變更變更對比,攻防演練,報警3030監控發展歷程監控發展歷程3131面向目的可觀測性能力探索面向目的可觀測性能力探索通過監測軟件通過監測軟件/硬件運行狀態,達到指導技術硬件運行狀態,達到指導技術運維和商業運營的目的,即監控運維和商業運營的目的,即監控=監測監測+控制控制監測軟件運行數據(可觀測性)控制采集計算存儲消費分析告警計算極致性能極致性能多維聚合告警多維聚合告警聚合
23、計算實時性能實時性能多維聚合多維聚合擴維計算實時擴維實時擴維標簽管理標簽管理數據查詢分析算子分析算子后置聚合后置聚合定制化消費定制定制ActionAction場景化預置場景化預置亞健康診斷故障預測故障預測異常檢測異常檢測數據采集采集標準采集標準采集方法采集方法 以運營為目的的監控業務占比不不足足5%5%,結合云成為基礎設施的大背景,中小企業上云,有巨大潛在商業價值!以運維為目的的監控業界趨于成熟,資源層、應用層、依賴關系等各項場景化能力建設逐漸完善,并結合AI在探索性進展;監測(可觀測性)監測(可觀測性)控制(價值目的)控制(價值目的)自動擴容運維控制運營控制容器漂移流量調度購物車放棄率審計預警精準營銷 以運維為目的的控制重在保證可靠性可用性,自動化運維,降低資源成本和人力看護成本,提升對于異常情況響應速度;以運營為目的的控制本身在創造利潤,基于計算規則產生操作,結合數字化平臺DP能力建設實時商業自動運營能力。TracingLoggingMetric運維數據運營數據數據存儲存儲成本存儲成本多級存儲多級存儲配置版本一致性版本一致性配置即代碼配置即代碼根因分析依賴鏈路依賴鏈路爆炸半徑爆炸半徑自定義視圖健康度大屏健康度大屏服務視角拓撲服務視角拓撲日志轉指標實時性能實時性能轉義解析轉義解析