《1-張志勇-云原生時代的應用可觀測性平臺.pdf》由會員分享,可在線閱讀,更多相關《1-張志勇-云原生時代的應用可觀測性平臺.pdf(36頁珍藏版)》請在三個皮匠報告上搜索。
1、云原生可觀測平臺-Hera在小米的最佳實踐2023 深圳站張志勇小米微服務與效率體系從0到1的建設者小米云原生的主導者和推動者云原生技術專家,開源社區參與者和貢獻者,Apache Dubbo Committer、HERA 項目負責人2023 深圳站目錄CONTENTS2023 深圳站HERA 介紹2023 深圳站Hera 介紹-云原生應用觀測平臺Hera機器應用容器網絡Hera是由小米-中國區-Mione團隊開源的一款云原生應用觀測平臺(https:/ 應用健康狀態、指標看板、接口大盤、應用大盤 等豐富的監測看板及簡潔明了的可視化明文報警。Hera 是什么?2023 深圳站Hera 介紹-云原
2、生應用觀測平臺Hera 核心特性快 報警-指標-鏈路-日志的串聯和聯動,給用戶帶來極致的問題排查效率準 基于業務錯誤碼提取可用性指標,更理解業務請求的狀況經濟 小于1%存儲成本,滿足99.9%的tracing訴求擁抱云原生 遵循Opentracing標準、深度適配K8S、集成Opentelemetry、Grafana、Prometheus、ES等多個開源明星組件低侵入 基于Opentelemetry探針機制2023 深圳站Hera 產品介紹2023 深圳站Hera挑戰20秒排查線上故障2023 深圳站HERA 在小米-中國區的最佳實踐2023 深圳站Hera 探索-小米對云原生的探索基于Doc
3、ker自研容器編排技術,資源和網絡隔離,內部進行大量的驗證擁抱開源擁抱開源,積極推進開源社區發展(Hera目前已開源),積極參與反饋調研 k8s operator 使用場景,拓展k8s 能力。探索基于 operator 的自動擴縮容,心跳檢測等服務擁抱Kubernetes推出基于 k8s 的 CICD 平臺,基于云原生架構,快速部署、高效管理探索研發2023 深圳站Hera建設的背景&痛點服務質量指標缺失業務接入效率低報警效率低問題發現難故障定位難監控工具多、分散、鏈路無法串聯工程依賴復雜、排查難度高依賴經驗豐富的高級工程師,定位周期遠大于5分鐘修復周期長低效的問題發現與定位結合冗長的上線驗證
4、流程將導致過長的事故恢復周期痛點服務穩定性保障的1-5-10之痛?1分鐘發現,5分鐘定位,10分鐘解決2023 深圳站微服務可觀測核心要點RPC可觀測“三劍客”2023 深圳站Hera實踐1:統一微服務架構微服務化容器化統一語言微服務統一Java統一RPC:MSF統一注冊&配置中心:Nacos熔斷限流:Sentinel以K8S為底座,封裝CI/CD流水線平臺,讓業務應用完成容器化升級2023 深圳站Hera實踐2:業務可用性指標生怕遺漏:日志關鍵字告警、指標告警、異常告警、重試告警、rpc告警等等告警多(多等于無)告警不準并不影響最終業務:異常重試、預警類的等等漏報:業務catch住了異常,封
5、裝錯誤碼能不能面向SLA預警?業務可用性指標(業務可用性=正確請求數/總請求數)統一業務錯誤碼對象Result 統一錯誤碼規范:5xx錯誤碼為影響SLA請求 業務只需配置一個可用性指標告警即可2023 深圳站Hera實踐3:metrics、tracing、logging聯動 異常的span數據,會提取traceId、應用、實例、接口等屬性進行單獨存儲;Request-scoped metrics 由鏈路數據按規范生成;告警觸發時,可以從指標中可以提取到應用、接口、實例等信息,通過這些信息查詢異常鏈路,實現聯動;指標和鏈路聯動 在Java 應用,接入鏈路追蹤探針后,在log pattern中配置
6、%Xtrace_id,日志輸出時,將會自動打印traceId。Go應用可自行打印 traceId 到日志中。日志和鏈路聯動MetricsMetricsTracingTracingLoggingLoggingaggregatablerequest scopedeventsrequest scoped metric1423request scoped eventsaggregatable eventsrequest scoped,aggregatable events2023 深圳站Hera實踐4:業務應用一鍵接入Hera默認開啟狀態背后原理基礎鏡像集成探針jar文件應用啟動時注入啟動參數打通Mi
7、one部署平臺2023 深圳站Hera實踐5:簡潔高效的報警卡片認領:用于統計告警認領率查看監控:跳轉Hera,快速查看異常請求的調用鏈路和日志支持不同方式(電話、飛書、郵件等)和不同級別(P0、P1等)的用戶告警觸達(群組或個人)報警卡片2023 深圳站Hera實踐6:覆蓋四類問題場景2023 深圳站Hera實踐7:運行時彈性保障運行時全托管全方位監控運行時的各種非正常狀態。如指標激增、異常、錯誤等。智能決策分析實時分析應用程序的各項指標并作出決策,如自動擴縮容,服務自動限流和降級等Hera運行時2023 深圳站44%40%5%5%用戶數 3000+中國區信息部手機部互聯網業務部Hera 使
8、用概覽2023 深圳站HERA 架構2023 深圳站Hera 平臺技術方案HERA 平臺技術方案核心架構穩定性策略擴展性架構探針設計日志設計數據鏈路設計部署設計數據收集策略數據過濾策略限流/熔斷策略遵循云原生規范報表配置解耦協議配置2023 深圳站Hera 核心架構2023 深圳站Hera 日志架構space+store 兩級日志隔離機制;采集、推送、解析等各環節高度支持自定義2023 深圳站Hera 尾采樣1%的存儲空間,滿足 99.9%Tracing 需求2023 深圳站Hera 報警指標告警報警發送日志告警數據存儲業界統一指標自定義指標系統指標備份、存儲持久化、歷史數據查詢根據接入的日志
9、輸入告警規則,根據匹配方案輸出告警多個輸出方案告警,提供統一的規則,自定義2023 深圳站HERA 未來規劃2023 深圳站Hera 未來規劃 鏈路縱深上不斷擴展(前端、k8s、Linux、存儲等)智能化能力沉淀:智能排錯、故障恢復策略 持續推進 Hera 開源,歡迎社區共建:https:/ 2023.04)注冊用戶超過4300萬,覆蓋90%的中文開發者新媒體矩陣粉絲數量超過3100萬超過1000家企業客戶和合作伙伴目前公司員工近800名,分布在北京、長沙、上海、深圳、杭州、成都等城市,并在美國硅谷常設辦事處旗下品牌旗下品牌專業中文IT技術社區:CSDN.NET多媒體專業出版:新程序員開發者專屬移動APP:CSDN APP代碼托管協作平臺:GitCode代碼工具協同平臺:InsCodeIT人力資源服務:科銳??怂关俗W絡高校IT技術學習成長平臺:高校俱樂部