《云原生可觀測Prometheus:構建開放的全??捎^測能力.pdf》由會員分享,可在線閱讀,更多相關《云原生可觀測Prometheus:構建開放的全??捎^測能力.pdf(19頁珍藏版)》請在三個皮匠報告上搜索。
1、云原生可觀測Prometheus:構建開放的全??捎^測能力徐葛阿里云可觀測產品專家Contents目錄01可觀測挑戰和趨勢分享02基于Prometheus x Grafana構建開放的全??捎^測能力03全??捎^測最佳實踐分享可觀測落地挑戰和趨勢Observable Challenges and Trends01企業建設可觀測能力核心挑戰數據和工具割裂超過 63%的企業組織擁有超過 10 種 以上的工具沒有統一的觀測數據模型*成本膨脹業務規模擴大,觀測數據指數增長數據讀寫性能和投入產出比面臨挑戰“無法兌現的價值”技術架構、技術組件迭代快,可觀測能力發揮嚴重依賴專家經驗全球化業務需求、多云、分布式
2、云戰略落地,使企業建設“統一”可觀測能力難度進一步增加*引用ESG調查和信通院可觀測性成熟度白皮書自身性能和穩定性挑戰打通了淘系所有常見中間件的調用數據;大促和單元化的容量規劃、依賴分析提供了數據支撐和故障定位能力EagleEye內部工具商業化,圍繞微服務應用,結合Trace、Metric、Log提供應用可觀測能力ARMS 應用實時監控服務前端監控、APP監控、云撥測基于Prometheus 容器監控多語言鏈路追蹤全??捎^測能力云原生可觀測服務2013201720202022阿里云可觀測十年,從自研走向開放全??捎^測以 ARMS 應實時監控服務、可觀測監控 Prometheus 版、可觀測可視
3、化 Grafana 版、可觀測鏈 OpenTelemetry 版為核,打造云原生時代標準開發可觀測數據生態與產品統一標準而不是統一存儲連接價值而不是搬運數據建設可觀測系統而不是建設數據存儲系統全??捎^測是企業可觀測能力核心具備全??捎^測性的組織,其年平均停機成本下降了 37%,可觀測性的平均投資回報率能提高了 14%。*引自2023 Observability Forecastby New Relic基于 Prometheus x Grafana構建開放全棧的可觀測能力02New Future on CloudPrometheusOpenTelemetry開源標準的數據模型和觀測界面數據完全兼
4、容 Prometheus 和 OpenTelemetry 協議,核心觀測完全基于 Grafana 大盤開放數據探索能力用戶從使用數據到真正擁有數據,使企業能發揮可觀測數據最大價值統一接入統一標準數據存儲數據探索CRM 用戶體驗Grafana應用監控中間件監控容器監控云產品監控調用鏈分析指標探索OpenAPIRemote ReadRemote Write數據投遞200+開箱即用的數據集成基于阿里內部專家經驗沉淀的 300+觀測大盤、1000+告警規則模版更豐富、更開放的生態集成能力指標級成本洞悉以指標為基本單元,構建全局指標上報量聚合視圖。直觀洞悉指標的成本占比分布,友邦保險基于指標成本洞察治理
5、,成本下降 30%*高基數指標分析提供了指標級、標簽級基數查詢,輕松獲取指標的時間線數量、標簽的基數。高效定位高基數指標查詢慢的原因,可做數據治理提速。無端游戲基于基數洞察長周期數據查詢速度提示 10 倍*指標探索集成Grafana Explore,可視化界面支持多元的函數選擇,通過指標名、標簽名、標簽值構造 PromQL,提高易用性。指標畫像支持獲取指標來源、指標名稱、描述、指標類型、付費方式、Job、采集周期等元信息獲取,建立可觀測指標知識庫。指標中心全新發布,構建統一的指標生態視圖阿里云 Prometheus 指標中心分析治理數據統計數據管道指標來源慢查詢預聚合推薦智能降采樣異常診斷指標
6、畫像熱查詢洞察實時寫入實時消費數據加工數據投遞指標上報量指標時間線指標齊全度標簽基數指標元信息采集間隔存儲時長標簽詳情標簽數量*數據來自已授權客戶的真實數據統計覆蓋14個場景包括14個場景相應響應時間、錯誤率、調用量、http狀態碼支持快速覆蓋新場景新場景覆蓋只需要些少量樣例準確率 86.9%基于Chain-of-Thought的Prompt engineering,給大模型更多的相關領域知識,以提升LLM回答的準確率PromQL智能問答:基于 CoT 的 Prompt Engineering*截圖數據來自模擬數據,僅做功能效果示意0.4元/GB50GB/月費用下降 50%99%數據寫入量免費
7、試用分桶指標無損收斂通過持續迭代釋放技術紅利費用下降 60%無試用期限制基本無額外資源消耗說明:新計費模式將于近期開啟公測兩種模式數據上報量對比兩種模式資源占用對比內存開銷CPU開銷資源消耗0.5%費用5099%histogram_quantile(0.95,sum by(le)(sum_over_time(request_duration_bucket_deltaRANGE)histogram_quantile(0.95,sum by(le)(rate(request_duration_bucketRANGE)Prometheus重磅能力:分桶指標無損收斂上線*數據來自可觀測團隊真實測試數據
8、全局聚合實例,實現“去中心化”全局可觀測數據聚合性能提升 10 倍*全面兼容開源支持remote-read,remote-write靈活集成統一Grafana展示開箱預置 300+大盤預制多種數據源配置與阿里云權限體系預集成統一告警預置 1000+告警規則基于 ChatOps 的高效協同智能降噪阿里云容器服務ACK集群阿里云ECS集群自建Kubernetes集群(ACK注冊集群)自建Prometheus阿里云云服務Prometheus實例 for Global View部署在ACK的開源組件指標ACK內的業務指標ACK基礎組件指標部署在ECS上組件及業務指標自建K8S集群內指標云服務指標作為自
9、建存儲源一鍵接入ARMS Prometheus AgentRemote WriteRead Endpoint集成exporter集成exporter&服務發現for 容器服務for ECSfor 云服務for Kubernetesfor Remote Wirte*數據來自與可觀測監控Prometheus版舊版性能進行對比V10.0.x 新特性阿里云新增特性Grafana 托管服務緊跟社區云服務生態-全新的導航欄-新增 4個 panel-多數據源支持-國際化中文支持阿里云可觀測可視化 Grafana 版免運維、高可用、可觀測、云服務集成、數據安全,幫助企業完成統一的觀測分析-SmartMetri
10、cs App插件-ARMS 告警管理 App 插件-支持免密訪問及頁面嵌入支持-支持阿里云賬號一鍵登錄xx-50+云服務集成-開發者版:9.9元/月-支持數據備份-免運維,自動升級,漏洞修復無憂運維可觀測可視化 Grafana 版,全新推出v10.0.x云原生可觀測專家服務全新發布對客戶的業務現狀及應用系統進行全面調研,了解客戶對于業務及應用的規劃以及架構,排摸出客戶的業務架構、技術架構、資源架構、數據鏈路狀況,并初步制定云上可觀測性的目標基于阿里云云原生產品以及開源生態能力,設計覆蓋云上、云下,囊括日志、指標、鏈路追蹤三大觀測數據的統一可觀測技術架構,并幫助客戶落地基于業務特點以及客戶痛點,
11、梳理并設計業務相關的關鍵指標,并設計相關數據采集、存儲和分析使用,以數字化、自動化的方式呈現展示客戶業務系統狀態,方便企業業務人員快速了解業務系統情況基于可觀測性方案設計,進行統一可觀測架構搭建和配置;指標接入和聚合規則便些、鏈路追蹤數據接入支持;配置大盤和報警從決策層、開發側、運維側等多個層級多個維度設計不同的可視化大盤,進行關鍵信息展示,幫助決策層構建業務、應用的全局視角,幫助開發和運維團隊快速發現和排查問題根據客戶需求,進行告警方案設計-包括告警路由規則、告警觸發閾值、告警目的地等進行規劃和設計,降噪,提升問題發現和響應的處理效率可視化大盤設計高信噪比告警方案設計POC驗證/實施業務/應
12、用/IAAS指標和閾值設計統一可觀測架構設計業務/技術/運維架構調研服務內容服務價值提升發現、定位、解決問題的效率建立完善的指標體系和告警體系統一監控、調用鏈、日志整體架構掃碼了解服務詳情幫助 Infra 建立端到端建立可觀測體系,問題、發現定位效率提升50%,提升了業務穩定性。Infra 負責人 全??捎^測最佳實踐分享03New Future on Cloud傳音控股采用 Spring Cloud 進行全面應用微服務化,應用運行在阿里云容器服務 ACK 之上,并分布在歐洲、亞洲等地區,真正實現多地區服務體系。對于該體系而言,要構建完整可觀測體系,挑戰非常大。觀測對象復雜且數量眾多:觀測對象分
13、布在不同的技術棧和架構中,要實現全面覆蓋并有所側重,是非常大的挑戰。排查問線上問題緩慢排查問線上問題緩慢:微服務化后的業務結構變得復雜,排查線上問題需要分析復雜的調用鏈路,需要花費很長的時間。內部推廣難度大:新業務上線頻率高,有些業務為了減少上線工作量,不愿意接入可觀測平臺,需額外進行推廣。監控數據源難以聚合:在實現多地區部署后,每個地區都有一套獨立可觀測平臺,分散在多個地區的可觀測數據無法聚合展示,日常使用非常不方便。無侵入式接入方案:只需要在應用部署時添加 2 行注解,自動注入 Agent 實現全鏈路監控,對代碼無侵入,運維團隊無需花費精力在可觀測平臺推廣上。提供統一指標體系提供統一指標體
14、系:通過 ARMS 和可觀測監控 Prometheus 版,建立覆蓋資源層、容器層、服務層、應用層、用戶體驗層的統一指標體系,實現從零散單點到規?;采w。全鏈路追蹤診斷全鏈路追蹤診斷:接入 ARMS 應用監控后,可以非常方便地查看服務的健康狀況和依賴關系。在線上出現問題時,可以快速拉起全鏈路的調用鏈追蹤并定位到代碼級別,極大的提高排查問題效率。全局數據聚合全局數據聚合:通過可觀測監控 Prometheus 版的全局聚合實例及智能報警中心,對部署在全球各地的業務系統進行統一大盤呈現、統一報警。運維技術全面升級:通過 ARMS 應用監控構建全鏈路追蹤系統,結合可觀測可視化 Grafana 版提供
15、的可觀測統一視圖,再對接 ARMS 告警平臺并推送至飛書群,傳音控股成功實現告警群內協作閉環,實現 ChatOps 運維新范式。提升業務創建效率:傳音控股在建立全新可觀測技術能力后,不僅提升問題診斷效率,還大幅提升用戶體驗。在此基礎上,結合其他云原生新技術方案,業務上線效率提高60%,對高效業務創新起到至關重要的作用。傳音移動互聯全球統一可觀測客戶痛點方案亮點建設成果Web應用指標接口黃金三指標,JVM指標云服務觀測指標RDS,Clickhouse,Kafka,消息隊列MQ,SLB,OSS容器層&資源層指標Pod,Deployment,Node,Service,控制面、CPU,內存全鏈路追蹤P
16、rometheus實例(容器服務)法蘭克福新加坡孟買深圳Prometheus實例(云服務監控)Prometheus實例(ARMS應用監控)Prometheus實例(容器服務)Prometheus實例(云服務監控)Prometheus實例(ARMS應用監控)Prometheus實例(容器服務)Prometheus實例(云服務監控)Prometheus實例(ARMS應用監控)Prometheus實例(容器服務)Prometheus實例(云服務監控)Prometheus實例(ARMS應用監控)ARMS應用監控TraceARMS應用監控TraceARMS應用監控TraceARMS應用監控Trace全球
17、統一視圖統一告警飛書群Grafana工作區ARMS告警平臺本案例數據僅供參考,不代表阿里云觀點/研究數據Tims 天好咖啡通過可觀測助力服務穩定性提升微服務化帶來故障定位緩慢:Tims 天好咖啡的交易鏈路核心服務在面臨每日高峰訂餐時間、營銷活動等情況時,需在高并發大流量下保證服務可用和用戶體驗順暢。但隨著微服務數量逐步增多,鏈路越來越長,故障定位變得漫長與困難。海量持續告警信息難以管理:針對海量持續告警信息,如何進行告警合并,在保證不錯過核心告警消息的前提下抑制告警消息數量,成為 Tims 天好咖啡的急需解決的重要運維難題。缺乏內部運維巡檢機制:隨著業務規模擴張,Tims 天好咖啡計劃建立內部
18、巡檢機制,主動評估發現IT運行風險,圍繞業務連續性保障系統性能、容量、質量管理,打造先于用戶的發現-定位-解決運維巡檢閉環,做到技術驅動業務優化??蛻敉袋c借助前端監控為迭代提供決策依據:采用 ARMS-前端監控掌握 PV/UV、首次渲染耗時等指標同時,實時發現JS錯誤數、API 請求錯誤等影響用戶體驗的異常指標。從多維度監測小程序健康度,降低加載時間、減少JS錯誤,提升用戶體驗。實現全鏈路追蹤:利用 ARMS-應用監控快速掌握應用響應時間,吞吐量,錯誤率黃金三指標,并結合前端監控與應用監控,輕松構建前后端全鏈路追蹤能力,將前端 API 請求從前端發出到后端調用鏈路完整串聯,還原代碼執行完整現場
19、。打造統一指標大盤:針對容器、云服務、應用監控,使用Prometheus+Grafana構建指標監控體系并形成統一大屏。通過阿里云可觀測監控 Prometheus 版獲取相關指標源,結合業務需求與對象賦予各類業務標簽,通過可觀測可視化 Grafana 版為各個應用搭建完整可觀測視圖。構建完整及時的告警體系:針對核心業務,結合業務實踐配置靜態閾值告警,保證告警完整與及時性。借助ARMS Insight 覆蓋響應時間飆升、錯誤飆升等不同場景,自動判別近百種不同問題根因,提升問題診斷效率。方案亮點“如果監控解決的是及時知曉服務故障,那么可觀測的落地最終目的是挖掘故障或異常的本質,分析根因并反哺業務增長與技術體系迭代?!苯柚钥捎^測為代表的阿里云云原生產品解決方案,Tims 天好咖啡更加從容的面對門店、交易數量、會員數量的急速增長,在愈發激烈的市場競爭中始終保持競爭優勢。建設成果本案例數據僅供參考,不代表阿里云觀點/研究數據THANKS