《傳音移動互聯可觀測體系設計與落地 - 曹劍.pdf》由會員分享,可在線閱讀,更多相關《傳音移動互聯可觀測體系設計與落地 - 曹劍.pdf(10頁珍藏版)》請在三個皮匠報告上搜索。
1、傳音移動互聯可觀測體系設計與落地曹劍阿里云智能高級產品專家傳音控股業務架構與特點Kubernetes生態IaaSVM、存儲、網絡、安全Web應用微服務A1微服務A2Web應用微服務B1微服務B2PaaS數據庫、中間件阿里云法蘭克福(生產)阿里云新加坡(測試)阿里云上海(開發)技術架構SpringCloud微服務云原生容器化云原生PaaS全球多地域關于傳音控股“非洲手機之王”非洲智能手機市場占比47.9%*,傳音移動互聯廣告平臺作為非洲主流營銷平臺之一,助廣告主通過移動端媒體實現精準有效觸達??捎^測挑戰觀測對象多且雜微服務多,調用鏈路復雜新服務上線頻繁,運維工作量大*統計數據援引 IDCs Wo
2、rldwide Quarterly Mobile Phone Tracker 2021 Q4可觀測性整體設計思路 指標觀測是可觀測基礎,梳理指標體系原則:分層設計,至上而下 告警驅動運維,IM內完成事件閉環 問題定位以鏈路為主日志為輔,指標到鏈路必須打通 開源標準優先,云服務優先黃金三指標SysLogHardware LogAccess logNginx logDB Logs應用日志Logbak/log4jCPUMEMNetwork消息堆積數據庫連接K8s工作負責性能調用鏈路堆棧云服務鏈路VPC FlowTraceRouteTcpDump數據互聯互通,開放,兼容PrometheusOpenTe
3、lemetryGrafana終端應用云服務&容器PaaS基礎架構IaaSJS error/app crash頁面性能PV/UV用戶會話移動端日志調用鏈路堆棧云服務鏈路指標觀測告警鏈路日志全生命周期觀測指標設計1.資源層觀測2.容器層觀測3.云服務層觀測4.應用層觀測應用健康度 耗時、狀態碼、聯通性應用觀測 實例數、累計請求量、累計錯誤、QPS、RT、Error JVM監控(FullGC、Heap 等)慢Sql、Ingress監控(訪問成功率、500錯誤比例、平均延遲)云產品觀測 負載均衡SLB:活躍連接數,丟失連接數 云數據庫Redis:響應時間,連接數使用率 消息隊列MQ:消費延遲,堆積數
4、云數據庫RDS:CPU使用率,活躍會話數節點觀測 內存總量、使用量、限制量 CPU總量、使用量、限制量 網絡帶寬 磁盤空間工作負載 Deployment:期望副本數,可用副本數 Pod:健康度(Running、Pending、Failed),CPU使用率控制面 APIServer:讀寫成功率,在處理量 ETCD:存活狀態,內存使用量事件觀測視圖:從盲點分散到全球全棧統一業務關鍵指標關鍵云服務視圖應用性能技術觀測大盤全局多維度大盤解決觀測分散缺失痛點阿里云Grafana服務(杭州)孟買新加坡法蘭克福數據源全球加速一套觀測產品全球使用K8S集群性能指標Prometheus探針ARMS應用探針阿里云
5、Prometheus服務應用性能指標云服務指標阿里云Grafana服務云監控SDK阿里云服務PaaS容器服務集群工作負載workload告警平臺:從告警盯人到基于群的ChatOps轉變告警事件-等級評估-分配處理人-狀態追蹤事件處理詳情-事后回溯應用監控云監控容器服務監控前端監控值班運維支持排班升級分揀提效壓縮降噪智能分組診斷自愈AI處理流程統一Prometheus數據源ARMS智能告警平臺統一對接飛書群智能降噪內置告警數據分析大盤基于PromQL的告警規則全鏈路追蹤診斷系統:從零散單點到規?;娓采w 容器環境自動接入,運維效率指數級提升 自動生成全局拓撲,微服務依賴一目了然 端到端完整調用
6、鏈追蹤,慢調用錯誤快速定位 指標觀測關聯鏈路和日志,可觀測成為整體應用ARMS Pilot ControllerPrometheus服務容器服務集群POD鏈路、指標自動注入 Java agentARMS應用監控Deployment加入AnnotationARMS應用探針可觀測架構大圖可觀測覆蓋資源層、容器層、PaaS層和Web層全球多地域統一可觀測架構,統一視圖和告警目標架構總結Prometheus實例(容器服務)法蘭克福新加坡孟買深圳Prometheus實例(云服務監控)Prometheus實例(ARMS應用監控)Web應用指標接口黃金三指標,JVM指標云服務觀測指標RDS,Clickhou
7、se,Kafka,消息隊列MQ,SLB,OSS容器層&資源層指標Pod,Deployment,Node,Service,控制面、CPU,內存Prometheus實例(容器服務)Prometheus實例(云服務監控)Prometheus實例(ARMS應用監控)Prometheus實例(容器服務)Prometheus實例(云服務監控)Prometheus實例(ARMS應用監控)Prometheus實例(容器服務)Prometheus實例(云服務監控)Prometheus實例(ARMS應用監控)ARMS應用監控TraceARMS應用監控TraceARMS應用監控TraceARMS應用監控Trace全鏈路追蹤全球統一視圖統一告警飛書群基于Prometheus統一指標通過ARMS應用監控構建全鏈路追蹤系統阿里云Grafana工作區提供統一可觀測視圖ARMS告警平臺對接各種告警事件,統一告警到飛書群處理Grafana工作區ARMS告警平臺可觀測建設之路可觀測基礎,建設指標觀測系統運維第一界面,建設告警體系問題排查定位主力,引入應用性能觀測補充診斷能力,接入日志引入AIOps提效用戶側定位,加入用戶體驗觀測前置到開發測試態,可觀測左移可觀測價值衍生面向業務運維SLOTHANKS